国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
介紹
學(xué)習(xí)目標
目錄
什麼是在線學(xué)習(xí)?
批次與在線學(xué)習(xí):比較概述
實時應(yīng)用程序在線學(xué)習(xí)的優(yōu)勢
被動攻擊算法簡介
鉸鏈損失在被動攻擊學(xué)習(xí)中的作用
鉸鏈損失的定義
理解等式
被動攻擊算法的數(shù)學(xué)表述
步驟1:初始化重量向量w
步驟2:對於每個新數(shù)據(jù)點(xi,yi),xiis特徵向量和yi是真正的標籤,預(yù)測的標籤?_iis計算為:
步驟3:計算鉸鏈損失
步驟4:使用以下更新規(guī)則調(diào)整重量向量W
了解侵略性參數(shù)(C)
正則化在被動攻擊算法中的影響
這樣的公式以:
差異可以簡單地說明:
被動攻擊算法的實時應(yīng)用
垃圾郵件過濾
情感分析
仇恨言論檢測
欺詐檢測
股市分析
推薦系統(tǒng)
局限性和挑戰(zhàn)
建立仇恨言論檢測模型
為實時數(shù)據(jù)處理設(shè)置環(huán)境
安裝所需的庫
導(dǎo)入庫並設(shè)置Reddit API
清潔和預(yù)處理文本
設(shè)置預(yù)貼BERT模型以標記
使用bert嵌入將文本轉(zhuǎn)換為向量
流式傳輸實時reddit數(shù)據(jù)並訓(xùn)練被動攻擊分類器
評估模型性能
結(jié)論
常見問題
首頁 科技週邊 人工智慧 在線學(xué)習(xí)和被動攻擊算法指南

在線學(xué)習(xí)和被動攻擊算法指南

Apr 13, 2025 am 11:09 AM

介紹

數(shù)據(jù)是從社交媒體,金融交易和電子商務(wù)平臺等來源的前所未有的速度生成的。處理這種連續(xù)的信息流是一個挑戰(zhàn),但它提供了一個及時,準確的決定的機會。實時系統(tǒng)(例如金融交易,語音助手和健康監(jiān)控系統(tǒng))依靠連續(xù)的數(shù)據(jù)處理來提供相關(guān)和最新的響應(yīng)。

批處理學(xué)習(xí)算法(例如KNN,SVM和決策樹)要求在訓(xùn)練期間將整個數(shù)據(jù)集加載到內(nèi)存中。在使用大型數(shù)據(jù)集時,這變得越來越不切實際,導(dǎo)致重大存儲和內(nèi)存問題。在使用實時數(shù)據(jù)時,這些效率也很低。

由於這個問題,我們需要一種在處理大量數(shù)據(jù)時既有效又準確的算法。在這方面,被動攻擊算法使自己與眾不同。與批處理學(xué)習(xí)算法不同,它們不必在完整數(shù)據(jù)集上進行培訓(xùn)即可進行預(yù)測。被動攻擊性算法從即時的數(shù)據(jù)中學(xué)習(xí),消除了將整個數(shù)據(jù)集存儲或處理存儲在內(nèi)存中的需求。

學(xué)習(xí)目標

  • 在線學(xué)習(xí)及其在使用大量數(shù)據(jù)時的意義。
  • 在線學(xué)習(xí)和批處理學(xué)習(xí)算法之間的區(qū)別。
  • 被動攻擊算法背後的數(shù)學(xué)直覺。
  • 不同的超參數(shù)及其在被動攻擊算法中的重要性。
  • 被動攻擊算法的應(yīng)用和用例。
  • 被動攻擊算法的局限性和挑戰(zhàn)。
  • 在Python中實現(xiàn)被動攻擊分類器,以檢測實時REDDIT數(shù)據(jù)的仇恨言論。

本文作為數(shù)據(jù)科學(xué)博客馬拉鬆的一部分發(fā)表。

目錄

  • 什麼是在線學(xué)習(xí)?
    • 實時應(yīng)用程序在線學(xué)習(xí)的優(yōu)勢
  • 被動攻擊算法簡介
  • 鉸鏈損失在被動攻擊學(xué)習(xí)中的作用
  • 被動攻擊算法的數(shù)學(xué)表述
    • 了解侵略性參數(shù)(C)
  • 正則化在被動攻擊算法中的影響
  • 被動攻擊算法的實時應(yīng)用
  • 局限性和挑戰(zhàn)
  • 建立仇恨言論檢測模型
    • 為實時數(shù)據(jù)處理設(shè)置環(huán)境
    • 設(shè)置預(yù)貼BERT模型以標記
  • 常見問題

什麼是在線學(xué)習(xí)?

在線學(xué)習(xí),也稱為增量學(xué)習(xí),是一種機器學(xué)習(xí)範式,該模型可以通過每個新數(shù)據(jù)點進行逐步更新,而不是一次在固定數(shù)據(jù)集上進行培訓(xùn)。這種方法允許該模型不斷適應(yīng)新數(shù)據(jù),從而使其在隨著時間的推移隨時間發(fā)展的動態(tài)環(huán)境中特別有用。與傳統(tǒng)的批處理學(xué)習(xí)方法不同,在線學(xué)習(xí)可以通過處理新信息到達時實時更新和決策。

批次與在線學(xué)習(xí):比較概述

讓我們在下面研究批處理與在線學(xué)習(xí)比較:

批處理學(xué)習(xí):

  • 培訓(xùn)方法:批次學(xué)習(xí)算法一次在固定數(shù)據(jù)集上訓(xùn)練。經(jīng)過培訓(xùn)後,該模型將用於預(yù)測,直到使用新數(shù)據(jù)對其進行重新訓(xùn)練。
  • 示例:神經(jīng)網(wǎng)絡(luò),支持向量機(SVM),K-Nearest鄰居(KNN)。
  • 挑戰(zhàn):再培訓(xùn)需要從頭開始處理整個數(shù)據(jù)集,這可能很耗時且計算昂貴。對於大型且增長的數(shù)據(jù)集,這尤其具有挑戰(zhàn)性,因為即使使用強大的GPU,再培訓(xùn)也可能需要數(shù)小時。

在線學(xué)習(xí):

  • 培訓(xùn)方法:在線學(xué)習(xí)算法使用每個新數(shù)據(jù)點逐步更新模型。該模型不斷學(xué)習(xí)並實時適應(yīng)新數(shù)據(jù)。
  • 優(yōu)點:此方法對於處理大型數(shù)據(jù)集和動態(tài)數(shù)據(jù)流更有效。該模型以最少的計算資源進行更新,並且可以快速處理新的數(shù)據(jù)點,而無需從頭開始重新培訓(xùn)。
  • 應(yīng)用程序:在線學(xué)習(xí)對需要實時決策的應(yīng)用程序有益,例如股票市場分析,社交媒體流和推薦系統(tǒng)。

實時應(yīng)用程序在線學(xué)習(xí)的優(yōu)勢

  • 持續(xù)適應(yīng):在線學(xué)習(xí)模型適應(yīng)新數(shù)據(jù)的到來,使其非常適合隨著時間的推移(例如在欺詐檢測系統(tǒng)中)發(fā)展的環(huán)境。這樣可以確保模型保持相關(guān)性和有效性,而無需從頭開始重新審查。
  • 效率:在線學(xué)習(xí)算法不需要與整個數(shù)據(jù)集進行完整的重新培訓(xùn),從而節(jié)省了大量的計算時間和資源。這對於具有有限的計算功率(例如移動設(shè)備)的應(yīng)用程序特別有用。
  • 資源管理:通過逐步處理數(shù)據(jù),在線學(xué)習(xí)模型減少了對廣泛存儲空間的需求。處理後可以丟棄舊數(shù)據(jù),這有助於有效地管理存儲並保持系統(tǒng)輕巧。
  • 實時決策:在線學(xué)習(xí)可以實現(xiàn)實時更新,這對於依賴最新信息的應(yīng)用程序至關(guān)重要,例如推薦系統(tǒng)或?qū)崟r股票交易。

被動攻擊算法簡介

被動攻擊算法首先由Crammer等人引入。 2006年,他們的論文名為“在線被動攻擊算法”。這些算法屬於在線學(xué)習(xí)類別,主要用於分類任務(wù)。這些是有效的,因為它們可以逐步從每個數(shù)據(jù)點學(xué)習(xí),調(diào)整其參數(shù),然後從內(nèi)存中丟棄數(shù)據(jù)。這使得在處理龐大的數(shù)據(jù)集和實時應(yīng)用程序時,被動攻擊算法特別有用。此外,它的適應(yīng)能力可以快速使其在數(shù)據(jù)分佈可能會隨著時間變化而變化的動態(tài)環(huán)境中表現(xiàn)良好。

您可能想知道這個不尋常的名字。這是有原因的。該算法的被動部分意味著,如果正確地對當(dāng)前數(shù)據(jù)點進行了分類,則模型保持不變,並保留從先前的數(shù)據(jù)點獲得的知識。另一方面,侵略性部分錶明,如果發(fā)生錯誤分類,該模型將大大調(diào)整其權(quán)重以糾正誤差。

為了更好地了解PA算法的工作原理,讓我們在二進制分類的背景下可視化其行為。想像一下,您有一組數(shù)據(jù)點,每個數(shù)據(jù)點屬於兩個類之一。 PA算法旨在找到一個分離的超平面,將數(shù)據(jù)點分為各自的類別。該算法從對超平面的初始猜測開始。當(dāng)新的數(shù)據(jù)點被錯誤分類時,該算法會積極地更新當(dāng)前的超平面,以確保正確對新數(shù)據(jù)點進行分類。另一方面,當(dāng)數(shù)據(jù)點正確分類時,則無需更新超平面。

鉸鏈損失在被動攻擊學(xué)習(xí)中的作用

被動攻擊算法使用鉸鏈損失作為其損耗函數(shù),是該算法的關(guān)鍵構(gòu)件之一。這就是為什麼在我們深入研究算法背後的數(shù)學(xué)直覺之前,要了解鉸鏈損失的運作至關(guān)重要。

鉸鏈損失廣泛用於機器學(xué)習(xí),特別是用於培訓(xùn)分類器,例如支持向量機(SVM)。

鉸鏈損失的定義

它被定義為:

在線學(xué)習(xí)和被動攻擊算法指南

  • W是模型的重量向量
  • xi是第i-th數(shù)據(jù)點的特徵向量
  • yi是第i -th數(shù)據(jù)點的真實標籤,如果進行二進制分類,則可以是1或-1。

在線學(xué)習(xí)和被動攻擊算法指南

讓我們以二進制分類問題為例,其中目標是區(qū)分兩個數(shù)據(jù)類。 PA算法隱含地旨在最大化決策邊界和數(shù)據(jù)點之間的邊距。邊緣是數(shù)據(jù)點和分離線/超平面之間的距離。這與SVM分類器的工作非常相似,SVM分類器也將鉸鏈損失用作其損耗函數(shù)。較大的邊距表明分類器對其預(yù)測更有信心,並且可以準確區(qū)分這兩個類別。因此,目標是盡可能頻繁地達到至少1個邊緣。

理解等式

讓我們進一步分解,看看方程如何有助於達到最大利潤:

  • w·xi:這是權(quán)重矢量W和數(shù)據(jù)點XI的點產(chǎn)物。它代表了對分類器預(yù)測的信心程度。
  • yi *(w·xi):這是分類器的簽名分數(shù)或邊距,其中符號由真實標籤yi確定。正值表示分類器預(yù)測正確的標籤,而負值表示它預(yù)測了錯誤的標籤。
  • 1 - yi *(w·xi) 這測量了所需的邊距(1)和實際邊緣之間的差異。
  • max(0,1 - yi *(w·xi)):當(dāng)邊緣至少1時,損耗等於零。否則,損失隨著邊緣赤字而線性增加。

簡而言之,鉸鏈損失會懲罰不正確的分類以及不夠自信的正確分類。當(dāng)數(shù)據(jù)點至少用單位邊緣正確分類時,損失為零。否則,如果數(shù)據(jù)點在邊緣或錯誤分類之內(nèi),則損失隨距離邊緣的距離線性增加。

被動攻擊算法的數(shù)學(xué)表述

被動攻擊性分類器的數(shù)學(xué)基礎(chǔ)圍繞著維護根據(jù)傳入數(shù)據(jù)點的分類誤差進行更新的權(quán)重向量W。這是算法的詳細概述:

給定一個數(shù)據(jù)集:

在線學(xué)習(xí)和被動攻擊算法指南

步驟1:初始化重量向量w

步驟2:對於每個新數(shù)據(jù)點(xi,yi),xiis特徵向量和yi是真正的標籤,預(yù)測的標籤?_iis計算為:

在線學(xué)習(xí)和被動攻擊算法指南

步驟3:計算鉸鏈損失

在線學(xué)習(xí)和被動攻擊算法指南

  • 如果預(yù)測的標籤?_i是正確的,邊距至少為1,則損失為0。
  • 否則,損失是1和邊緣之間的差異。

步驟4:使用以下更新規(guī)則調(diào)整重量向量W

對於每個數(shù)據(jù)點x_i,如果l(w;(x_i,y_i))> 0(錯誤分類或不足):

更新的重量向量w_t 1的給出為:

在線學(xué)習(xí)和被動攻擊算法指南

如果l(w;(x_i,y_i))= 0(用足夠的邊距正確分類):

然後,重量矢量保持不變:

在線學(xué)習(xí)和被動攻擊算法指南

請注意,這些方程在求解約束優(yōu)化問題後出現(xiàn),目的是在類之間獲得最大邊緣超平面。這些取自原始研究論文,這些論文的推導(dǎo)超出了本文的範圍。

這兩個更新方程是被動攻擊算法的核心。這些意義可以簡單地理解。一方面,更新需要新的權(quán)重值(W_T 1)才能正確地用足夠大的邊距對當(dāng)前示例進行分類,從而取得了進展。另一方面,它必須保持盡可能靠近較舊的重量(W_T),以保留在上一輪中學(xué)習(xí)的信息。

了解侵略性參數(shù)(C)

侵略性參數(shù)C是被動攻擊算法中最重要的超參數(shù)。它控制算法在發(fā)生錯誤分類時如何更新其權(quán)重。

高C值會導(dǎo)致更積極的更新,從而可能導(dǎo)致更快的學(xué)習(xí),但也增加了過度擬合的風(fēng)險。該算法可能對數(shù)據(jù)中的噪聲和波動過於敏感。另一方面,C值的低值會導(dǎo)致較不積極的更新,從而使算法對噪聲和異常值的強大更強。但是,在這種情況下,適應(yīng)新信息,減慢學(xué)習(xí)過程的速度很慢。

我們希望該算法能夠從每個新實例中逐步學(xué)習(xí),同時避免過度適合嘈雜的樣本。結(jié)果,我們必須努力在兩者之間取得平衡,從而使我們能夠在保持模型穩(wěn)定性和防止過度擬合的同時進行重大更新。在大多數(shù)情況下,C的最佳值取決於特定數(shù)據(jù)集以及學(xué)習(xí)速度和穩(wěn)健性之間所需的權(quán)衡。在實際情況下,諸如交叉驗證之類的技術(shù)用於獲得C的最佳值。

正則化在被動攻擊算法中的影響

現(xiàn)實世界中的數(shù)據(jù)集幾乎總是包含一定程度的噪音或不規(guī)則性。標籤錯誤的數(shù)據(jù)點可能導(dǎo)致PA算法在錯誤的方向上大大改變其權(quán)重向量。這個單一標記的示例可能會導(dǎo)致隨後的回合中的幾個預(yù)測錯誤,從而影響模型的可靠性。

為了解決這個問題,還有一個更重要的超參數(shù)有助於使算法對數(shù)據(jù)中的噪聲和異常值更強大。在錯誤分類的情況下,它傾向於使用更溫和的重量更新。這類似於正規(guī)化?;墩齽t化參數(shù),稱為PA-I和PA-II,該算法分為兩個變體。

這些主要在步長變量τ (也稱為歸一化損耗)的定義上有所不同。對於pa-i,損失被上限為侵略性參數(shù)C的值。

這樣的公式以:

在線學(xué)習(xí)和被動攻擊算法指南

對於PA-II,步長或歸一化損失可以寫為:

在線學(xué)習(xí)和被動攻擊算法指南

在被動攻擊性分類器的Sklearlen實施中,該正則化參數(shù)被視為損失??梢愿鶕?jù)我們要使用的兩個PA-I和PA-II中的哪一個設(shè)置為兩個值之一。如果您想使用PA-I變體,則應(yīng)將損失設(shè)置為“鉸鏈”,否則為PA-II,損失設(shè)置為“平方 - 鉸鏈”。

差異可以簡單地說明:

  • PA-I是一種更具侵略性的變體,它放鬆邊緣約束(邊緣可能小於一個),但在預(yù)測不正確的情況下,損失損失。這會導(dǎo)致學(xué)習(xí)速度更快,但比其對應(yīng)者更容易出現(xiàn)離群值。
  • PA-II是一種更強大的變體,可以四處懲罰損失,使其對嘈雜的數(shù)據(jù)和異常值更具彈性。同時,這使其更加保守,以適應(yīng)數(shù)據(jù)的差異,從而導(dǎo)致學(xué)習(xí)速度較慢。

同樣,這兩個之間的選擇取決於數(shù)據(jù)集的特定特徵。實際上,通常建議在選擇任何一個變體之前嘗試具有不同C值的兩個變體。

被動攻擊算法的實時應(yīng)用

從實時數(shù)據(jù)處理到自適應(yīng)系統(tǒng),在線學(xué)習(xí)和被動攻擊算法具有廣泛的應(yīng)用程序。下面,我們研究了在線學(xué)習(xí)的一些最有影響力的應(yīng)用。

垃圾郵件過濾

垃圾郵件過濾是文本分類的重要應(yīng)用,其目標是區(qū)分垃圾郵件和合法電子郵件。 PA算法的逐步學(xué)習(xí)能力在這里特別有益,因為它可以根據(jù)新的垃圾郵件趨勢不斷更新模型。

情感分析

情感分析涉及確定在文本中表達的情感,例如推文或產(chǎn)品評論。 PA算法可用於構(gòu)建實時分析情感的模型,適應(yīng)新的語,表達和情感趨勢。這在社交媒體監(jiān)控和客戶反饋分析中特別有用,及時見解至關(guān)重要。

仇恨言論檢測

仇恨言語檢測是PA算法可能非常有用的另一個關(guān)鍵應(yīng)用。通過從仇恨言論的新實例中逐步學(xué)習(xí),該模型可以適應(yīng)不斷發(fā)展的語言模式和上下文。這對於在Twitter,F(xiàn)acebook和Reddit等平臺上保持自動審核工具的有效性至關(guān)重要,以確保更安全,更具包容性的在線環(huán)境。

欺詐檢測

金融機構(gòu)和在線服務(wù)不斷監(jiān)視交易和用戶行為,以檢測欺詐活動。 PA算法通過每項新交易更新其模型的能力有助於確定欺詐模式出現(xiàn)的模式,從而為不斷發(fā)展的欺詐策略提供了強有力的防禦。

股市分析

金融市場的股票價格高度動態(tài),要求模型快速響應(yīng)新信息。在線學(xué)習(xí)算法可以通過從新的市場數(shù)據(jù)中逐步學(xué)習(xí)來預(yù)測和分析股票價格,從而及時,準確地預(yù)測貿(mào)易商和投資者。

推薦系統(tǒng)

在線學(xué)習(xí)算法也可以在大規(guī)模推薦系統(tǒng)中使用,以根據(jù)用戶互動動態(tài)更新建議。這種實時適應(yīng)性可確保隨著用戶偏好的變化,建議保持相關(guān)和個性化。

這些是在線學(xué)習(xí)算法真正發(fā)光的一些領(lǐng)域。但是,它們的能力不僅限於這些領(lǐng)域。這些也適用於其他各個領(lǐng)域,包括異常檢測,醫(yī)學(xué)診斷和機器人技術(shù)。

局限性和挑戰(zhàn)

儘管在線學(xué)習(xí)和被動攻擊算法在處理流數(shù)據(jù)並適應(yīng)快速變化方面具有優(yōu)勢,但它們也有缺點。一些關(guān)鍵局限性是:

  • 被動攻擊算法順序處理數(shù)據(jù),使它們更容易受到嘈雜或錯誤的數(shù)據(jù)點的影響。單個離群值可能會對模型的學(xué)習(xí)產(chǎn)生不成比例的影響,從而導(dǎo)致預(yù)測或有偏見的模型。
  • 這些算法一次僅看到一個數(shù)據(jù)實例,這限制了他們對不同數(shù)據(jù)點之間的總體數(shù)據(jù)分佈和關(guān)係的理解。這使得很難識別複雜的模式並做出準確的預(yù)測。
  • 由於PA算法實時從數(shù)據(jù)流中學(xué)習(xí),因此它們可能會與最新數(shù)據(jù)過高,並可能忽略或忘記早期數(shù)據(jù)中觀察到的模式。當(dāng)數(shù)據(jù)分佈隨時間變化時,這可能導(dǎo)致概括性能差。
  • 選擇侵略性參數(shù)C的最佳值可能具有挑戰(zhàn)性,並且通常需要實驗。高價值提高了攻擊性導(dǎo)致過度擬合,而低價值會導(dǎo)致學(xué)習(xí)緩慢。
  • 評估這些算法的性能非常複雜。由於數(shù)據(jù)分佈可以隨時間變化,因此在固定測試集??上評估模型的性能可能不一致。

建立仇恨言論檢測模型

Twitter和Reddit等社交媒體平臺每天都會產(chǎn)生大量數(shù)據(jù),使其非常適合測試我們對在線學(xué)習(xí)算法的理論理解。

在本節(jié)中,我將通過使用Reddit的實時數(shù)據(jù)從頭開始構(gòu)建仇恨語音檢測應(yīng)用程序來演示實際的用例。 Reddit是一個以其多元化社區(qū)而聞名的平臺。但是,這也面臨著有毒評論的挑戰(zhàn),這些評論可能會受到傷害和虐待。我們將構(gòu)建一個可以使用REDDIT API實時識別這些有毒評論的系統(tǒng)。

在這種情況下,由於數(shù)據(jù)量的龐大,培訓(xùn)一個模型將不可能一次。此外,數(shù)據(jù)分佈和模式會隨著時間而變化。因此,我們需要無源攻擊算法的幫助,能夠在不存儲內(nèi)存中將數(shù)據(jù)從數(shù)據(jù)中學(xué)習(xí)。

為實時數(shù)據(jù)處理設(shè)置環(huán)境

在開始實施代碼之前,您必須首先設(shè)置系統(tǒng)。要使用REDDIT API,如果您還沒有,則必須在Reddit上創(chuàng)建一個帳戶。然後,創(chuàng)建一個REDDIT應(yīng)用程序,並獲取您的API密鑰和其他憑據(jù)進行身份驗證。完成這些先決條件後,我們準備開始創(chuàng)建仇恨言論檢測模型。

代碼的工作流程看起來像這樣:

  • 使用“ praw”庫連接到Reddit API。
  • 流傳輸實時數(shù)據(jù)並將其輸入模型。
  • 使用BERT模型對數(shù)據(jù)進行標記,以進行仇恨語音檢測任務(wù)。
  • 使用被動攻擊性分類器逐步訓(xùn)練模型。
  • 在看不見的測試數(shù)據(jù)集上測試我們的模型並測量性能。

安裝所需的庫

第一步是安裝所需的庫。

 PIP安裝PRAW SCIKIT-LEARN NLTK變形金剛火炬Matplotlib Seaborn opendatasets

要與Reddit合作,我們需要“ praw”庫,即Reddit API包裝器。我們還需要“ nltk”進行文本處理,``scikit-learn“用於機器學(xué)習(xí),``matplotlib''和`seaborn''和`seaborn'用於可視化,``transformers''和`transformers''和`torch'用於創(chuàng)建單詞嵌入並加載微調(diào)的bert bert bert bert模型,並從kaggle加載數(shù)據(jù)。

導(dǎo)入庫並設(shè)置Reddit API

在下一步中,我們使用“ praw”導(dǎo)入所有必要的庫,並設(shè)置與Reddit API的連接。它將幫助我們從Subreddits流式評論。

導(dǎo)入
進口praw
導(dǎo)入火炬
導(dǎo)入NLTK
導(dǎo)入numpy作為NP
導(dǎo)入大熊貓作為pd
導(dǎo)入matplotlib.pyplot作為PLT
進口海洋作為SNS
導(dǎo)入OpEndataset作為OD
來自nltk.corpus導(dǎo)入停止詞
來自sklearn.feature_extraction.text導(dǎo)入tfidfvectorizer
來自sklearn.linear_model導(dǎo)入passiveaggressiveclalsifier
來自sklearn.metrics導(dǎo)入精度,confusion_matrix,classification_report
來自sklearn.model_selection導(dǎo)入train_test_split
從變形金剛導(dǎo)入汽車,AutoModeForSequenceCecrification,AutoTokenizer
從變形金剛導(dǎo)入bertforeSequencecrification,berttokenizer,textClassification pipeline

#Reddit API憑據(jù)
reddit_client_id = {your_client_id}
reddit_client_secret = {your_client_secret}
reddit_user_agent = {your_user_agent}

#設(shè)置Reddit API連接
reddit = praw.reddit(client_id = reddit_client_id,
                     client_secret = reddit_client_secret,
                     user_agent = reddit_user_agent)

要成功設(shè)置REDDIT實例,只需用您的憑據(jù)替換上述佔位符,就可以使用。

清潔和預(yù)處理文本

在處理原始文本數(shù)據(jù)時,通常有包含符號,主題標籤,land詞等的示例。由於這些對我們的模型沒有實際用途,因此我們必須首先清潔文本才能刪除它們。

 #下載停止字
nltk.download('stopwords')
stop_words = set(stopwords.words('英語'))

#清潔文本並刪除停止詞
def clean_text(文本):
    text = re.sub(r'http \ s | www \ s | https \ s','',text,flags = re.multiline)
    text = re.sub(r'\@\ w | \#','',text)
    text = re.sub(r'\ w',',text)
    text = re.sub(r'\ d',',text)
    text = re.sub(r'\ s','',文本)
    text = text.strip()
    text =''。
    返回文字

上面的代碼定義了輔助功能,該功能通過刪除不必要的單詞,特殊字符和URL來預(yù)處理評論。

設(shè)置預(yù)貼BERT模型以標記

當(dāng)我們從Reddit流媒體評論時,我們不知道該評論是否有毒,因為它沒有標記。要使用監(jiān)督分類,我們首先需要標記數(shù)據(jù)。我們必須實施一個可靠且精確的系統(tǒng),以標記傳入的原始註釋。為此,我們將使用一個微調(diào)的BERT模型進行仇恨言論檢測。該模型將將評論準確地分類為兩個類別。

 model_path =“ junglelee/bert-toxic-comment-classification”
tokenizer = berttokenizer.from_pretaining(model_path)
model = bertforsequencececrification.from_pretrated(model_path,num_labels = 2)

pipeline = textClassification pipeline(model = model,tokenizer = tokenizer)

#為文本標記的助手功能
def precadive_hate_speech(文本):
    預(yù)測= pipeline(text)[0] ['label']
    返回1如果預(yù)測=='有毒'其他0#1對有毒,0抗毒

在這裡,我們使用變形金剛庫來設(shè)置模型管道。然後,我們定義一個輔助函數(shù),以預(yù)測給定文本使用BERT模型是有毒還是無毒。現(xiàn)在,我們已經(jīng)標記了示例以進食我們的模型。

使用bert嵌入將文本轉(zhuǎn)換為向量

由於我們的分類器將不使用文本輸入,因此需要首先將其轉(zhuǎn)換為合適的向量表示。為了做到這一點,我們將使用驗證的BERT嵌入,這將使我們的文本轉(zhuǎn)換為可以將其饋送到模型進行訓(xùn)練的向量。

 #加載驗證的BERT模型和嵌入的令牌
model_name =“基於bert-base-uncund”
tokenizer = autotokenizer.from_pretaining(model_name)
bert_model = automodel.from_pretrataining(model_name)
bert_model.eval()  

#為獲得bert嵌入的助手功能
def get_bert_embedding(文本):
    inputs = tokenizer(text,return_tensors ='pt',截斷= true,padding = true)
    使用Torch.no_grad():
        輸出= bert_model(**輸入)
    
    返回outputs.last_hidden_??state [:,0,:]。 squeeze()。 numpy()

上面的代碼採用一段文本,使用bert令牌化來將其施加,然後將其通過BERT模型將其傳遞以提取句子嵌入。文本現(xiàn)在已轉(zhuǎn)換為向量。

流式傳輸實時reddit數(shù)據(jù)並訓(xùn)練被動攻擊分類器

現(xiàn)在,我們準備實時流式傳輸評論,並培訓(xùn)分類器以檢測仇恨言論。

 #為subreddit的助手功能流式傳輸評論
def stream_comments(subreddit_name,batch_size = 100):
    subreddit = reddit.subreddit(subreddit_name)
    remand_stream = subreddit.stream.comments()
    
    批次= []
    在comment_stream中進行評論:
        嘗試:
            #清潔傳入的文字 
            remand_text = clean_text(comment.body)
            #使用驗證的BERT模型標記評論
            label = predition_hate_speech(comment_text) 
            #將文本和標籤添加到當(dāng)前批次
            batch.append((comment_text,label))
            
            如果len(batch)> = batch_size:
                產(chǎn)量批次
                批次= []
                
        除例外為E:
            打印(f'Error:{e}')
 

#指定訓(xùn)練回合的數(shù)量
回合= 10

#指定subreddit
subreddit_name ='fitness'

#初始化被動攻擊分類器
clf = passiveaggressiveclalsifier(c = 0.1,損失='Hinge',max_iter = 1,Random_state = 37)


#流評論並執(zhí)行增量培訓(xùn)
對於num_rounds,在枚舉中批處理(stream_comments(subreddit_name,batch_size = 100)):
    #訓(xùn)練分類器進行所需數(shù)量的回合
    如果num_rounds ==圓形:
        休息
  
    #分開文字和標籤
    batch_texts = [at批次中的項目]
    batch_labels = [批次中的項目[1]]
    
    #將一批文本轉(zhuǎn)換為bert嵌入
    x_train_batch = np.Array([[get_bert_embedding(text)for batch_texts中的文本])
    y_train_batch = np.array(batch_labels)
    
    #在當(dāng)前批次上訓(xùn)練模型
    clf.partial_fit(x_train_batch,y_train_batch,class = [0,1])
    打?。ㄔ谝慌鷞len(batch_texts)}樣品中進行打印。')
    
印刷(“訓(xùn)練完成”)

在線學(xué)習(xí)和被動攻擊算法指南

在上面的代碼中,我們首先指定我們要從中進行評論,然後通過10個訓(xùn)練回合初始化PA分類器的子列數(shù)。然後,我們實時流式傳輸評論。對於其中的每個新評論,首先會清理刪除不必要的單詞。然後使用驗證的BERT模型標記並添加到當(dāng)前批處理中。

我們初始化的被動攻擊分類器將C = 0.1且損耗='鉸鏈',該分類器與算法的PA-I版本相對應(yīng)。對於每個批次,我們都使用'partial_fit()`方法訓(xùn)練分類器。這使該模型可以從每個訓(xùn)練樣本中逐步學(xué)習(xí),而不是在處理之前將整個批次存儲在內(nèi)存中。因此,使模型能夠不斷適應(yīng)新信息,從而使其非常適合實時應(yīng)用程序。

評估模型性能

我將使用Kaggle有毒推文數(shù)據(jù)集評估我們的模型。該數(shù)據(jù)集包含幾條被分類為有毒或無毒的推文。

 #從Kaggle下載數(shù)據(jù)
od.download(“ https://www.kaggle.com/datasets/ashwiniyer176/toxic-tweets-dataset”)
#加載數(shù)據(jù)
data = pd.read_csv(“ decitic-teweets-dataset/finalbalanceddataset.csv”,usecols = [1,2])[[[“ Tweet”,“ witedicities”]]

#分開文字和標籤
test_data = data.sample(n = 100)
texts = test_data ['tweet']。應(yīng)用(clean_text)
標籤= test_data ['毒性']

#將文本轉(zhuǎn)換為向量
x_test = np.array([get_bert_embedding(文本)文本中的文本])
y_test = np.array(標籤)

#做出預(yù)測
y_pred = clf.predict(x_test)

#評估模型的性能
精度=準確_score(y_test,y_pred)
conf_matrix = Confusion_matrix(y_test,y_pred)

打?。ā胺诸悎蟾妫骸保?print(classification_report(y_test,y_pred))

#繪製混亂矩陣
plt.figure(無花果=(7,5))
sns.heatmap(conc_matrix, 
            annot = true, 
            fmt ='d', 
            cmap ='布魯斯', 
            cbar = false, 
            Xticklabels = [“無毒”,“有毒”], 
            yticklabels = [“無毒”,“有毒”])
            
plt.xlabel(“預(yù)測標籤”)
plt.ylabel('true標籤')
plt.title('混淆矩陣')
plt.show() 

在線學(xué)習(xí)和被動攻擊算法指南

在線學(xué)習(xí)和被動攻擊算法指南

首先,我們加載了測試集並使用前面定義的`clean_text`方法清潔了它。然後使用bert嵌入將文本轉(zhuǎn)換為向量。最後,我們使用分類報告和混亂矩陣對測試集進行預(yù)測,並評估模型在不同指標上的性能。

結(jié)論

我們探討了在線學(xué)習(xí)算法的力量,重點是被動攻擊算法有效處理大型數(shù)據(jù)集並適應(yīng)實時數(shù)據(jù)而無需完整的重新培訓(xùn)的能力。還討論了鉸鏈損失,侵略性超參數(shù)(C)的作用,以及正則化如何幫助管理噪聲和離群值。在實施使用被動攻擊分類器的仇恨語音檢測模型之前,我們還審查了現(xiàn)實世界中的應(yīng)用程序和局限性。感謝您的閱讀,我期待著我們的下一個AI教程!

常見問題

Q1。被動攻擊算法的基本原則是什麼?

答:被動積極算法背後的基本原理是在做出錯誤的預(yù)測時積極更新權(quán)重,並在做出正確的預(yù)測時被動地保留學(xué)習(xí)的權(quán)重。

Q2。侵略性參數(shù)C在PA算法中起什麼作用?

答:當(dāng)C高時,該算法變得更具侵略性,快速適應(yīng)新數(shù)據(jù),從而導(dǎo)致學(xué)習(xí)速度更快。當(dāng)C較低時,算法就會變得不那麼侵略性,並進行較小的更新。這降低了過度適合嘈雜樣本的可能性,但使適應(yīng)新實例的可能性更低。

Q3。被動攻擊分類器與支持向量機(SVM)有何相似之處?

答:兩者都旨在最大化決策邊界和數(shù)據(jù)點之間的邊距。兩者都使用鉸鏈損失作為其損失功能。

Q4。在線學(xué)習(xí)算法比批處理學(xué)習(xí)算法有哪些優(yōu)點?

答:在線學(xué)習(xí)算法可以與大型數(shù)據(jù)集一起使用,沒有存儲限制,並且很容易適應(yīng)快速變化的數(shù)據(jù),而無需從頭開始重新培訓(xùn)。

Q5。在什麼情況下,被動侵略算法可以有用?

A.被動攻擊算法可用於多種應(yīng)用中,包括垃圾郵件過濾,情感分析,仇恨言論檢測,實時股票市場分析和推薦系統(tǒng)。

本文所示的媒體不由Analytics Vidhya擁有,並由作者酌情使用。

以上是在線學(xué)習(xí)和被動攻擊算法指南的詳細內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

前7個筆記本替代品 前7個筆記本替代品 Jun 17, 2025 pm 04:32 PM

Google的NotebookLM是由Gemini 2.5提供動力的智能AI筆記工具,它在匯總文檔方面表現(xiàn)出色。但是,它在工具使用方面仍然有局限性,例如源蓋,雲(yún)依賴性和最近的“發(fā)現(xiàn)”功能

從採用到優(yōu)勢:2025年塑造企業(yè)LLM的10個趨勢 從採用到優(yōu)勢:2025年塑造企業(yè)LLM的10個趨勢 Jun 20, 2025 am 11:13 AM

以下是重塑企業(yè)AI景觀的十種引人注目的趨勢。對LLMSorganizations的財務(wù)承諾正在大大增加其在LLMS的投資,其中72%的人預(yù)計他們的支出今年會增加。目前,近40%a

AI投資者停滯不前? 3條購買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 AI投資者停滯不前? 3條購買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 Jul 02, 2025 am 11:13 AM

投資蓬勃發(fā)展,但僅資本還不夠。隨著估值的上升和獨特性的衰落,以AI為中心的風(fēng)險投資的投資者必須做出關(guān)鍵決定:購買,建立或合作夥伴才能獲得優(yōu)勢?這是評估每個選項和PR的方法

生成AI的不可阻擋的增長(AI Outlook第1部分) 生成AI的不可阻擋的增長(AI Outlook第1部分) Jun 21, 2025 am 11:11 AM

披露:我的公司Tirias Research已向IBM,NVIDIA和本文提到的其他公司諮詢。 Growth驅(qū)動力的生成AI採用的激增比最樂觀的預(yù)測更具戲劇性。然後,

新蓋洛普報告:AI文化準備就緒需要新的心態(tài) 新蓋洛普報告:AI文化準備就緒需要新的心態(tài) Jun 19, 2025 am 11:16 AM

廣泛採用和情感準備之間的差距揭示了人類如何與越來越多的數(shù)字伴侶互動。我們正在進入共存階段,算法編織到我們的日?,F(xiàn)場

這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 Jun 20, 2025 am 11:16 AM

由於AI,那些日子是編號的。根據(jù)一個螺柱,搜索企業(yè)諸如Travel網(wǎng)站皮劃艇和Edtech Company Chegg之類的企業(yè)正在下降,部分原因是60%的網(wǎng)站搜索不會導(dǎo)致用戶單擊任何鏈接。

AGI和AI超級智能將嚴重擊中人類天花板的假設(shè)障礙 AGI和AI超級智能將嚴重擊中人類天花板的假設(shè)障礙 Jul 04, 2025 am 11:10 AM

讓我們來談?wù)劇? 對創(chuàng)新AI突破的分析是我正在進行的AI中正在進行的福布斯列覆蓋的一部分,包括識別和解釋各種有影響力的AI複雜性(請參閱此處的鏈接)。 前往Agi和

思科在美國2025 思科在美國2025 Jun 19, 2025 am 11:10 AM

讓我們仔細研究一下我發(fā)現(xiàn)的最重要的東西,以及思科如何以其目前的努力來進一步實現(xiàn)其野心。

See all articles