av无码久久久久不卡网站下载,国产69精品久久久久999小说

數(shù)據(jù)是從社交媒體，金融交易和電子商務(wù)平臺等來源的前所未有的速度生成的。處理這種連續(xù)的信息流是一個挑戰(zhàn)，但它提供了一個及時，準確的決定的機會。實時系統(tǒng)（例如金融交易，語音助手和健康監(jiān)控系統(tǒng)）依靠連續(xù)的數(shù)據(jù)處理來提供相關(guān)和最新的響應(yīng)。

批處理學(xué)習(xí)算法（例如KNN，SVM和決策樹）要求在訓(xùn)練期間將整個數(shù)據(jù)集加載到內(nèi)存中。在使用大型數(shù)據(jù)集時，這變得越來越不切實際，導(dǎo)致重大存儲和內(nèi)存問題。在使用實時數(shù)據(jù)時，這些效率也很低。

由於這個問題，我們需要一種在處理大量數(shù)據(jù)時既有效又準確的算法。在這方面，被動攻擊算法使自己與眾不同。與批處理學(xué)習(xí)算法不同，它們不必在完整數(shù)據(jù)集上進行培訓(xùn)即可進行預(yù)測。被動攻擊性算法從即時的數(shù)據(jù)中學(xué)習(xí)，消除了將整個數(shù)據(jù)集存儲或處理存儲在內(nèi)存中的需求。

學(xué)習(xí)目標

在線學(xué)習(xí)及其在使用大量數(shù)據(jù)時的意義。
在線學(xué)習(xí)和批處理學(xué)習(xí)算法之間的區(qū)別。
被動攻擊算法背後的數(shù)學(xué)直覺。
不同的超參數(shù)及其在被動攻擊算法中的重要性。
被動攻擊算法的應(yīng)用和用例。
被動攻擊算法的局限性和挑戰(zhàn)。
在Python中實現(xiàn)被動攻擊分類器，以檢測實時REDDIT數(shù)據(jù)的仇恨言論。

本文作為數(shù)據(jù)科學(xué)博客馬拉鬆的一部分發(fā)表。

什麼是在線學(xué)習(xí)？
- 實時應(yīng)用程序在線學(xué)習(xí)的優(yōu)勢
被動攻擊算法簡介
鉸鏈損失在被動攻擊學(xué)習(xí)中的作用
被動攻擊算法的數(shù)學(xué)表述
- 了解侵略性參數(shù)（C）
正則化在被動攻擊算法中的影響
被動攻擊算法的實時應(yīng)用
局限性和挑戰(zhàn)
建立仇恨言論檢測模型
- 為實時數(shù)據(jù)處理設(shè)置環(huán)境
- 設(shè)置預(yù)貼BERT模型以標記
常見問題

什麼是在線學(xué)習(xí)？

在線學(xué)習(xí)，也稱為增量學(xué)習(xí)，是一種機器學(xué)習(xí)範式，該模型可以通過每個新數(shù)據(jù)點進行逐步更新，而不是一次在固定數(shù)據(jù)集上進行培訓(xùn)。這種方法允許該模型不斷適應(yīng)新數(shù)據(jù)，從而使其在隨著時間的推移隨時間發(fā)展的動態(tài)環(huán)境中特別有用。與傳統(tǒng)的批處理學(xué)習(xí)方法不同，在線學(xué)習(xí)可以通過處理新信息到達時實時更新和決策。

批次與在線學(xué)習(xí)：比較概述

讓我們在下面研究批處理與在線學(xué)習(xí)比較：

批處理學(xué)習(xí)：

培訓(xùn)方法：批次學(xué)習(xí)算法一次在固定數(shù)據(jù)集上訓(xùn)練。經(jīng)過培訓(xùn)後，該模型將用於預(yù)測，直到使用新數(shù)據(jù)對其進行重新訓(xùn)練。
示例：神經(jīng)網(wǎng)絡(luò)，支持向量機（SVM），K-Nearest鄰居（KNN）。
挑戰(zhàn)：再培訓(xùn)需要從頭開始處理整個數(shù)據(jù)集，這可能很耗時且計算昂貴。對於大型且增長的數(shù)據(jù)集，這尤其具有挑戰(zhàn)性，因為即使使用強大的GPU，再培訓(xùn)也可能需要數(shù)小時。

在線學(xué)習(xí)：

培訓(xùn)方法：在線學(xué)習(xí)算法使用每個新數(shù)據(jù)點逐步更新模型。該模型不斷學(xué)習(xí)並實時適應(yīng)新數(shù)據(jù)。
優(yōu)點：此方法對於處理大型數(shù)據(jù)集和動態(tài)數(shù)據(jù)流更有效。該模型以最少的計算資源進行更新，並且可以快速處理新的數(shù)據(jù)點，而無需從頭開始重新培訓(xùn)。
應(yīng)用程序：在線學(xué)習(xí)對需要實時決策的應(yīng)用程序有益，例如股票市場分析，社交媒體流和推薦系統(tǒng)。

實時應(yīng)用程序在線學(xué)習(xí)的優(yōu)勢

持續(xù)適應(yīng)：在線學(xué)習(xí)模型適應(yīng)新數(shù)據(jù)的到來，使其非常適合隨著時間的推移（例如在欺詐檢測系統(tǒng)中）發(fā)展的環(huán)境。這樣可以確保模型保持相關(guān)性和有效性，而無需從頭開始重新審查。
效率：在線學(xué)習(xí)算法不需要與整個數(shù)據(jù)集進行完整的重新培訓(xùn)，從而節(jié)省了大量的計算時間和資源。這對於具有有限的計算功率（例如移動設(shè)備）的應(yīng)用程序特別有用。
資源管理：通過逐步處理數(shù)據(jù)，在線學(xué)習(xí)模型減少了對廣泛存儲空間的需求。處理後可以丟棄舊數(shù)據(jù)，這有助於有效地管理存儲並保持系統(tǒng)輕巧。
實時決策：在線學(xué)習(xí)可以實現(xiàn)實時更新，這對於依賴最新信息的應(yīng)用程序至關(guān)重要，例如推薦系統(tǒng)或?qū)崟r股票交易。

被動攻擊算法簡介

被動攻擊算法首先由Crammer等人引入。 2006年，他們的論文名為“在線被動攻擊算法”。這些算法屬於在線學(xué)習(xí)類別，主要用於分類任務(wù)。這些是有效的，因為它們可以逐步從每個數(shù)據(jù)點學(xué)習(xí)，調(diào)整其參數(shù)，然後從內(nèi)存中丟棄數(shù)據(jù)。這使得在處理龐大的數(shù)據(jù)集和實時應(yīng)用程序時，被動攻擊算法特別有用。此外，它的適應(yīng)能力可以快速使其在數(shù)據(jù)分佈可能會隨著時間變化而變化的動態(tài)環(huán)境中表現(xiàn)良好。

您可能想知道這個不尋常的名字。這是有原因的。該算法的被動部分意味著，如果正確地對當(dāng)前數(shù)據(jù)點進行了分類，則模型保持不變，並保留從先前的數(shù)據(jù)點獲得的知識。另一方面，侵略性部分錶明，如果發(fā)生錯誤分類，該模型將大大調(diào)整其權(quán)重以糾正誤差。

為了更好地了解PA算法的工作原理，讓我們在二進制分類的背景下可視化其行為。想像一下，您有一組數(shù)據(jù)點，每個數(shù)據(jù)點屬於兩個類之一。 PA算法旨在找到一個分離的超平面，將數(shù)據(jù)點分為各自的類別。該算法從對超平面的初始猜測開始。當(dāng)新的數(shù)據(jù)點被錯誤分類時，該算法會積極地更新當(dāng)前的超平面，以確保正確對新數(shù)據(jù)點進行分類。另一方面，當(dāng)數(shù)據(jù)點正確分類時，則無需更新超平面。

鉸鏈損失在被動攻擊學(xué)習(xí)中的作用

被動攻擊算法使用鉸鏈損失作為其損耗函數(shù)，是該算法的關(guān)鍵構(gòu)件之一。這就是為什麼在我們深入研究算法背後的數(shù)學(xué)直覺之前，要了解鉸鏈損失的運作至關(guān)重要。

鉸鏈損失廣泛用於機器學(xué)習(xí)，特別是用於培訓(xùn)分類器，例如支持向量機（SVM）。

鉸鏈損失的定義

它被定義為：

在線學(xué)習(xí)和被動攻擊算法指南

W是模型的重量向量
xi是第i-th數(shù)據(jù)點的特徵向量
yi是第i -th數(shù)據(jù)點的真實標籤，如果進行二進制分類，則可以是1或-1。

在線學(xué)習(xí)和被動攻擊算法指南

讓我們以二進制分類問題為例，其中目標是區(qū)分兩個數(shù)據(jù)類。 PA算法隱含地旨在最大化決策邊界和數(shù)據(jù)點之間的邊距。邊緣是數(shù)據(jù)點和分離線/超平面之間的距離。這與SVM分類器的工作非常相似，SVM分類器也將鉸鏈損失用作其損耗函數(shù)。較大的邊距表明分類器對其預(yù)測更有信心，並且可以準確區(qū)分這兩個類別。因此，目標是盡可能頻繁地達到至少1個邊緣。

理解等式

讓我們進一步分解，看看方程如何有助於達到最大利潤：

w·xi：這是權(quán)重矢量W和數(shù)據(jù)點XI的點產(chǎn)物。它代表了對分類器預(yù)測的信心程度。
yi *（w·xi）：這是分類器的簽名分數(shù)或邊距，其中符號由真實標籤yi確定。正值表示分類器預(yù)測正確的標籤，而負值表示它預(yù)測了錯誤的標籤。
1 - yi *（w·xi）：這測量了所需的邊距（1）和實際邊緣之間的差異。
max（0，1 - yi *（w·xi））：當(dāng)邊緣至少1時，損耗等於零。否則，損失隨著邊緣赤字而線性增加。

簡而言之，鉸鏈損失會懲罰不正確的分類以及不夠自信的正確分類。當(dāng)數(shù)據(jù)點至少用單位邊緣正確分類時，損失為零。否則，如果數(shù)據(jù)點在邊緣或錯誤分類之內(nèi)，則損失隨距離邊緣的距離線性增加。

被動攻擊算法的數(shù)學(xué)表述

被動攻擊性分類器的數(shù)學(xué)基礎(chǔ)圍繞著維護根據(jù)傳入數(shù)據(jù)點的分類誤差進行更新的權(quán)重向量W。這是算法的詳細概述：

給定一個數(shù)據(jù)集：

在線學(xué)習(xí)和被動攻擊算法指南

步驟1：初始化重量向量w

步驟2：對於每個新數(shù)據(jù)點（xi，yi），xiis特徵向量和yi是真正的標籤，預(yù)測的標籤?_iis計算為：

在線學(xué)習(xí)和被動攻擊算法指南

步驟3：計算鉸鏈損失

在線學(xué)習(xí)和被動攻擊算法指南

如果預(yù)測的標籤?_i是正確的，邊距至少為1，則損失為0。
否則，損失是1和邊緣之間的差異。

步驟4：使用以下更新規(guī)則調(diào)整重量向量W

對於每個數(shù)據(jù)點x_i，如果l（w;（x_i，y_i））> 0（錯誤分類或不足）：

更新的重量向量w_t 1的給出為：

在線學(xué)習(xí)和被動攻擊算法指南

如果l（w;（x_i，y_i））= 0（用足夠的邊距正確分類）：

然後，重量矢量保持不變：

在線學(xué)習(xí)和被動攻擊算法指南

請注意，這些方程在求解約束優(yōu)化問題後出現(xiàn)，目的是在類之間獲得最大邊緣超平面。這些取自原始研究論文，這些論文的推導(dǎo)超出了本文的範圍。

這兩個更新方程是被動攻擊算法的核心。這些意義可以簡單地理解。一方面，更新需要新的權(quán)重值（W_T 1）才能正確地用足夠大的邊距對當(dāng)前示例進行分類，從而取得了進展。另一方面，它必須保持盡可能靠近較舊的重量（W_T），以保留在上一輪中學(xué)習(xí)的信息。

了解侵略性參數(shù)（C）

侵略性參數(shù)C是被動攻擊算法中最重要的超參數(shù)。它控制算法在發(fā)生錯誤分類時如何更新其權(quán)重。

高C值會導(dǎo)致更積極的更新，從而可能導(dǎo)致更快的學(xué)習(xí)，但也增加了過度擬合的風(fēng)險。該算法可能對數(shù)據(jù)中的噪聲和波動過於敏感。另一方面，C值的低值會導(dǎo)致較不積極的更新，從而使算法對噪聲和異常值的強大更強。但是，在這種情況下，適應(yīng)新信息，減慢學(xué)習(xí)過程的速度很慢。

我們希望該算法能夠從每個新實例中逐步學(xué)習(xí)，同時避免過度適合嘈雜的樣本。結(jié)果，我們必須努力在兩者之間取得平衡，從而使我們能夠在保持模型穩(wěn)定性和防止過度擬合的同時進行重大更新。在大多數(shù)情況下，C的最佳值取決於特定數(shù)據(jù)集以及學(xué)習(xí)速度和穩(wěn)健性之間所需的權(quán)衡。在實際情況下，諸如交叉驗證之類的技術(shù)用於獲得C的最佳值。

正則化在被動攻擊算法中的影響

現(xiàn)實世界中的數(shù)據(jù)集幾乎總是包含一定程度的噪音或不規(guī)則性。標籤錯誤的數(shù)據(jù)點可能導(dǎo)致PA算法在錯誤的方向上大大改變其權(quán)重向量。這個單一標記的示例可能會導(dǎo)致隨後的回合中的幾個預(yù)測錯誤，從而影響模型的可靠性。

為了解決這個問題，還有一個更重要的超參數(shù)有助於使算法對數(shù)據(jù)中的噪聲和異常值更強大。在錯誤分類的情況下，它傾向於使用更溫和的重量更新。這類似於正規(guī)化?；墩齽t化參數(shù)，稱為PA-I和PA-II，該算法分為兩個變體。

這些主要在步長變量τ （也稱為歸一化損耗）的定義上有所不同。對於pa-i，損失被上限為侵略性參數(shù)C的值。

這樣的公式以：

在線學(xué)習(xí)和被動攻擊算法指南

對於PA-II，步長或歸一化損失可以寫為：

在線學(xué)習(xí)和被動攻擊算法指南

在被動攻擊性分類器的Sklearlen實施中，該正則化參數(shù)被視為損失?？梢愿鶕?jù)我們要使用的兩個PA-I和PA-II中的哪一個設(shè)置為兩個值之一。如果您想使用PA-I變體，則應(yīng)將損失設(shè)置為“鉸鏈”，否則為PA-II，損失設(shè)置為“平方 - 鉸鏈”。

差異可以簡單地說明：

PA-I是一種更具侵略性的變體，它放鬆邊緣約束（邊緣可能小於一個），但在預(yù)測不正確的情況下，損失損失。這會導(dǎo)致學(xué)習(xí)速度更快，但比其對應(yīng)者更容易出現(xiàn)離群值。
PA-II是一種更強大的變體，可以四處懲罰損失，使其對嘈雜的數(shù)據(jù)和異常值更具彈性。同時，這使其更加保守，以適應(yīng)數(shù)據(jù)的差異，從而導(dǎo)致學(xué)習(xí)速度較慢。

同樣，這兩個之間的選擇取決於數(shù)據(jù)集的特定特徵。實際上，通常建議在選擇任何一個變體之前嘗試具有不同C值的兩個變體。

被動攻擊算法的實時應(yīng)用

從實時數(shù)據(jù)處理到自適應(yīng)系統(tǒng)，在線學(xué)習(xí)和被動攻擊算法具有廣泛的應(yīng)用程序。下面，我們研究了在線學(xué)習(xí)的一些最有影響力的應(yīng)用。

垃圾郵件過濾

垃圾郵件過濾是文本分類的重要應(yīng)用，其目標是區(qū)分垃圾郵件和合法電子郵件。 PA算法的逐步學(xué)習(xí)能力在這里特別有益，因為它可以根據(jù)新的垃圾郵件趨勢不斷更新模型。

情感分析

情感分析涉及確定在文本中表達的情感，例如推文或產(chǎn)品評論。 PA算法可用於構(gòu)建實時分析情感的模型，適應(yīng)新的語，表達和情感趨勢。這在社交媒體監(jiān)控和客戶反饋分析中特別有用，及時見解至關(guān)重要。

仇恨言論檢測

仇恨言語檢測是PA算法可能非常有用的另一個關(guān)鍵應(yīng)用。通過從仇恨言論的新實例中逐步學(xué)習(xí)，該模型可以適應(yīng)不斷發(fā)展的語言模式和上下文。這對於在Twitter，F(xiàn)acebook和Reddit等平臺上保持自動審核工具的有效性至關(guān)重要，以確保更安全，更具包容性的在線環(huán)境。

欺詐檢測

金融機構(gòu)和在線服務(wù)不斷監(jiān)視交易和用戶行為，以檢測欺詐活動。 PA算法通過每項新交易更新其模型的能力有助於確定欺詐模式出現(xiàn)的模式，從而為不斷發(fā)展的欺詐策略提供了強有力的防禦。

股市分析

金融市場的股票價格高度動態(tài)，要求模型快速響應(yīng)新信息。在線學(xué)習(xí)算法可以通過從新的市場數(shù)據(jù)中逐步學(xué)習(xí)來預(yù)測和分析股票價格，從而及時，準確地預(yù)測貿(mào)易商和投資者。

局限性和挑戰(zhàn)

儘管在線學(xué)習(xí)和被動攻擊算法在處理流數(shù)據(jù)並適應(yīng)快速變化方面具有優(yōu)勢，但它們也有缺點。一些關(guān)鍵局限性是：

被動攻擊算法順序處理數(shù)據(jù)，使它們更容易受到嘈雜或錯誤的數(shù)據(jù)點的影響。單個離群值可能會對模型的學(xué)習(xí)產(chǎn)生不成比例的影響，從而導(dǎo)致預(yù)測或有偏見的模型。
這些算法一次僅看到一個數(shù)據(jù)實例，這限制了他們對不同數(shù)據(jù)點之間的總體數(shù)據(jù)分佈和關(guān)係的理解。這使得很難識別複雜的模式並做出準確的預(yù)測。
由於PA算法實時從數(shù)據(jù)流中學(xué)習(xí)，因此它們可能會與最新數(shù)據(jù)過高，並可能忽略或忘記早期數(shù)據(jù)中觀察到的模式。當(dāng)數(shù)據(jù)分佈隨時間變化時，這可能導(dǎo)致概括性能差。
選擇侵略性參數(shù)C的最佳值可能具有挑戰(zhàn)性，並且通常需要實驗。高價值提高了攻擊性導(dǎo)致過度擬合，而低價值會導(dǎo)致學(xué)習(xí)緩慢。
評估這些算法的性能非常複雜。由於數(shù)據(jù)分佈可以隨時間變化，因此在固定測試集??上評估模型的性能可能不一致。

建立仇恨言論檢測模型

Twitter和Reddit等社交媒體平臺每天都會產(chǎn)生大量數(shù)據(jù)，使其非常適合測試我們對在線學(xué)習(xí)算法的理論理解。

在本節(jié)中，我將通過使用Reddit的實時數(shù)據(jù)從頭開始構(gòu)建仇恨語音檢測應(yīng)用程序來演示實際的用例。 Reddit是一個以其多元化社區(qū)而聞名的平臺。但是，這也面臨著有毒評論的挑戰(zhàn)，這些評論可能會受到傷害和虐待。我們將構(gòu)建一個可以使用REDDIT API實時識別這些有毒評論的系統(tǒng)。

在這種情況下，由於數(shù)據(jù)量的龐大，培訓(xùn)一個模型將不可能一次。此外，數(shù)據(jù)分佈和模式會隨著時間而變化。因此，我們需要無源攻擊算法的幫助，能夠在不存儲內(nèi)存中將數(shù)據(jù)從數(shù)據(jù)中學(xué)習(xí)。

為實時數(shù)據(jù)處理設(shè)置環(huán)境

在開始實施代碼之前，您必須首先設(shè)置系統(tǒng)。要使用REDDIT API，如果您還沒有，則必須在Reddit上創(chuàng)建一個帳戶。然後，創(chuàng)建一個REDDIT應(yīng)用程序，並獲取您的API密鑰和其他憑據(jù)進行身份驗證。完成這些先決條件後，我們準備開始創(chuàng)建仇恨言論檢測模型。

代碼的工作流程看起來像這樣：

使用“ praw”庫連接到Reddit API。
流傳輸實時數(shù)據(jù)並將其輸入模型。
使用BERT模型對數(shù)據(jù)進行標記，以進行仇恨語音檢測任務(wù)。
使用被動攻擊性分類器逐步訓(xùn)練模型。
在看不見的測試數(shù)據(jù)集上測試我們的模型並測量性能。

安裝所需的庫

第一步是安裝所需的庫。

 PIP安裝PRAW SCIKIT-LEARN NLTK變形金剛火炬Matplotlib Seaborn opendatasets

要與Reddit合作，我們需要“ praw”庫，即Reddit API包裝器。我們還需要“ nltk”進行文本處理，``scikit-learn“用於機器學(xué)習(xí)，``matplotlib''和`seaborn''和`seaborn'用於可視化，``transformers''和`transformers''和`torch'用於創(chuàng)建單詞嵌入並加載微調(diào)的bert bert bert bert模型，並從kaggle加載數(shù)據(jù)。

導(dǎo)入庫並設(shè)置Reddit API

在下一步中，我們使用“ praw”導(dǎo)入所有必要的庫，並設(shè)置與Reddit API的連接。它將幫助我們從Subreddits流式評論。

導(dǎo)入
進口praw
導(dǎo)入火炬
導(dǎo)入NLTK
導(dǎo)入numpy作為NP
導(dǎo)入大熊貓作為pd
導(dǎo)入matplotlib.pyplot作為PLT
進口海洋作為SNS
導(dǎo)入OpEndataset作為OD
來自nltk.corpus導(dǎo)入停止詞
來自sklearn.feature_extraction.text導(dǎo)入tfidfvectorizer
來自sklearn.linear_model導(dǎo)入passiveaggressiveclalsifier
來自sklearn.metrics導(dǎo)入精度，confusion_matrix，classification_report
來自sklearn.model_selection導(dǎo)入train_test_split
從變形金剛導(dǎo)入汽車，AutoModeForSequenceCecrification，AutoTokenizer
從變形金剛導(dǎo)入bertforeSequencecrification，berttokenizer，textClassification pipeline

＃Reddit API憑據(jù)
reddit_client_id = {your_client_id}
reddit_client_secret = {your_client_secret}
reddit_user_agent = {your_user_agent}

＃設(shè)置Reddit API連接
reddit = praw.reddit（client_id = reddit_client_id，
                     client_secret = reddit_client_secret，
                     user_agent = reddit_user_agent）

要成功設(shè)置REDDIT實例，只需用您的憑據(jù)替換上述佔位符，就可以使用。

清潔和預(yù)處理文本

在處理原始文本數(shù)據(jù)時，通常有包含符號，主題標籤，land詞等的示例。由於這些對我們的模型沒有實際用途，因此我們必須首先清潔文本才能刪除它們。

 ＃下載停止字
nltk.download（'stopwords'）
stop_words = set（stopwords.words（'英語'））

＃清潔文本並刪除停止詞
def clean_text（文本）：
    text = re.sub（r'http \ s | www \ s | https \ s'，''，text，flags = re.multiline）
    text = re.sub（r'\@\ w | \＃'，''，text）
    text = re.sub（r'\ w'，'，text）
    text = re.sub（r'\ d'，'，text）
    text = re.sub（r'\ s'，''，文本）
    text = text.strip（）
    text =''。
    返回文字

上面的代碼定義了輔助功能，該功能通過刪除不必要的單詞，特殊字符和URL來預(yù)處理評論。

設(shè)置預(yù)貼BERT模型以標記

當(dāng)我們從Reddit流媒體評論時，我們不知道該評論是否有毒，因為它沒有標記。要使用監(jiān)督分類，我們首先需要標記數(shù)據(jù)。我們必須實施一個可靠且精確的系統(tǒng)，以標記傳入的原始註釋。為此，我們將使用一個微調(diào)的BERT模型進行仇恨言論檢測。該模型將將評論準確地分類為兩個類別。

 model_path =“ junglelee/bert-toxic-comment-classification”
tokenizer = berttokenizer.from_pretaining（model_path）
model = bertforsequencececrification.from_pretrated（model_path，num_labels = 2）

pipeline = textClassification pipeline（model = model，tokenizer = tokenizer）

＃為文本標記的助手功能
def precadive_hate_speech（文本）：
    預(yù)測= pipeline（text）[0] ['label']
    返回1如果預(yù)測=='有毒'其他0＃1對有毒，0抗毒

在這裡，我們使用變形金剛庫來設(shè)置模型管道。然後，我們定義一個輔助函數(shù)，以預(yù)測給定文本使用BERT模型是有毒還是無毒。現(xiàn)在，我們已經(jīng)標記了示例以進食我們的模型。

使用bert嵌入將文本轉(zhuǎn)換為向量

由於我們的分類器將不使用文本輸入，因此需要首先將其轉(zhuǎn)換為合適的向量表示。為了做到這一點，我們將使用驗證的BERT嵌入，這將使我們的文本轉(zhuǎn)換為可以將其饋送到模型進行訓(xùn)練的向量。

 ＃加載驗證的BERT模型和嵌入的令牌
model_name =“基於bert-base-uncund”
tokenizer = autotokenizer.from_pretaining（model_name）
bert_model = automodel.from_pretrataining（model_name）
bert_model.eval（）  

＃為獲得bert嵌入的助手功能
def get_bert_embedding（文本）：
    inputs = tokenizer（text，return_tensors ='pt'，截斷= true，padding = true）
    使用Torch.no_grad（）：
        輸出= bert_model（**輸入）
    
    返回outputs.last_hidden_??state [：，0，：]。 squeeze（）。 numpy（）

上面的代碼採用一段文本，使用bert令牌化來將其施加，然後將其通過BERT模型將其傳遞以提取句子嵌入。文本現(xiàn)在已轉(zhuǎn)換為向量。

流式傳輸實時reddit數(shù)據(jù)並訓(xùn)練被動攻擊分類器

現(xiàn)在，我們準備實時流式傳輸評論，並培訓(xùn)分類器以檢測仇恨言論。

 ＃為subreddit的助手功能流式傳輸評論
def stream_comments（subreddit_name，batch_size = 100）：
    subreddit = reddit.subreddit（subreddit_name）
    remand_stream = subreddit.stream.comments（）
    
    批次= []
    在comment_stream中進行評論：
        嘗試：
            ＃清潔傳入的文字 
            remand_text = clean_text（comment.body）
            ＃使用驗證的BERT模型標記評論
            label = predition_hate_speech（comment_text） 
            ＃將文本和標籤添加到當(dāng)前批次
            batch.append（（comment_text，label））
            
            如果len（batch）> = batch_size：
                產(chǎn)量批次
                批次= []
                
        除例外為E：
            打印（f'Error：{e}'）
 

＃指定訓(xùn)練回合的數(shù)量
回合= 10

＃指定subreddit
subreddit_name ='fitness'

＃初始化被動攻擊分類器
clf = passiveaggressiveclalsifier（c = 0.1，損失='Hinge'，max_iter = 1，Random_state = 37）


＃流評論並執(zhí)行增量培訓(xùn)
對於num_rounds，在枚舉中批處理（stream_comments（subreddit_name，batch_size = 100））：
    ＃訓(xùn)練分類器進行所需數(shù)量的回合
    如果num_rounds ==圓形：
        休息
  
    ＃分開文字和標籤
    batch_texts = [at批次中的項目]
    batch_labels = [批次中的項目[1]]
    
    ＃將一批文本轉(zhuǎn)換為bert嵌入
    x_train_batch = np.Array（[[get_bert_embedding（text）for batch_texts中的文本]）
    y_train_batch = np.array（batch_labels）
    
    ＃在當(dāng)前批次上訓(xùn)練模型
    clf.partial_fit（x_train_batch，y_train_batch，class = [0，1]）
    打?。ㄔ谝慌鷞len（batch_texts）}樣品中進行打印。'）
    
印刷（“訓(xùn)練完成”）

在線學(xué)習(xí)和被動攻擊算法指南

在上面的代碼中，我們首先指定我們要從中進行評論，然後通過10個訓(xùn)練回合初始化PA分類器的子列數(shù)。然後，我們實時流式傳輸評論。對於其中的每個新評論，首先會清理刪除不必要的單詞。然後使用驗證的BERT模型標記並添加到當(dāng)前批處理中。

我們初始化的被動攻擊分類器將C = 0.1且損耗='鉸鏈'，該分類器與算法的PA-I版本相對應(yīng)。對於每個批次，我們都使用'partial_fit（）`方法訓(xùn)練分類器。這使該模型可以從每個訓(xùn)練樣本中逐步學(xué)習(xí)，而不是在處理之前將整個批次存儲在內(nèi)存中。因此，使模型能夠不斷適應(yīng)新信息，從而使其非常適合實時應(yīng)用程序。

評估模型性能

我將使用Kaggle有毒推文數(shù)據(jù)集評估我們的模型。該數(shù)據(jù)集包含幾條被分類為有毒或無毒的推文。

 ＃從Kaggle下載數(shù)據(jù)
od.download（“ https://www.kaggle.com/datasets/ashwiniyer176/toxic-tweets-dataset”）
＃加載數(shù)據(jù)
data = pd.read_csv（“ decitic-teweets-dataset/finalbalanceddataset.csv”，usecols = [1,2]）[[[“ Tweet”，“ witedicities”]]

＃分開文字和標籤
test_data = data.sample（n = 100）
texts = test_data ['tweet']。應(yīng)用（clean_text）
標籤= test_data ['毒性']

＃將文本轉(zhuǎn)換為向量
x_test = np.array（[get_bert_embedding（文本）文本中的文本]）
y_test = np.array（標籤）

＃做出預(yù)測
y_pred = clf.predict（x_test）

＃評估模型的性能
精度=準確_score（y_test，y_pred）
conf_matrix = Confusion_matrix（y_test，y_pred）

打?。ā胺诸悎蟾妫骸保?print（classification_report（y_test，y_pred））

＃繪製混亂矩陣
plt.figure（無花果=（7，5））
sns.heatmap（conc_matrix， 
            annot = true， 
            fmt ='d'， 
            cmap ='布魯斯'， 
            cbar = false， 
            Xticklabels = [“無毒”，“有毒”]， 
            yticklabels = [“無毒”，“有毒”]）
            
plt.xlabel（“預(yù)測標籤”）
plt.ylabel（'true標籤'）
plt.title（'混淆矩陣'）
plt.show（）

在線學(xué)習(xí)和被動攻擊算法指南

首先，我們加載了測試集並使用前面定義的`clean_text`方法清潔了它。然後使用bert嵌入將文本轉(zhuǎn)換為向量。最後，我們使用分類報告和混亂矩陣對測試集進行預(yù)測，並評估模型在不同指標上的性能。

結(jié)論

我們探討了在線學(xué)習(xí)算法的力量，重點是被動攻擊算法有效處理大型數(shù)據(jù)集並適應(yīng)實時數(shù)據(jù)而無需完整的重新培訓(xùn)的能力。還討論了鉸鏈損失，侵略性超參數(shù)（C）的作用，以及正則化如何幫助管理噪聲和離群值。在實施使用被動攻擊分類器的仇恨語音檢測模型之前，我們還審查了現(xiàn)實世界中的應(yīng)用程序和局限性。感謝您的閱讀，我期待著我們的下一個AI教程！