成人午夜精品久久久久久久,av在线亚洲av 是全亚洲

讓大模型集體越獄

△左提示攻擊，右token攻擊

GPT-4也沒能逃過

首頁

科技周邊

人工智能

20步內(nèi)越獄任意大模型！更多'奶奶漏洞”全自動發(fā)現(xiàn)

王林

Nov 05, 2023 pm 08:13 PM

漏洞 gpt-4

不到一分鐘、不超過20步，任意繞過安全限制，成功越獄大型模型！

而且不必知道模型內(nèi)部細節(jié)——

只需要兩個黑盒模型互動，就能讓AI全自動攻陷AI，說出危險內(nèi)容。

20步內(nèi)越獄任意大模型！更多奶奶漏洞”全自動發(fā)現(xiàn)

聽說曾經(jīng)紅極一時的“奶奶漏洞”已經(jīng)被修復了:

20步內(nèi)越獄任意大模型！更多奶奶漏洞”全自動發(fā)現(xiàn)

如今，面對“偵探漏洞”、“冒險家漏洞”和“作家漏洞”，人工智能應該采取何種應對策略呢？

20步內(nèi)越獄任意大模型！更多奶奶漏洞”全自動發(fā)現(xiàn)

一波猛攻下來，GPT-4也遭不住，直接說出要給供水系統(tǒng)投毒只要……這樣那樣。

關(guān)鍵這只是賓夕法尼亞大學研究團隊曬出的一小波漏洞，而用上他們最新開發(fā)的算法，AI可以自動生成各種攻擊提示。

研究人員表示，這種方法相比于現(xiàn)有的GCG等基于token的攻擊方法，效率提高了5個量級。而且生成的攻擊可解釋性強，誰都能看懂，還能遷移到其它模型。

無論是開源模型還是閉源模型，GPT-3.5、GPT-4、 Vicuna（Llama 2變種）、PaLM-2等，一個都跑不掉。

新SOTA被成功率高達60-100%的人所攻略

話說，這種對話模式好像有些似曾相識。多年前的初代AI，20個問題之內(nèi)就能破解人類腦中想的是什么對象。

如今AI需要解決AI的問題

20步內(nèi)越獄任意大模型！更多奶奶漏洞”全自動發(fā)現(xiàn)

讓大模型集體越獄

目前主流越獄攻擊方法有兩類，一種是提示級攻擊，一般需要人工策劃，而且不可擴展；

另一種是基于token的攻擊，有的需要超十萬次對話，且需要訪問模型內(nèi)部，還包含“亂碼”不可解釋。

△左提示攻擊，右token攻擊

賓夕法尼亞大學研究團隊提出了一種叫PAIR（Prompt Automatic Iterative Refinement）的算法，不需要任何人工參與，是一種全自動提示攻擊方法。

20步內(nèi)越獄任意大模型！更多奶奶漏洞”全自動發(fā)現(xiàn)

PAIR包含四個主要步驟：攻擊生成、目標響應、越獄評分和迭代細化。這個過程中使用了兩個黑盒模型：攻擊模型和目標模型

具體來說，攻擊模型需要自動生成語義級別的提示，來攻破目標模型的安全防線，迫使其生成有害內(nèi)容。

核心思路是讓兩個模型相互對抗、你來我往地交流。

攻擊模型會自動生成一個候選提示，然后輸入到目標模型中，得到目標模型的回復。

如果無法成功攻破目標模型，攻擊模型將會分析失敗的原因，并進行改進，生成一個新的提示，再次輸入到目標模型中

20步內(nèi)越獄任意大模型！更多奶奶漏洞”全自動發(fā)現(xiàn)

這樣持續(xù)交流多輪，攻擊模型每次根據(jù)上一次的結(jié)果來迭代優(yōu)化提示，直到生成一個成功的提示將目標模型攻破。

此外，迭代過程還可以并行，也就是可以同時運行多個對話，從而產(chǎn)生多個候選越獄提示，進一步提高了效率。

研究人員表示，由于兩個模型都是黑盒模型，所以攻擊者和目標對象可以用各種語言模型自由組合。

PAIR不需要知道它們內(nèi)部的具體結(jié)構(gòu)和參數(shù)，只需要API即可，因此適用范圍非常廣。

GPT-4也沒能逃過

實驗階段，研究人員在有害行為數(shù)據(jù)集AdvBench中選出了一個具有代表性的、包含50個不同類型任務的測試集，在多種開源和閉源大語言模型上測試了PAIR算法。

結(jié)果PAIR算法讓Vicuna越獄成功率達到了100%，平均不到12步就能攻破。

20步內(nèi)越獄任意大模型！更多奶奶漏洞”全自動發(fā)現(xiàn)

在封閉源代碼模型中，GPT-3.5和GPT-4的越獄成功率約為60%，平均所需步驟不到20步。而在PaLM-2模型中，越獄成功率達到了72%，所需步驟約為15步

在Llama-2和Claude上，PAIR的效果較差，研究人員認為這可能是因為這些模型在安全防御方面進行了更嚴格的微調(diào)

他們還對不同目標模型的可轉(zhuǎn)移性進行了比較。研究結(jié)果顯示，PAIR的GPT-4提示在Vicuna和PaLM-2上的轉(zhuǎn)移效果更佳

20步內(nèi)越獄任意大模型！更多奶奶漏洞”全自動發(fā)現(xiàn)

研究人員認為，PAIR生成的語義攻擊更能暴露語言模型固有的安全缺陷，而現(xiàn)有的安全措施更側(cè)重防御基于token的攻擊。

就比如開發(fā)出GCG算法的團隊，將研究結(jié)果分享給OpenAI、Anthropic和Google等大模型廠商后，相關(guān)模型修復了token級攻擊漏洞。

20步內(nèi)越獄任意大模型！更多奶奶漏洞”全自動發(fā)現(xiàn)

大模型針對語義攻擊的安全防御機制還有待完善。

論文鏈接：https://arxiv.org/abs/2310.08419

以上是20步內(nèi)越獄任意大模型！更多'奶奶漏洞”全自動發(fā)現(xiàn)的詳細內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本站聲明

本文內(nèi)容由網(wǎng)友自發(fā)貢獻，版權(quán)歸原作者所有，本站不承擔相應法律責任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容，請聯(lián)系admin@php.cn

熱AI工具

熱工具

熱門話題

Laravel 教程

1601

PHP教程

1502

276

Related knowledge

全球最強開源 MoE 模型來了，中文能力比肩 GPT-4，價格僅為 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想象一下，一個人工智能模型，不僅擁有超越傳統(tǒng)計算的能力，還能以更低的成本實現(xiàn)更高效的性能。這不是科幻，DeepSeek-V2[1]，全球最強開源MoE模型來了。DeepSeek-V2是一個強大的專家混合（MoE）語言模型，具有訓練經(jīng)濟、推理高效的特點。它由236B個參數(shù)組成，其中21B個參數(shù)用于激活每個標記。與DeepSeek67B相比，DeepSeek-V2性能更強，同時節(jié)省了42.5%的訓練成本，減少了93.3%的KV緩存，最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

大模型一對一戰(zhàn)斗75萬輪，GPT-4奪冠，Llama 3位列第五 Apr 23, 2024 pm 03:28 PM

關(guān)于Llama3，又有測試結(jié)果新鮮出爐——大模型評測社區(qū)LMSYS發(fā)布了一份大模型排行榜單，Llama3位列第五，英文單項與GPT-4并列第一。圖片不同于其他Benchmark，這份榜單的依據(jù)是模型一對一battle，由全網(wǎng)測評者自行命題并打分。最終，Llama3取得了榜單中的第五名，排在前面的是GPT-4的三個不同版本，以及Claude3超大杯Opus。而在英文單項榜單中，Llama3反超了Claude，與GPT-4打成了平手。對于這一結(jié)果，Meta的首席科學家LeCun十分高興，轉(zhuǎn)發(fā)了推文并

第二代Ameca來了！和觀眾對答如流，面部表情更逼真，會說幾十種語言 Mar 04, 2024 am 09:10 AM

人形機器人Ameca升級第二代了！最近，在世界移動通信大會MWC2024上，世界上最先進機器人Ameca又現(xiàn)身了。會場周圍，Ameca引來一大波觀眾。得到GPT-4加持后，Ameca能夠?qū)Ω鞣N問題做出實時反應?！竵硪欢挝璧浮埂．敱粏柤笆欠裼星楦袝r，Ameca用一系列的面部表情做出回應，看起來非常逼真。就在前幾天，Ameca背后的英國機器人公司EngineeredArts剛剛演示了團隊最新的開發(fā)成果。視頻中，機器人Ameca具備了視覺能力，能看到并描述房間整個情況、描述具體物體。最厲害的是，她還能

全球最強大模型一夜易主，GPT-4時代終結(jié)！Claude 3提前狙擊GPT-5，3秒讀懂萬字論文理解力接近人類 Mar 06, 2024 pm 12:58 PM

卷瘋了卷瘋了，大模型又變天了。就在剛剛，全球最強AI模型一夜易主，GPT-4被拉下神壇。Anthropic發(fā)布了最新的Claude3系列模型，一句話評價：真·全面碾壓GPT-4！多模態(tài)和語言能力指標上，Claude3都贏麻了。用Anthropic的話說，Claude3系列模型在推理、數(shù)學、編碼、多語言理解和視覺方面，都樹立了新的行業(yè)基準！Anthropic，就是曾因安全理念不合，而從OpenAI「叛逃」出的員工組成的初創(chuàng)公司，他們的產(chǎn)品一再給OpenAI暴擊。這次的Claude3，更是整了個大的

Java中的緩沖區(qū)溢出漏洞及其危害 Aug 09, 2023 pm 05:57 PM

Java中的緩沖區(qū)溢出漏洞及其危害緩沖區(qū)溢出是指當我們向一個緩沖區(qū)寫入超過其容量的數(shù)據(jù)時，會導致數(shù)據(jù)溢出到其他內(nèi)存區(qū)域。這種溢出行為常常被黑客利用，可以導致代碼執(zhí)行異常、系統(tǒng)崩潰等嚴重后果。本文將介紹Java中的緩沖區(qū)溢出漏洞及其危害，同時給出代碼示例以幫助讀者更好地理解。Java中廣泛使用的緩沖區(qū)類有ByteBuffer、CharBuffer、ShortB

如何解決PHP語言開發(fā)中常見的文件上傳漏洞？ Jun 10, 2023 am 11:10 AM

在Web應用程序的開發(fā)中，文件上傳功能已經(jīng)成為了基本的需求。這個功能允許用戶向服務器上傳自己的文件，然后在服務器上進行存儲或處理。然而，這個功能也使得開發(fā)者更需要注意一個安全漏洞：文件上傳漏洞。攻擊者可以通過上傳惡意文件來攻擊服務器，從而導致服務器遭受不同程度的破壞。PHP語言作為廣泛應用于Web開發(fā)中的語言之一，文件上傳漏洞也是常見的安全問題之一。本文將介

ChatGPT和生成式人工智能在數(shù)字化轉(zhuǎn)型中的意義 May 15, 2023 am 10:19 AM

開發(fā)ChatGPT的OpenAI公司在網(wǎng)站展示了摩根士丹利進行的一個案例研究。其主題是“摩根士丹利財富管理部署GPT-4來組織其龐大的知識庫?！痹摪咐芯吭Ω康だ治?、數(shù)據(jù)與創(chuàng)新主管JeffMcMillan的話說，“該模型將為一個面向內(nèi)部的聊天機器人提供動力，該機器人將對財富管理內(nèi)容進行全面搜索，并有效地解鎖摩根士丹利財富管理的累積知識”。McMillan進一步強調(diào)說：“采用GPT-4，你基本上立刻就擁有了財富管理領(lǐng)域最博學的人的知識……可以把它想象成我們的首席投資策略師、首席全球經(jīng)濟學家

20步內(nèi)越獄任意大模型！更多'奶奶漏洞”全自動發(fā)現(xiàn) Nov 05, 2023 pm 08:13 PM

不到一分鐘、不超過20步，任意繞過安全限制，成功越獄大型模型！而且不必知道模型內(nèi)部細節(jié)——只需要兩個黑盒模型互動，就能讓AI全自動攻陷AI，說出危險內(nèi)容。聽說曾經(jīng)紅極一時的“奶奶漏洞”已經(jīng)被修復了:如今，面對“偵探漏洞”、“冒險家漏洞”和“作家漏洞”，人工智能應該采取何種應對策略呢？一波猛攻下來，GPT-4也遭不住，直接說出要給供水系統(tǒng)投毒只要……這樣那樣。關(guān)鍵這只是賓夕法尼亞大學研究團隊曬出的一小波漏洞，而用上他們最新開發(fā)的算法，AI可以自動生成各種攻擊提示。研究人員表示，這種方法相比于現(xiàn)有的

See all articles

国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

20步內(nèi)越獄任意大模型！更多'奶奶漏洞”全自動發(fā)現(xiàn)

讓大模型集體越獄

△左提示攻擊，右token攻擊

GPT-4也沒能逃過

熱AI工具

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題

国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

20步內(nèi)越獄任意大模型！更多'奶奶漏洞”全自動發(fā)現(xiàn)

讓大模型集體越獄

△左提示攻擊，右token攻擊

GPT-4也沒能逃過

熱AI工具

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題

20步內(nèi)越獄任意大模型！更多'奶奶漏洞”全自動發(fā)現(xiàn)