国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁 科技週邊 人工智慧 視覺強(qiáng)化微調(diào)! DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源

視覺強(qiáng)化微調(diào)! DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源

Mar 12, 2025 pm 01:12 PM
git ai 信箱 產(chǎn)業(yè) 寶可夢 DeepSeek 視覺強(qiáng)化 qwen

重磅推薦:Visual-RFT——視覺強(qiáng)化微調(diào)開源項(xiàng)目,賦能視覺語言模型!

視覺強(qiáng)化微調(diào)! DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源

AIxiv專欄持續(xù)關(guān)注全球頂尖AI研究,已發(fā)布2000余篇學(xué)術(shù)技術(shù)文章。歡迎投稿分享您的優(yōu)秀成果!投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

Visual-RFT (Visual Reinforcement Fine-Tuning) 項(xiàng)目,將基于規(guī)則獎勵的強(qiáng)化學(xué)習(xí)與強(qiáng)化微調(diào)(RFT)范式成功應(yīng)用于視覺語言大模型(LVLM),突破了以往方法僅限于文本、數(shù)學(xué)等領(lǐng)域的局限。通過為視覺細(xì)分類、目標(biāo)檢測等任務(wù)設(shè)計特定規(guī)則獎勵,Visual-RFT 為LVLM訓(xùn)練提供了全新思路!

圖1展示了Visual-RFT的強(qiáng)大泛化能力:模型僅需少量數(shù)據(jù),便能準(zhǔn)確識別視覺強(qiáng)化微調(diào)! DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源中特定寶可夢并定位其坐標(biāo)。

視覺強(qiáng)化微調(diào)! DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源

圖 1. Visual-RFT 將強(qiáng)化微調(diào)擴(kuò)展到多模態(tài),只需10-1000條數(shù)據(jù)即可顯著提升模型性能。

從RFT到Visual-RFT:強(qiáng)化學(xué)習(xí)在多模態(tài)領(lǐng)域的突破

OpenAI的強(qiáng)化微調(diào)技術(shù),只需少量樣本即可實(shí)現(xiàn)模型能力遷移。DeepSeek-R1揭示了其強(qiáng)大的推理能力源于基于可驗(yàn)證獎勵的強(qiáng)化學(xué)習(xí)策略。然而,該策略此前主要應(yīng)用于文本、數(shù)學(xué)等領(lǐng)域。Visual-RFT將此策略成功拓展至視覺領(lǐng)域,通過構(gòu)建可驗(yàn)證規(guī)則獎勵,解決了傳統(tǒng)方法在視覺領(lǐng)域的局限性,實(shí)現(xiàn)高效、高泛化性的視覺理解與推理。

傳統(tǒng)的視覺指令微調(diào)(SFT)需要大量數(shù)據(jù),而Visual-RFT的少樣本學(xué)習(xí)能力使其在數(shù)據(jù)稀缺場景下更具優(yōu)勢。

為了驗(yàn)證Visual-RFT的泛化能力,研究團(tuán)隊在目標(biāo)檢測、分類、 grounding等多個視覺任務(wù)上進(jìn)行了測試。結(jié)果顯示,Visual-RFT在開放詞匯、少樣本學(xué)習(xí)等設(shè)定下,僅需少量數(shù)據(jù)即可實(shí)現(xiàn)顯著性能提升,并優(yōu)于SFT方法。尤其在推理定位任務(wù)中,Visual-RFT展現(xiàn)出卓越的視覺推理能力。(詳見論文)

視覺強(qiáng)化微調(diào)! DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源

圖 2. Visual-RFT在多個視覺任務(wù)上顯著超越SFT。

視覺強(qiáng)化微調(diào)! DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源

圖 3. Visual-RFT框架圖,利用IoU和cls獎勵以及強(qiáng)化學(xué)習(xí)策略更新模型參數(shù)。

研究團(tuán)隊使用基于IoU的可驗(yàn)證獎勵用于檢測和grounding任務(wù),使用基于分類正確性的cls獎勵用于分類任務(wù)。(如圖3所示)

視覺強(qiáng)化微調(diào)! DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源

圖 4. 推理定位結(jié)果展示,Visual-RFT超越SFT,更精準(zhǔn)地定位物體。

視覺強(qiáng)化微調(diào)! DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源

圖 5. 推理細(xì)粒度分類結(jié)果展示,Visual-RFT超越SFT,更精準(zhǔn)地定位物體。

圖4和圖5展示了模型輸出結(jié)果,Visual-RFT通過強(qiáng)化學(xué)習(xí)策略,進(jìn)行深入的推理分析,取得了優(yōu)于SFT的性能。

Visual-RFT實(shí)驗(yàn)結(jié)果

基于QWen2-VL 2B/7B模型,Visual-RFT在開放目標(biāo)檢測、少樣本檢測、細(xì)粒度分類和推理定位任務(wù)上全面超越SFT。實(shí)驗(yàn)數(shù)據(jù)涵蓋COCO、LVIS等通用場景和互聯(lián)網(wǎng)卡通人物等開放場景。僅需少量數(shù)據(jù),Visual-RFT即可實(shí)現(xiàn)能力遷移,展現(xiàn)出卓越的性能和魯棒性。

視覺強(qiáng)化微調(diào)! DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源

視覺強(qiáng)化微調(diào)! DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源

圖 5. 部分實(shí)驗(yàn)結(jié)果展示,Visual-RFT顯著超越SFT。

Visual-RFT已開源!

Visual-RFT項(xiàng)目已開源,包含訓(xùn)練、評估代碼和數(shù)據(jù)。歡迎參與!

項(xiàng)目地址:http://m.miracleart.cn/link/ec56522bc9c2e15be17d11962eeec453

以上是視覺強(qiáng)化微調(diào)! DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源的詳細(xì)內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

幣圈熱度回歸,為什麼聰明人都開始悄悄加倉?從鏈上數(shù)據(jù)看趨勢,把握下一輪財富密碼! 幣圈熱度回歸,為什麼聰明人都開始悄悄加倉?從鏈上數(shù)據(jù)看趨勢,把握下一輪財富密碼! Jul 09, 2025 pm 08:30 PM

隨著市場行情的回暖,越來越多的聰明投資者開始在幣圈悄悄加倉,不少人疑惑,是什麼讓他們在大多數(shù)人觀望時果斷出手?本文將通過鏈上數(shù)據(jù)分析當(dāng)前趨勢,幫助讀者理解聰明資金的邏輯,從而更好地把握下一輪潛在的財富增長機(jī)會。

新手必看:怎麼買以太坊? 手把手教你快速入門ETH投資 新手必看:怎麼買以太坊? 手把手教你快速入門ETH投資 Jul 09, 2025 pm 08:06 PM

以太坊(ETH)作為主流數(shù)字資產(chǎn)之一,吸引了大量投資者關(guān)注。對於新手來說,如何安全、快速地購買以太坊,是邁出投資第一步的關(guān)鍵。本文將一步步講解從註冊賬戶到成功購買ETH的全過程,幫助讀者輕鬆入門數(shù)字資產(chǎn)投資。

加密貨幣主流公鏈有哪些? 2025加密貨幣主流公鏈排行榜前十名匯總 加密貨幣主流公鏈有哪些? 2025加密貨幣主流公鏈排行榜前十名匯總 Jul 10, 2025 pm 08:21 PM

公鏈領(lǐng)域的格局呈現(xiàn)出“一超多強(qiáng)、百花齊放”的態(tài)勢。以太坊憑藉其生態(tài)護(hù)城河依然領(lǐng)先,而Solana、Avalanche等則在性能上發(fā)起挑戰(zhàn)。與此同時,專注於互操作性的Polkadot、Cosmos和作為關(guān)鍵基礎(chǔ)設(shè)施的Chainlink,共同構(gòu)成了多鏈並存的未來圖景。對於用戶和開發(fā)者而言,選擇哪個平臺不再是單選題,而是需要根據(jù)具體需求在性能、成本、安全性和生態(tài)成熟度之間做出權(quán)衡。

比特幣破新高,狗狗幣強(qiáng)勢反彈,以太坊是否還能跟上節(jié)奏 比特幣破新高,狗狗幣強(qiáng)勢反彈,以太坊是否還能跟上節(jié)奏 Jul 09, 2025 pm 08:24 PM

近期,比特幣刷新高點(diǎn),狗狗幣迎來強(qiáng)勢反彈,行情火熱。接下來從市場驅(qū)動因素和技術(shù)面分析,以便判斷以太坊是否還有跟漲機(jī)會。

Cardano的智能合約演變:Alonzo升級對2025年的影響 Cardano的智能合約演變:Alonzo升級對2025年的影響 Jul 10, 2025 pm 07:36 PM

Cardano的Alonzo硬分叉升級通過引入Plutus智能合約平臺,成功將Cardano從價值轉(zhuǎn)移網(wǎng)絡(luò)轉(zhuǎn)變?yōu)楣δ芡陚涞闹悄芎霞s平臺。 1. Plutus基於Haskell語言,具備強(qiáng)大的功能性、增強(qiáng)的安全性和可預(yù)測的費(fèi)用模型;2. 升級後dApps部署加速,開發(fā)者社區(qū)擴(kuò)大,DeFi和NFT生態(tài)迅速發(fā)展;3. 展望2025年,Cardano生態(tài)系統(tǒng)將更加成熟多元,結(jié)合Basho時代的可擴(kuò)展性提升、跨鏈互操作性增強(qiáng)、Voltaire時代的去中心化治理演進(jìn)以及企業(yè)級應(yīng)用推動主流採用,Cardano有

領(lǐng)漲2025加密市場的前二十大代幣排行榜(最新更新) 領(lǐng)漲2025加密市場的前二十大代幣排行榜(最新更新) Jul 10, 2025 pm 08:48 PM

2025年最具潛力的二十大加密資產(chǎn)包括BTC、ETH、SOL等,主要覆蓋公鏈、Layer 2、AI、DeFi和遊戲等多個賽道。 1.BTC憑藉數(shù)字黃金屬性和ETF普及持續(xù)引領(lǐng)市場;2.ETH因智能合約平臺地位和升級鞏固生態(tài);3.SOL以高性能公鍊和開發(fā)者社區(qū)脫穎而出;4.LINK作為預(yù)言機(jī)龍頭連接現(xiàn)實(shí)數(shù)據(jù);5.RNDR構(gòu)建去中心化GPU網(wǎng)絡(luò)服務(wù)AI需求;6.IMX專注Web3遊戲提供零Gas費(fèi)環(huán)境;7.ARB以成熟Layer 2技術(shù)和龐大DeFi生態(tài)領(lǐng)先;8.MATIC通過多鏈演進(jìn)成為以太坊價值層

USDC、DAI、TUSD區(qū)別與優(yōu)缺點(diǎn)對比(最近更新) USDC、DAI、TUSD區(qū)別與優(yōu)缺點(diǎn)對比(最近更新) Jul 10, 2025 pm 09:09 PM

USDC、DAI和TUSD的核心區(qū)別在於發(fā)行機(jī)制、抵押資產(chǎn)和風(fēng)險特徵。 1.USDC是中心化穩(wěn)定幣,由Circle發(fā)行,以現(xiàn)金和短期國債為抵押,優(yōu)點(diǎn)是合規(guī)透明、流動性強(qiáng)、穩(wěn)定性高,但存在中心化審查和單點(diǎn)故障風(fēng)險;2.DAI是去中心化穩(wěn)定幣,通過MakerDAO協(xié)議生成,抵押品為加密資產(chǎn),具備抗審查、鏈上透明、無需許可等優(yōu)勢,但也面臨系統(tǒng)性風(fēng)險、對中心化資產(chǎn)依賴及復(fù)雜性問題;3.TUSD是中心化穩(wěn)定幣,強(qiáng)調(diào)實(shí)時鏈上儲備證明,提供更高頻透明度驗(yàn)證,但市場份額較小,流動性較弱。三者在抵押物類型、去中心化

全球主流加密貨幣有哪些? 2025年加密貨幣深度分析(含網(wǎng)址) 全球主流加密貨幣有哪些? 2025年加密貨幣深度分析(含網(wǎng)址) Jul 10, 2025 pm 08:36 PM

在數(shù)字經(jīng)濟(jì)浪潮席捲全球的當(dāng)下,加密貨幣以其獨(dú)特的去中心化、透明化特性,成為各界關(guān)注的焦點(diǎn)。從最初的極客小眾實(shí)驗(yàn),到如今市值數(shù)萬億的金融版圖,加密貨幣的演變軌跡令人驚嘆。它不僅帶來了底層技術(shù)的革新,也催生了無數(shù)創(chuàng)新應(yīng)用,正深刻影響著金融、科技乃至社會治理的方方面面。

See all articles