国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁 科技周邊 人工智能 視覺強化微調(diào)!DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源

視覺強化微調(diào)!DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源

Mar 12, 2025 pm 01:12 PM
git ai 郵箱 產(chǎn)業(yè) 寶可夢 DeepSeek 視覺強化 qwen

重磅推薦:Visual-RFT——視覺強化微調(diào)開源項目,賦能視覺語言模型!

視覺強化微調(diào)!DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源

AIxiv專欄持續(xù)關(guān)注全球頂尖AI研究,已發(fā)布2000余篇學(xué)術(shù)技術(shù)文章。歡迎投稿分享您的優(yōu)秀成果!投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

Visual-RFT (Visual Reinforcement Fine-Tuning) 項目,將基于規(guī)則獎勵的強化學(xué)習(xí)與強化微調(diào)(RFT)范式成功應(yīng)用于視覺語言大模型(LVLM),突破了以往方法僅限于文本、數(shù)學(xué)等領(lǐng)域的局限。通過為視覺細(xì)分類、目標(biāo)檢測等任務(wù)設(shè)計特定規(guī)則獎勵,Visual-RFT 為LVLM訓(xùn)練提供了全新思路!

圖1展示了Visual-RFT的強大泛化能力:模型僅需少量數(shù)據(jù),便能準(zhǔn)確識別視覺強化微調(diào)!DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源中特定寶可夢并定位其坐標(biāo)。

視覺強化微調(diào)!DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源

圖1. Visual-RFT 將強化微調(diào)擴展到多模態(tài),只需10-1000條數(shù)據(jù)即可顯著提升模型性能。

從RFT到Visual-RFT:強化學(xué)習(xí)在多模態(tài)領(lǐng)域的突破

OpenAI的強化微調(diào)技術(shù),只需少量樣本即可實現(xiàn)模型能力遷移。 DeepSeek-R1揭示了其強大的推理能力源于基于可驗證獎勵的強化學(xué)習(xí)策略。然而,該策略此前主要應(yīng)用于文本、數(shù)學(xué)等領(lǐng)域。 Visual-RFT將此策略成功拓展至視覺領(lǐng)域,通過構(gòu)建可驗證規(guī)則獎勵,解決了傳統(tǒng)方法在視覺領(lǐng)域的局限性,實現(xiàn)高效、高泛化性的視覺理解與推理。

傳統(tǒng)的視覺指令微調(diào)(SFT)需要大量數(shù)據(jù),而Visual-RFT的少樣本學(xué)習(xí)能力使其在數(shù)據(jù)稀缺場景下更具優(yōu)勢。

為了驗證Visual-RFT的泛化能力,研究團隊在目標(biāo)檢測、分類、 grounding等多個視覺任務(wù)上進(jìn)行了測試。結(jié)果顯示,Visual-RFT在開放詞匯、少樣本學(xué)習(xí)等設(shè)定下,僅需少量數(shù)據(jù)即可實現(xiàn)顯著性能提升,并優(yōu)于SFT方法。尤其在推理定位任務(wù)中,Visual-RFT展現(xiàn)出卓越的視覺推理能力。 (詳見論文)

視覺強化微調(diào)!DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源

圖2. Visual-RFT在多個視覺任務(wù)上顯著超越SFT。

視覺強化微調(diào)!DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源

圖3. Visual-RFT框架圖,利用IoU和cls獎勵以及強化學(xué)習(xí)策略更新模型參數(shù)。

研究團隊使用基于IoU的可驗證獎勵用于檢測和grounding任務(wù),使用基于分類正確性的cls獎勵用于分類任務(wù)。 (如圖3所示)

視覺強化微調(diào)!DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源

圖4. 推理定位結(jié)果展示,Visual-RFT超越SFT,更精準(zhǔn)地定位物體。

視覺強化微調(diào)!DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源

圖5. 推理細(xì)粒度分類結(jié)果展示,Visual-RFT超越SFT,更精準(zhǔn)地定位物體。

圖4和圖5展示了模型輸出結(jié)果,Visual-RFT通過強化學(xué)習(xí)策略,進(jìn)行深入的推理分析,取得了優(yōu)于SFT的性能。

Visual-RFT實驗結(jié)果

基于QWen2-VL 2B/7B模型,Visual-RFT在開放目標(biāo)檢測、少樣本檢測、細(xì)粒度分類和推理定位任務(wù)上全面超越SFT。實驗數(shù)據(jù)涵蓋COCO、LVIS等通用場景和互聯(lián)網(wǎng)卡通人物等開放場景。僅需少量數(shù)據(jù),Visual-RFT即可實現(xiàn)能力遷移,展現(xiàn)出卓越的性能和魯棒性。

視覺強化微調(diào)!DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源

視覺強化微調(diào)!DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源

圖5. 部分實驗結(jié)果展示,Visual-RFT顯著超越SFT。

Visual-RFT已開源!

Visual-RFT項目已開源,包含訓(xùn)練、評估代碼和數(shù)據(jù)。歡迎參與!

項目地址: http://m.miracleart.cn/link/ec56522bc9c2e15be17d11962eeec453

以上是視覺強化微調(diào)!DeepSeek R1技術(shù)成功遷移到多模態(tài)領(lǐng)域,全面開源的詳細(xì)內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機

Video Face Swap

Video Face Swap

使用我們完全免費的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

Ethena財庫策略:穩(wěn)定幣第三帝國的崛起 Ethena財庫策略:穩(wěn)定幣第三帝國的崛起 Jul 30, 2025 pm 08:12 PM

目錄雙幣系統(tǒng)大逃殺真實采用仍未發(fā)生結(jié)語2023年8月,MakerDAO生態(tài)借貸協(xié)議Spark給出$DAI8%的年化收益,隨后孫割分批進(jìn)入,累計投入23萬枚$stETH,最高占Spark存款量15%以上,逼得MakerDAO緊急提案,把利率下調(diào)到5%。MakerDAO的本意是“補貼”$DAI的使用率,差點變成孫宇晨的SoloYield。2025年7月,Ethe

以太坊(ETH) NFT 七日銷量近1.6億美元,貸款機構(gòu)借助 World ID 推出無擔(dān)保加密貸款 以太坊(ETH) NFT 七日銷量近1.6億美元,貸款機構(gòu)借助 World ID 推出無擔(dān)保加密貸款 Jul 30, 2025 pm 10:06 PM

目錄加密市場全景掘金熱門代幣VINEVine( 114.79%,流通市值1.44億美元)ZORAZora( 16.46%,流通市值2.9億美元)NAVXNAVIProtocol( 10.36%,流通市值3,576.24萬美元)Alpha解讀過去7天以太坊鏈上NFT銷售額近1.6億美元,CryptoPunks居第一去中心化證明者網(wǎng)絡(luò)Succinct推出Succinct基金會,或為代幣TGE

幣安交易所官網(wǎng)登錄注冊入口 幣安交易所官網(wǎng)登錄注冊入口 Jul 30, 2025 pm 09:03 PM

訪問幣安官網(wǎng)并點擊注冊按鈕選擇個人用戶;2. 填寫郵箱或手機號及強密碼完成信息注冊;3. 進(jìn)入身份認(rèn)證(KYC)環(huán)節(jié)上傳證件并完成人臉識別;4. 登錄賬戶時輸入注冊信息并啟用2FA雙重認(rèn)證提升安全性;5. 注意勿泄露驗證碼、啟用防釣魚碼、根據(jù)地區(qū)使用合規(guī)子站如Binance.US;6. 可下載官方App實現(xiàn)移動端操作;7. 登錄失敗可重置密碼,認(rèn)證延遲可聯(lián)系客服,資金安全建議設(shè)置白名單與冷存儲;整體流程簡便但需嚴(yán)格遵循安全規(guī)范以保障賬戶安全。

幣安Treehouse(TREE幣)是什么?即將上線的Treehouse項目概述,代幣經(jīng)濟與未來發(fā)展分析 幣安Treehouse(TREE幣)是什么?即將上線的Treehouse項目概述,代幣經(jīng)濟與未來發(fā)展分析 Jul 30, 2025 pm 10:03 PM

目錄什么是Treehouse(TREE)?Treehouse(TREE)如何運作?Treehouse產(chǎn)品tETHDOR——分散報價利率GoNuts積分系統(tǒng)Treehouse亮點TREE代幣和代幣經(jīng)濟學(xué)概述2025年第三季度路線圖開發(fā)團隊、投資者和合作伙伴Treehouse創(chuàng)始團隊投資基金伙伴總結(jié)隨著DeFi的不斷擴張,固定收益產(chǎn)品的需求日益增長,其作用類似于債券在傳統(tǒng)金融市場中的作用。然而,在區(qū)塊鏈上構(gòu)建

以太坊是什么幣?以太坊ETH獲得的方式有哪些? 以太坊是什么幣?以太坊ETH獲得的方式有哪些? Jul 31, 2025 pm 11:00 PM

以太坊是一個基于智能合約的去中心化應(yīng)用平臺,其原生代幣ETH可通過多種方式獲取。1、通過Binance必安、歐意ok等中心化平臺注冊賬戶、完成KYC認(rèn)證并用穩(wěn)定幣購買ETH;2、通過去中心化平臺連接數(shù)字儲存,使用穩(wěn)定幣或其他代幣直接兌換ETH;3、參與網(wǎng)絡(luò)質(zhì)押,可選擇獨立質(zhì)押(需32個ETH)、流動性質(zhì)押服務(wù)或在中心化平臺一鍵質(zhì)押以獲取獎勵;4、通過為Web3項目提供服務(wù)、完成任務(wù)或獲得空投等方式賺取ETH。建議初學(xué)者從主流中心化平臺入手,逐步過渡到去中心化方式,并始終重視資產(chǎn)安全與自主研究,以

什么是火幣HTX紅包?如何發(fā)送、領(lǐng)取紅包?火幣瓜分1000U活動 什么是火幣HTX紅包?如何發(fā)送、領(lǐng)取紅包?火幣瓜分1000U活動 Jul 30, 2025 pm 09:45 PM

目錄一、什么是火幣HTX紅包?二、如何創(chuàng)建并發(fā)送紅包?三、如何領(lǐng)取紅包?1.領(lǐng)取口令紅包2.掃描二維碼領(lǐng)取紅包3.點擊紅包鏈接領(lǐng)取紅包4.查收紅包并分享更多說明:一、什么是火幣HTX紅包?火幣HTX紅包支持用戶以紅包形式將加密貨幣發(fā)送給好友,您可以創(chuàng)建隨機金額或固定金額的加密貨幣紅包,并通過發(fā)送紅包口令、分享鏈接或海報形式發(fā)送給朋友們。您的朋友可以在火幣HTXAPP內(nèi)或點擊鏈接免費領(lǐng)取?;饚臜TX紅包還支持未注冊用戶領(lǐng)取,并

炒幣怎樣才能避免做接盤俠?一定要警惕風(fēng)險來臨 炒幣怎樣才能避免做接盤俠?一定要警惕風(fēng)險來臨 Jul 30, 2025 pm 08:06 PM

要避免炒幣高位接盤,必須建立市場認(rèn)知、風(fēng)險識別與防御策略三位一體的防御體系:1. 識別牛市末期社交媒體激增、新幣暴漲后暴跌、巨鯨減持等信號,熊市初期采用倉位金字塔法則和動態(tài)止損;2. 構(gòu)建信息分級(戰(zhàn)略/戰(zhàn)術(shù)/噪音)、技術(shù)驗證(均線與RSI、深度數(shù)據(jù))、情緒隔離(三連虧停手、拔網(wǎng)線)三重濾鏡;3. 建立規(guī)則層(巨鯨追蹤、政策敏感型倉位)、工具層(鏈上數(shù)據(jù)監(jiān)測、對沖工具)、系統(tǒng)層(杠鈴策略、USDT儲備)三層防御;4. 警惕名人效應(yīng)(如LIBRA幣)、政策突變、流動性危機等場景,通過合約核查、倉位

Zircuit(ZRC幣)是什么?如何運作?ZRC項目概述,代幣經(jīng)濟與前景分析 Zircuit(ZRC幣)是什么?如何運作?ZRC項目概述,代幣經(jīng)濟與前景分析 Jul 30, 2025 pm 09:15 PM

目錄什么是ZircuitZircuit如何運作Zircuit的主要特點混合架構(gòu)AI安全EVM兼容性安全原生橋Zircuit積分Zircuit質(zhì)押什么是Zircuit代幣(ZRC)Zircuit(ZRC)幣價格預(yù)測ZRC幣怎么買?結(jié)語近年來,為以太坊(ETH)Layer1網(wǎng)絡(luò)提供服務(wù)的Layer2區(qū)塊鏈平臺的利基市場蓬勃發(fā)展,主要原因是網(wǎng)絡(luò)擁堵、手續(xù)費高和可擴展性差。其中許多平臺使用上卷技術(shù),鏈下處理的多個交易批

See all articles