国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便

WBOY
發(fā)布: 2024-04-23 08:04:08
轉(zhuǎn)載
892人瀏覽過

一個可以自動分析 pdf、網(wǎng)頁、海報、excel 圖表內(nèi)容的大模型,對于打工人來說簡直不要太方便。

上海 AI Lab,香港中文大學(xué)等研究機構(gòu)提出的 InternLM-XComposer2-4KHD(簡寫為 IXC2-4KHD)模型讓這成為了現(xiàn)實。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便

相比于其他多模態(tài)大模型不超過 1500x1500 的分辨率限制,該工作將多模態(tài)大模型的最大輸入圖像提升到超過 4K (3840 x1600)分辨率,并支持任意長寬比和 336 像素~4K 動態(tài)分辨率變化。

發(fā)布三天,該模型就登頂 Hugging Face 視覺問答模型熱度榜單第一。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便

輕松拿捏 4K 圖像理解

先來看效果 ~

研究人員輸入論文(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)的首頁截圖(分辨率為 2550x3300),并詢問論文哪個模型在 MMBench 上的性能最高。

需要注意的是,該信息在輸入截圖的正文文字部分并未提及,僅僅出現(xiàn)在一個相當復(fù)雜的雷達圖中。面對這么刁鉆的問題,IXC2-4KHD 成功理解了雷達圖中的信息,正確回答問題。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便

面對更加極端分辨率的圖像輸入(816 x 5133),IXC2-4KHD 輕松理解圖像包括 7 個部分,并準確說明了每個部分包含的文字信息內(nèi)容。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便

隨后,研究人員還在 16 項多模態(tài)大模型評測指標上全面測試了 IXC2-4KHD 的能力,其中 5 項評測(DocVQA、ChartQA、InfographicVQA、TextVQA、OCRBench)關(guān)注模型的高分辨率圖像理解能力。

僅僅使用 7B 參數(shù)量,IXC2-4KHD 在其中 10 項評測取得了媲美甚至超越 GPT4V 和 Gemini Pro 的結(jié)果,展現(xiàn)了不局限于高分辨率圖像理解,而是對各種任務(wù)和場景的泛用能力。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便

△僅 7B 參數(shù)量的 IXC2-4KHD 性能媲美 GPT-4V 和 Gemini-Pro 如何實現(xiàn) 4K 動態(tài)分辨率?

為了實現(xiàn) 4K 動態(tài)分辨率的目標,IXC2-4KHD 包括了三個主要設(shè)計:

(1)動態(tài)分辨率訓(xùn)練:

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便

△4K 分辨率圖像處理策略

在 IXC2-4KHD 的框架中,輸入圖像在保持長寬比的情況下,被隨機放大到介于輸入面積和最大面積(不超過 55x336x336,等價于 3840 x1617 分辨率)的一個中間尺寸。

隨后,圖像被自動切塊成多個 336x336 的區(qū)域,分別抽取視覺特征。這種動態(tài)分辨率的訓(xùn)練策略可以讓模型適應(yīng)任意分辨率的視覺輸入,同時也彌補了高分辨率訓(xùn)練數(shù)據(jù)不足的問題。

實驗表明,隨著動態(tài)分辨率上限的增加,模型在高分辨率圖像理解任務(wù)(InfographicVQA、DocVQA、TextVQA)上實現(xiàn)了穩(wěn)定的性能提升,并且在 4K 分辨率仍然未達到上界,展現(xiàn)了更高分辨率進一步擴展的潛力。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便

(2)添加切塊布局信息:

為了使模型能夠適應(yīng)變化豐富的動態(tài)分辨率,研究人員發(fā)現(xiàn)需要將切塊布局信息作為額外的輸入。為了實現(xiàn)這個目的,研究人員采取了一種簡單的策略:一個特殊的‘換行’(’ n ’)令牌被插入到每一行的切塊之后,用于告知模型切塊的布局。實驗表明,添加切塊布局信息,對于變化幅度比較小的動態(tài)分辨率訓(xùn)練(HD9 代表切塊區(qū)域個數(shù)不超過 9)影響不大,而對于動態(tài) 4K 分辨率訓(xùn)練則可以帶來顯著的性能提升。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便

(3)推理階段擴展分辨率

研究人員還發(fā)現(xiàn),使用動態(tài)分辨率的模型,可以在推理階段通過增加最大切塊上限直接擴展分辨率,并且?guī)眍~外的性能增益。例如將 HD9(最多 9 塊)的訓(xùn)練模型直接使用 HD16 進行測試,可以在 InfographicVQA 上觀察到高達 8% 的性能提升。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便

IXC2-4KHD 將多模態(tài)大模型支持的分辨率提升到了 4K 的水平,研究人員表示目前這種通過增加切塊個數(shù)支持更大圖像輸入的策略遇到了計算代價和顯存的瓶頸,因此他們計劃提出更加高效的策略在未來實現(xiàn)更高分辨率的支持。

論文鏈接:

https://arxiv.org/pdf/2404.06512.pdf

項目鏈接:

https://github.com/InternLM/InternLM-XComposer

— 完 —

投稿請發(fā)郵件到:

ai@qbitai.com

標題注明,告訴我們:

你是誰,從哪來,投稿內(nèi)容

附上論文 / 項目主頁鏈接,以及聯(lián)系方式哦

我們會(盡量)及時回復(fù)你

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便

點這里關(guān)注我,記得標星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~

以上就是輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便的詳細內(nèi)容,更多請關(guān)注php中文網(wǎng)其它相關(guān)文章!

最佳 Windows 性能的頂級免費優(yōu)化軟件
最佳 Windows 性能的頂級免費優(yōu)化軟件

每個人都需要一臺速度更快、更穩(wěn)定的 PC。隨著時間的推移,垃圾文件、舊注冊表數(shù)據(jù)和不必要的后臺進程會占用資源并降低性能。幸運的是,許多工具可以讓 Windows 保持平穩(wěn)運行。

下載
相關(guān)標簽:
來源:ZAKER網(wǎng)
本文內(nèi)容由網(wǎng)友自發(fā)貢獻,版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請聯(lián)系admin@php.cn
最新問題
開源免費商場系統(tǒng)廣告
最新下載
更多>
網(wǎng)站特效
網(wǎng)站源碼
網(wǎng)站素材
前端模板
關(guān)于我們 免責(zé)申明 意見反饋 講師合作 廣告合作 最新更新
php中文網(wǎng):公益在線php培訓(xùn),幫助PHP學(xué)習(xí)者快速成長!
關(guān)注服務(wù)號 技術(shù)交流群
PHP中文網(wǎng)訂閱號
每天精選資源文章推送
PHP中文網(wǎng)APP
隨時隨地碎片化學(xué)習(xí)
PHP中文網(wǎng)抖音號
發(fā)現(xiàn)有趣的

Copyright 2014-2025 http://m.miracleart.cn/ All Rights Reserved | php.cn | 湘ICP備2023035733號