国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁 硬體教學(xué) 硬體測評 輕鬆拿捏 4K 高畫質(zhì)影像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便

輕鬆拿捏 4K 高畫質(zhì)影像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便

Apr 23, 2024 am 08:04 AM
git composer 解析度 效果 雷達 美圖 香港中文大學(xué) lab

一個可以自動分析 PDF、網(wǎng)頁、海報、Excel 圖表內(nèi)容的大模型,對於打工人來說簡直不要太方便。

上海 AI Lab,香港中文大學(xué)等研究機構(gòu)提出的 InternLM-XComposer2-4KHD(簡寫為 IXC2-4KHD)模型讓這成為了現(xiàn)實。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便

相比於其他多模態(tài)大模型不超過1500x1500 的分辨率限制,該工作將多模態(tài)大模型的最大輸入圖像提升到超過4K (3840 x1600)分辨率,並支援任意長寬比和336 像素~4K 動態(tài)分辨率變化。

發(fā)布三天,模型就登頂 Hugging Face 視覺問答模型熱度排行榜第一。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便

輕鬆拿捏4K 影像理解

先來看效果~

研究人員輸入論文(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)的首頁截圖(解析度為2550x3300),並詢問論文哪個模型在MMBench 上的表現(xiàn)最高。

要注意的是,該資訊在輸入截圖的正文文字部分並未提及,僅出現(xiàn)在一個相當(dāng)複雜的雷達圖中。面對這麼刁鑽的問題,IXC2-4KHD 成功理解了雷達圖中的訊息,正確回答問題。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便

面對更極端解析度的影像輸入(816 x 5133),IXC2-4KHD 輕鬆理解影像包括7 個部分,並準確說明了每個部分包含的文字訊息內(nèi)容。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便

隨後,研究人員也在16 個多模態(tài)大模式評測指標(biāo)上全面測試了IXC2-4KHD 的能力,其中5 項評測(DocVQA、ChartQA、InfographicVQA 、TextVQA、OCRBench)著重模型的高解析度影像理解能力。

僅使用7B 參數(shù)量,IXC2-4KHD 在其中10 項評測取得了媲美甚至超越GPT4V 和Gemini Pro 的結(jié)果,展現(xiàn)了不局限於高分辨率圖像理解,而是對各種任務(wù)和場景的泛用能力。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便

△僅 7B 參數(shù)量的 IXC2-4KHD 效能媲美 GPT-4V 和 Gemini-Pro 如何實現(xiàn) 4K 動態(tài)解析度?

為了實現(xiàn)4K 動態(tài)解析度的目標(biāo),IXC2-4KHD 包含了三個主要設(shè)計:

(1)動態(tài)解析度訓(xùn)練:

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便

△4K 解析度影像處理策略

在IXC2-4KHD 的框架中,輸入影像在保持長寬比的情況下,隨機放大到介於輸入面積和最大面積(不超過55x336x336,等價於3840 x1617 解析度)的一個中間尺寸。

隨後,將影像自動切塊成多個 336x336 的區(qū)域,分別抽取視覺特徵。這種動態(tài)解析度的訓(xùn)練策略可以讓模型適應(yīng)任意解析度的視覺輸入,同時也彌補了高解析度訓(xùn)練資料不足的問題。

實驗表明,隨著動態(tài)解析度上限的增加,模型在高解析度影像理解任務(wù)(InfographicVQA、DocVQA、TextVQA)上實現(xiàn)了穩(wěn)定的效能提升,並且在4K 解析度仍然未達到上界,展現(xiàn)了更高解析度進一步擴展的潛力。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便

(2)加入切塊佈局資訊:

為了讓模型能夠適應(yīng)變化豐富的動態(tài)分辨率,研究人員發(fā)現(xiàn)需要將切塊佈局資訊作為額外的輸入。為了實現(xiàn)這個目的,研究人員採取了一個簡單的策略:一個特殊的『換行』(’ n ’)令牌被插入到每一行的切塊之後,用於告知模型切塊的佈局。實驗表明,添加切塊佈局信息,對於變化幅度比較小的動態(tài)分辨率訓(xùn)練(HD9 代表切塊區(qū)域個數(shù)不超過9)影響不大,而對於動態(tài)4K 分辨率訓(xùn)練則可以帶來顯著的性能提升。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便

(3)推理階段擴展解析度

研究人員也發(fā)現(xiàn),使用動態(tài)解析度的模型,可以在推理階段透過增加最大切塊上限直接擴展分辨率,並帶來額外的性能增益。例如將 HD9(最多 9 個)的訓(xùn)練模型直接使用 HD16 進行測試,可以在 InfographicVQA 上觀察到高達 8% 的效能提升。

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便

IXC2-4KHD 將多模態(tài)大模型支援的分辨率提升到了4K 的水平,研究人員表示目前這種透過增加切塊個數(shù)來支持更大圖像輸入的策略遇到了計算代價和顯存的瓶頸,因此他們計劃提出更有效率的策略在未來實現(xiàn)更高解析度的支援。

論文連結(jié):

https://arxiv.org/pdf/2404.06512.pdf

專案連結(jié):

##https://github.com /InternLM/InternLM-XComposer

— 完—

投稿請寄電子郵件到:

ai@qbitai.com

##標(biāo)題註明,告訴我們:

你是誰,從哪裡來,投稿內(nèi)容

附上論文/ 專案主頁鏈接,以及聯(lián)絡(luò)方式哦

我們會(盡量)及時回覆你

 輕松拿捏 4K 高清圖像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便 點這裡追蹤我,記得標(biāo)星哦~

一鍵三連「分享」、「按讚」和「在看」

科技前沿進展日日相見~

#

以上是輕鬆拿捏 4K 高畫質(zhì)影像理解!這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容,打工人簡直不要太方便的詳細內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程
1601
29
PHP教程
1502
276
PHP調(diào)用AI智能語音助手 PHP語音交互系統(tǒng)搭建 PHP調(diào)用AI智能語音助手 PHP語音交互系統(tǒng)搭建 Jul 25, 2025 pm 08:45 PM

用戶語音輸入通過前端JavaScript的MediaRecorderAPI捕獲並發(fā)送至PHP後端;2.PHP將音頻保存為臨時文件後調(diào)用STTAPI(如Google或百度語音識別)轉(zhuǎn)換為文本;3.PHP將文本發(fā)送至AI服務(wù)(如OpenAIGPT)獲取智能回復(fù);4.PHP再調(diào)用TTSAPI(如百度或Google語音合成)將回復(fù)轉(zhuǎn)為語音文件;5.PHP將語音文件流式返回前端播放,完成交互。整個流程由PHP主導(dǎo)數(shù)據(jù)流轉(zhuǎn)與錯誤處理,確保各環(huán)節(jié)無縫銜接。

如何用PHP結(jié)合AI做圖像生成 PHP自動生成藝術(shù)作品 如何用PHP結(jié)合AI做圖像生成 PHP自動生成藝術(shù)作品 Jul 25, 2025 pm 07:21 PM

PHP不直接進行AI圖像處理,而是通過API集成,因為它擅長Web開發(fā)而非計算密集型任務(wù),API集成能實現(xiàn)專業(yè)分工、降低成本、提升效率;2.整合關(guān)鍵技術(shù)包括使用Guzzle或cURL發(fā)送HTTP請求、JSON數(shù)據(jù)編解碼、API密鑰安全認證、異步隊列處理耗時任務(wù)、健壯錯誤處理與重試機制、圖像存儲與展示;3.常見挑戰(zhàn)有API成本失控、生成結(jié)果不可控、用戶體驗差、安全風(fēng)險和數(shù)據(jù)管理難,應(yīng)對策略分別為設(shè)置用戶配額與緩存、提供prompt指導(dǎo)與多圖選擇、異步通知與進度提示、密鑰環(huán)境變量存儲與內(nèi)容審核、雲(yún)存

PHP集成AI智能圖片識別 PHP視覺內(nèi)容自動標(biāo)籤化 PHP集成AI智能圖片識別 PHP視覺內(nèi)容自動標(biāo)籤化 Jul 25, 2025 pm 05:42 PM

將AI視覺理解能力融入PHP應(yīng)用的核心思路是利用第三方AI視覺服務(wù)API,PHP負責(zé)上傳圖片、發(fā)送請求、接收并解析JSON結(jié)果,將標(biāo)簽存入數(shù)據(jù)庫;2.圖片自動標(biāo)簽化能顯著提升效率、增強內(nèi)容可搜索性、優(yōu)化管理和推薦,使視覺內(nèi)容從“死數(shù)據(jù)”變?yōu)椤盎顢?shù)據(jù)”;3.選擇AI服務(wù)需根據(jù)功能匹配度、準確率、成本、易用性、地域延遲和數(shù)據(jù)合規(guī)性綜合判斷,推薦從GoogleCloudVision等通用服務(wù)起步;4.常見挑戰(zhàn)包括網(wǎng)絡(luò)超時、密鑰安全、錯誤處理、圖片格式限制、成本控制、異步處理需求及AI識別準確率問題,需

什麼是Useless Coin(USELESS幣)? USELESS幣用途、突出特點及未來增長潛力概述 什麼是Useless Coin(USELESS幣)? USELESS幣用途、突出特點及未來增長潛力概述 Jul 24, 2025 pm 11:54 PM

目錄關(guān)鍵要點什麼是UselessCoin:概述和主要特徵USELESS的主要特點UselessCoin(USELESS)未來價格展望:2025年及以後什麼影響UselessCoin的價格?未來價格前景UselessCoin(USELESS)的核心功能及其重要性UselessCoin(USELESS)如何運作以及它帶來的好處UselessCoin的工作原理主要優(yōu)點關(guān)於USELESSCoin的公司本組織的伙伴關(guān)係他們?nèi)绾螀f(xié)同工

如何在PHP環(huán)境中設(shè)置環(huán)境變量 PHP運行環(huán)境變量添加說明 如何在PHP環(huán)境中設(shè)置環(huán)境變量 PHP運行環(huán)境變量添加說明 Jul 25, 2025 pm 08:33 PM

PHP設(shè)置環(huán)境變量主要有三種方式:1.通過php.ini全局配置;2.通過Web服務(wù)器(如Apache的SetEnv或Nginx的fastcgi_param)傳遞;3.在PHP腳本中使用putenv()函數(shù)。其中,php.ini適用於全局且不常變的配置,Web服務(wù)器配置適用於需要隔離的場景,putenv()適用於臨時性的變量。持久化策略包括配置文件(如php.ini或Web服務(wù)器配置)、.env文件配合dotenv庫加載、CI/CD流程中動態(tài)注入變量。安全管理敏感信息應(yīng)避免硬編碼,推薦使用.en

成品python大片在線觀看入口 python免費成品網(wǎng)站大全 成品python大片在線觀看入口 python免費成品網(wǎng)站大全 Jul 23, 2025 pm 12:36 PM

本文為您精選了多個頂級的Python“成品”項目網(wǎng)站與高水平“大片”級學(xué)習(xí)資源入口。無論您是想尋找開發(fā)靈感、觀摩學(xué)習(xí)大師級的源代碼,還是系統(tǒng)性地提昇實戰(zhàn)能力,這些平臺都是不容錯過的寶庫,能幫助您快速成長為Python高手。

如何用Mac搭建PHP Nginx環(huán)境 MacOS配置Nginx與PHP服務(wù)組合 如何用Mac搭建PHP Nginx環(huán)境 MacOS配置Nginx與PHP服務(wù)組合 Jul 25, 2025 pm 08:24 PM

Homebrew在Mac環(huán)境搭建中的核心作用是簡化軟件安裝與管理。 1.Homebrew自動處理依賴關(guān)係,將復(fù)雜的編譯安裝流程封裝為簡單命令;2.提供統(tǒng)一的軟件包生態(tài),確保軟件安裝位置與配置標(biāo)準化;3.集成服務(wù)管理功能,通過brewservices可便捷啟動、停止服務(wù);4.便於軟件升級與維護,提升系統(tǒng)安全性與功能性。

Vue成品資源網(wǎng)站免費入口 完整Vue成品永久在線觀看 Vue成品資源網(wǎng)站免費入口 完整Vue成品永久在線觀看 Jul 23, 2025 pm 12:39 PM

本文為Vue開發(fā)者和學(xué)習(xí)者精選了一系列頂級的成品資源網(wǎng)站。通過這些平臺,你可以免費在線瀏覽、學(xué)習(xí)甚至復(fù)用海量高質(zhì)量的Vue完整項目,從而快速提升開發(fā)技能和項目實踐能力。

See all articles