国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁(yè) 科技週邊 人工智慧 提示視覺(jué)語(yǔ)言模型

提示視覺(jué)語(yǔ)言模型

Feb 25, 2025 pm 11:42 PM

視覺(jué)語(yǔ)言模型(VLMS):深入研究多模式提示

vlms代表了多模式數(shù)據(jù)處理,無(wú)縫整合文本和視覺(jué)輸入的重大飛躍。與僅在文本上運(yùn)行的LLM不同,VLM可以處理這兩種模式,從而實(shí)現(xiàn)需要視覺(jué)和文本理解的任務(wù)。 這為視覺(jué)詢問(wèn)回答(VQA)和圖像字幕等應(yīng)用程序打開(kāi)了大門(mén)。這篇文章探討了VLM的有效提示技術(shù)以利用其視覺(jué)理解能力。

目錄的Prompting Vision Language Models

表:

簡(jiǎn)介

    提示VLMS
  1. 零射擊提示
  2. 幾次提示
  3. 思想鏈提示
  4. >對(duì)象檢測(cè)引導(dǎo)提示
  5. 結(jié)論
  6. 參考
  7. 介紹:

VLM在LLM上構(gòu)建,將視覺(jué)處理作為額外的模式。 訓(xùn)練通常涉及在共享矢量空間內(nèi)對(duì)齊圖像和文本表示,通常使用交叉注意機(jī)制[1,2,3,4]。這允許方便基於文本的互動(dòng)和圖像查詢。 VLM在彌合文本數(shù)據(jù)和視覺(jué)數(shù)據(jù)之間的差距,處理超出文本模型範(fàn)圍之外的任務(wù)之間的差距。 要更深入地了解VLM架構(gòu),請(qǐng)參閱Sebastian Raschka關(guān)於多模式LLM的文章。

提示VLMS:

與LLMS相似的

,VLMS利用各種提示技術(shù),通過(guò)包含圖像來(lái)增強(qiáng)。這篇文章涵蓋了零射,很少射擊和經(jīng)過(guò)思考的提示,以及對(duì)象檢測(cè)集成。 實(shí)驗(yàn)使用OpenAI的GPT-4O-Mini VLM。

代碼和資源可在GitHub上獲得[根據(jù)說(shuō)明,省略鏈接]。

所使用的數(shù)據(jù):

>使用了五個(gè)允許的許可圖像來(lái)自Unsplash [省略的鏈接],並帶有從圖像URL派生的字幕。

零射擊提示:

零射擊提示涉及僅提供任務(wù)描述和圖像。 VLM僅依靠此描述來(lái)生成輸出。 這代表了最小的信息方法。 好處是,精心製作的提示可以在沒(méi)有大量培訓(xùn)數(shù)據(jù)的情況下產(chǎn)生體面的結(jié)果,這與需要大量圖像分類或字幕的大型數(shù)據(jù)集不同。 > OpenAI支持基本64編碼的圖像URL [2]。請(qǐng)求結(jié)構(gòu)類似於llm提示,但包括一個(gè)base64編碼圖像:

{
  "role": "system",
  "content": "You are a helpful assistant that can analyze images and provide captions."
},
{
  "role": "user",
  "content": [
    {
      "type": "text",
      "text": "Please analyze the following image:"
    },
    {
      "type": "image_url",
      "image_url": {
        "url": "data:image/jpeg;base64,{base64_image}",
        "detail": "detail"
      }
    }
  ]
}
可以包括多個(gè)圖像。 實(shí)現(xiàn)了基本64編碼,及時(shí)構(gòu)建和並行API調(diào)用的輔助功能。 [根據(jù)說(shuō)明,省略了代碼段]。 結(jié)果證明了由零拍攝提示生成的詳細(xì)字幕。 [根據(jù)說(shuō)明省略了圖像]。

>

>幾次提示:

Prompting Vision Language Models>很少的提示提供了任務(wù)示例作為上下文,增強(qiáng)了模型理解。 [根據(jù)說(shuō)明,省略了代碼段]。使用三個(gè)示例圖像的使用表明,生成的字幕比零射擊提示中的字幕更簡(jiǎn)潔。 [根據(jù)說(shuō)明省略了圖像]。這突出了示例選擇對(duì)VLM輸出樣式和詳細(xì)信息的影響。

>

思維鏈提示:

> 提示[9]的思想鏈(COT)將復(fù)雜的問(wèn)題分解為更簡(jiǎn)單的步驟。 這適用於VLM,允許他們同時(shí)利用圖像和文本進(jìn)行推理。 [根據(jù)說(shuō)明,省略了代碼段]。 使用OpenAI的O1型號(hào)創(chuàng)建COT痕跡,並用作少量示例。 [根據(jù)說(shuō)明,示例COT跟蹤和圖像省略]。結(jié)果表明,VLM在生成最終標(biāo)題之前通過(guò)中間步驟進(jìn)行推理的能力。 [根據(jù)說(shuō)明省略了圖像]。 >

>

>對(duì)象檢測(cè)引導(dǎo)提示:

> 對(duì)象檢測(cè)可以增強(qiáng)VLM提示。 使用開(kāi)放式攝氏對(duì)象檢測(cè)模型,owl-vit [11]。 首先,VLM標(biāo)識(shí)高級(jí)對(duì)象。這些被用作貓頭鷹武器生成邊界框的提示。 然後,帶註釋的圖像將傳遞給VLM進(jìn)行字幕。 [根據(jù)說(shuō)明,省略了代碼段]。儘管對(duì)簡(jiǎn)單圖像的影響受到限制,但該技術(shù)對(duì)於文檔理解等複雜任務(wù)很有價(jià)值。 [根據(jù)說(shuō)明省略了圖像]。 >

結(jié)論:

VLM為需要視覺(jué)和文本理解的任務(wù)提供了強(qiáng)大的功能。 這篇文章探討了各種提示策略,展示了它們對(duì)VLM性能的影響。 對(duì)創(chuàng)意提示技術(shù)的進(jìn)一步探索具有巨大的潛力。 提供VLM提示上的其他資源[13]。 參考:

[1-13] [根據(jù)說(shuō)明省略了參考]。

以上是提示視覺(jué)語(yǔ)言模型的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門(mén)話題

Laravel 教程
1601
29
PHP教程
1502
276
Kimi K2:最強(qiáng)大的開(kāi)源代理模型 Kimi K2:最強(qiáng)大的開(kāi)源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時(shí)候破壞了Genai行業(yè)的大量開(kāi)源中國(guó)模型嗎??jī)嵐蹹eepSeek佔(zhàn)據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

Grok 4 vs Claude 4:哪個(gè)更好? Grok 4 vs Claude 4:哪個(gè)更好? Jul 12, 2025 am 09:37 AM

到2025年中期,AI“軍備競(jìng)賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車(chē)型Grok 4和Claude 4。這兩種模型處?kù)对O(shè)計(jì)理念和部署平臺(tái)的相反端,但他們卻在

今天已經(jīng)在我們中間走了10個(gè)驚人的人形機(jī)器人 今天已經(jīng)在我們中間走了10個(gè)驚人的人形機(jī)器人 Jul 16, 2025 am 11:12 AM

但是我們可能甚至不必等10年就可以看到一個(gè)。實(shí)際上,可以被認(rèn)為是真正有用的,類人類機(jī)器的第一波。 近年來(lái),有許多原型和生產(chǎn)模型從T中走出來(lái)

Leia的浸入式移動(dòng)應(yīng)用將3D深度帶入日常照片 Leia的浸入式移動(dòng)應(yīng)用將3D深度帶入日常照片 Jul 09, 2025 am 11:17 AM

基於Leia專有的神經(jīng)深度引擎,應(yīng)用程序流程靜止圖像,並添加了自然深度以及模擬運(yùn)動(dòng)(例如Pans,Zooms和Alallax Effects),以創(chuàng)建簡(jiǎn)短的視頻捲軸,從而給人以踏入SCE的印象

上下文工程是' new'及時(shí)的工程 上下文工程是' new'及時(shí)的工程 Jul 12, 2025 am 09:33 AM

直到上一年,迅速的工程被認(rèn)為是與大語(yǔ)言模型(LLM)互動(dòng)的關(guān)鍵技能。然而,最近,LLM在推理和理解能力方面已經(jīng)顯著提高。自然,我們的期望

7種AI代理的7種類型是什麼? 7種AI代理的7種類型是什麼? Jul 11, 2025 am 11:08 AM

想像一些複雜的東西,例如AI引擎準(zhǔn)備提供有關(guān)米蘭新服裝系列的詳細(xì)反饋,或者自動(dòng)市場(chǎng)分析用於全球運(yùn)營(yíng)的企業(yè),或者智能係統(tǒng)管理大型車(chē)隊(duì)。

這些AI模型沒(méi)有學(xué)習(xí)語(yǔ)言,他們學(xué)習(xí)了策略 這些AI模型沒(méi)有學(xué)習(xí)語(yǔ)言,他們學(xué)習(xí)了策略 Jul 09, 2025 am 11:16 AM

倫敦國(guó)王學(xué)院和牛津大學(xué)的研究人員的一項(xiàng)新研究分享了Openai,Google和Anthropic在基於迭代囚犯的困境基於的cutthroat競(jìng)爭(zhēng)中一起投擲的結(jié)果。這是沒(méi)有的

隱藏的命令危機(jī):研究人員遊戲AI將發(fā)布 隱藏的命令危機(jī):研究人員遊戲AI將發(fā)布 Jul 13, 2025 am 11:08 AM

科學(xué)家發(fā)現(xiàn)了一種巧妙而令人震驚的方法來(lái)繞過(guò)系統(tǒng)。 2025年7月標(biāo)誌著一項(xiàng)精心製作的戰(zhàn)略,研究人員將無(wú)形的指示插入其學(xué)術(shù)意見(jiàn) - 這些秘密指令是尾巴

See all articles