国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
Vision Transformer是如何進(jìn)行圖片分類的?
ViT與ResNet與MobileNet的效能基準(zhǔn)比較
Vision Transformer模型相關(guān)
首頁(yè) 科技週邊 人工智慧 深入解析Vision Transformer(VIT)模型的工作原理與特點(diǎn)

深入解析Vision Transformer(VIT)模型的工作原理與特點(diǎn)

Jan 23, 2024 am 08:30 AM
人工智慧 機(jī)器學(xué)習(xí) 影像處理

什么是Vision Transformer(VIT)?Vision Transformer模型詳解

Vision Transformer(VIT)是Google提出的一種基於Transformer的圖片分類模型。不同於傳統(tǒng)CNN模型,VIT將圖像表示為序列,並透過(guò)預(yù)測(cè)圖像的類別標(biāo)籤來(lái)學(xué)習(xí)圖像結(jié)構(gòu)。為了實(shí)現(xiàn)這一點(diǎn),VIT將輸入影像劃分為多個(gè)補(bǔ)丁,並將每個(gè)補(bǔ)丁中的像素透過(guò)通道連接,然後進(jìn)行線性投影以達(dá)到所需的輸入維度。最後,每個(gè)補(bǔ)丁被展平為單一向量,從而形成輸入序列。透過(guò)Transformer的自註意力機(jī)制,VIT能夠捕捉到不同補(bǔ)丁之間的關(guān)係,並進(jìn)行有效的特徵提取和分類預(yù)測(cè)。這種序列化的影像表示方法為電腦視覺(jué)任務(wù)帶來(lái)了新的想法和效果。

Vision Transformer模型被廣泛應(yīng)用於影像辨識(shí)任務(wù),如物件偵測(cè)、影像分割、影像分類和動(dòng)作辨識(shí)。此外,它還適用於生成建模和多模型任務(wù),包括視覺(jué)基礎(chǔ)、視覺(jué)問(wèn)答和視覺(jué)推理等。

Vision Transformer是如何進(jìn)行圖片分類的?

在深入研究Vision Transformers的工作原理之前,我們必須了解原始Transformer中的注意力和多頭注意力的基礎(chǔ)知識(shí)。

Transformer是一種使用稱為自註意力機(jī)制的模型,既不是CNN也不是LSTM,它建構(gòu)了一個(gè)Transformer模型並顯著優(yōu)於這些方法。

Transformer模型的注意力機(jī)制使用了三個(gè)變數(shù):Q(Query)、K(Key)和V(Value)。簡(jiǎn)單地說(shuō),它計(jì)算一個(gè)Query token和一個(gè)Key token的注意力權(quán)重,並乘以每個(gè)Key關(guān)聯(lián)的Value。即Transformer模型計(jì)算Query token和Key token之間的關(guān)聯(lián)(注意力權(quán)重),並將與每個(gè)Key關(guān)聯(lián)的Value相乘。

定義Q、K、V計(jì)算為單頭,在多頭注意力機(jī)制中,每個(gè)頭都有自己的投影矩陣W_i^Q、W_i^K、W_i^V,它們分別計(jì)算使用這些矩陣投影的特徵值的注意力權(quán)重。

多頭注意力機(jī)制允許每次都以不同的方式專注於序列的不同部分。這意味著:

該模型可以更好地捕獲位置信息,因?yàn)槊總€(gè)頭將關(guān)注不同的輸入部分。它們的組合將提供更強(qiáng)大的表示。

每個(gè)頭也將透過(guò)唯一關(guān)聯(lián)的單字來(lái)捕獲不同的上下文資訊。

到此我們知道了Transformer模型的工作機(jī)制,再回過(guò)頭看看Vision Transformer模型。

Vision Transformer是將Transformer應(yīng)用於影像分類任務(wù)的模型,於2020年10月提出。模型架構(gòu)與原始Transformer幾乎相同,它允許將圖像視為輸入,就像自然語(yǔ)言處理一樣。

Vision Transformer模型使用Transformer Encoder作為基礎(chǔ)模型從影像中提取特徵,並將這些處理過(guò)的特徵傳遞到多層感知器(MLP)頭部模型中進(jìn)行分類。由於基礎(chǔ)模型Transformer的計(jì)算量已經(jīng)非常大,因此Vision Transformer將影像分解成方形塊,作為一種輕量級(jí)「窗口化」注意力機(jī)制來(lái)解決此類問(wèn)題。

然後圖像會(huì)轉(zhuǎn)換為方形補(bǔ)丁,這些補(bǔ)丁被展平並通過(guò)單個(gè)前饋層發(fā)送以獲得線性補(bǔ)丁投影。為了幫助分類位,透過(guò)將可學(xué)習(xí)的類別嵌入與其他補(bǔ)丁投影連接起來(lái)。

總之,這些補(bǔ)丁投影和位置嵌入形成了一個(gè)更大的矩陣,很快就會(huì)通過(guò)Transformer編碼器。然後將Transformer編碼器的輸出傳送到多層感知器以進(jìn)行影像分類。輸入特徵很好地捕捉了影像的本質(zhì),使MLP頭的分類任務(wù)變得簡(jiǎn)單得多。

ViT與ResNet與MobileNet的效能基準(zhǔn)比較

雖然ViT在學(xué)習(xí)高品質(zhì)影像特徵方面顯示出卓越的潛力,但它在性能與精度增益方面較差。準(zhǔn)確度的小幅提高並不能證明ViT的運(yùn)行時(shí)間較差。

Vision Transformer模型相關(guān)

  • #微調(diào)程式碼和預(yù)訓(xùn)練的Vision Transformer模型可在Google Research的GitHub上存取。
  • Vision Transformer模型在ImageNet和ImageNet-21k資料集上進(jìn)行預(yù)訓(xùn)練。
  • Vision Transformer(ViT)模型在ICLR 2021上發(fā)表的標(biāo)題為「An Image is Worth 16*16 Words:Transformers for Image Recognition at Scale」的會(huì)議研究論文中被引入。

以上是深入解析Vision Transformer(VIT)模型的工作原理與特點(diǎn)的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程
1601
29
PHP教程
1502
276
位元組跳動(dòng)剪映推出 SVIP 超級(jí)會(huì)員:連續(xù)包年 499 元,提供多種 AI 功能 位元組跳動(dòng)剪映推出 SVIP 超級(jí)會(huì)員:連續(xù)包年 499 元,提供多種 AI 功能 Jun 28, 2024 am 03:51 AM

本站6月27日訊息,剪映是由位元組跳動(dòng)旗下臉萌科技開發(fā)的一款影片剪輯軟體,依託於抖音平臺(tái)且基本面向該平臺(tái)用戶製作短影片內(nèi)容,並相容於iOS、安卓、Windows 、MacOS等作業(yè)系統(tǒng)。剪映官方宣布會(huì)員體系升級(jí),推出全新SVIP,包含多種AI黑科技,例如智慧翻譯、智慧劃重點(diǎn)、智慧包裝、數(shù)位人合成等。價(jià)格方面,剪映SVIP月費(fèi)79元,年費(fèi)599元(本站註:折合每月49.9元),連續(xù)包月則為59元每月,連續(xù)包年為499元每年(折合每月41.6元) 。此外,剪映官方也表示,為提升用戶體驗(yàn),向已訂閱了原版VIP

使用Rag和Sem-Rag提供上下文增強(qiáng)AI編碼助手 使用Rag和Sem-Rag提供上下文增強(qiáng)AI編碼助手 Jun 10, 2024 am 11:08 AM

透過(guò)將檢索增強(qiáng)生成和語(yǔ)意記憶納入AI編碼助手,提升開發(fā)人員的生產(chǎn)力、效率和準(zhǔn)確性。譯自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。雖然基本AI程式設(shè)計(jì)助理自然有幫助,但由於依賴對(duì)軟體語(yǔ)言和編寫軟體最常見(jiàn)模式的整體理解,因此常常無(wú)法提供最相關(guān)和正確的程式碼建議。這些編碼助手產(chǎn)生的代碼適合解決他們負(fù)責(zé)解決的問(wèn)題,但通常不符合各個(gè)團(tuán)隊(duì)的編碼標(biāo)準(zhǔn)、慣例和風(fēng)格。這通常會(huì)導(dǎo)致需要修改或完善其建議,以便將程式碼接受到應(yīng)

微調(diào)真的能讓LLM學(xué)到新東西嗎:引入新知識(shí)可能讓模型產(chǎn)生更多的幻覺(jué) 微調(diào)真的能讓LLM學(xué)到新東西嗎:引入新知識(shí)可能讓模型產(chǎn)生更多的幻覺(jué) Jun 11, 2024 pm 03:57 PM

大型語(yǔ)言模型(LLM)是在龐大的文字資料庫(kù)上訓(xùn)練的,在那裡它們獲得了大量的實(shí)際知識(shí)。這些知識(shí)嵌入到它們的參數(shù)中,然後可以在需要時(shí)使用。這些模型的知識(shí)在訓(xùn)練結(jié)束時(shí)被「具體化」。在預(yù)訓(xùn)練結(jié)束時(shí),模型實(shí)際上停止學(xué)習(xí)。對(duì)模型進(jìn)行對(duì)齊或進(jìn)行指令調(diào)優(yōu),讓模型學(xué)習(xí)如何充分利用這些知識(shí),以及如何更自然地回應(yīng)使用者的問(wèn)題。但是有時(shí)模型知識(shí)是不夠的,儘管模型可以透過(guò)RAG存取外部?jī)?nèi)容,但透過(guò)微調(diào)使用模型適應(yīng)新的領(lǐng)域被認(rèn)為是有益的。這種微調(diào)是使用人工標(biāo)註者或其他llm創(chuàng)建的輸入進(jìn)行的,模型會(huì)遇到額外的實(shí)際知識(shí)並將其整合

為大模型提供全新科學(xué)複雜問(wèn)答基準(zhǔn)與評(píng)估體系,UNSW、阿貢、芝加哥大學(xué)等多家機(jī)構(gòu)共同推出SciQAG框架 為大模型提供全新科學(xué)複雜問(wèn)答基準(zhǔn)與評(píng)估體系,UNSW、阿貢、芝加哥大學(xué)等多家機(jī)構(gòu)共同推出SciQAG框架 Jul 25, 2024 am 06:42 AM

編輯|ScienceAI問(wèn)答(QA)資料集在推動(dòng)自然語(yǔ)言處理(NLP)研究中發(fā)揮著至關(guān)重要的作用。高品質(zhì)QA資料集不僅可以用於微調(diào)模型,也可以有效評(píng)估大語(yǔ)言模型(LLM)的能力,尤其是針對(duì)科學(xué)知識(shí)的理解和推理能力。儘管目前已有許多科學(xué)QA數(shù)據(jù)集,涵蓋了醫(yī)學(xué)、化學(xué)、生物等領(lǐng)域,但這些數(shù)據(jù)集仍有一些不足之處。其一,資料形式較為單一,大多數(shù)為多項(xiàng)選擇題(multiple-choicequestions),它們易於進(jìn)行評(píng)估,但限制了模型的答案選擇範(fàn)圍,無(wú)法充分測(cè)試模型的科學(xué)問(wèn)題解答能力。相比之下,開放式問(wèn)答

VSCode 前端開發(fā)新紀(jì)元:12款 AI 代碼助理推薦 VSCode 前端開發(fā)新紀(jì)元:12款 AI 代碼助理推薦 Jun 11, 2024 pm 07:47 PM

在前端開發(fā)的世界裡,VSCode以其強(qiáng)大的功能和豐富的插件生態(tài),成為了無(wú)數(shù)開發(fā)者的首選工具。而近年來(lái),隨著人工智慧技術(shù)的快速發(fā)展,VSCode上的AI代碼助理也如雨後春筍般湧現(xiàn),大大提升了開發(fā)者的編碼效率。 VSCode上的AI代碼助手,如雨後春筍般湧現(xiàn),大大提升了開發(fā)者的編碼效率。它利用人工智慧技術(shù),能夠聰明地分析程式碼,提供精準(zhǔn)的程式碼補(bǔ)全、自動(dòng)糾錯(cuò)、語(yǔ)法檢查等功能,大大減少了開發(fā)者在編碼過(guò)程中的錯(cuò)誤和繁瑣的手工工作。有今天,就為大家推薦12款VSCode前端開發(fā)AI程式碼助手,幫助你在程式設(shè)計(jì)之路

SK 海力士 8 月 6 日將展示 AI 相關(guān)新品:12 層 HBM3E、321-high NAND 等 SK 海力士 8 月 6 日將展示 AI 相關(guān)新品:12 層 HBM3E、321-high NAND 等 Aug 01, 2024 pm 09:40 PM

本站8月1日消息,SK海力士今天(8月1日)發(fā)布博文,宣布將出席8月6日至8日,在美國(guó)加州聖克拉拉舉行的全球半導(dǎo)體記憶體峰會(huì)FMS2024,展示諸多新一代產(chǎn)品。未來(lái)記憶體和儲(chǔ)存高峰會(huì)(FutureMemoryandStorage)簡(jiǎn)介前身是主要面向NAND供應(yīng)商的快閃記憶體高峰會(huì)(FlashMemorySummit),在人工智慧技術(shù)日益受到關(guān)注的背景下,今年重新命名為未來(lái)記憶體和儲(chǔ)存高峰會(huì)(FutureMemoryandStorage),以邀請(qǐng)DRAM和儲(chǔ)存供應(yīng)商等更多參與者。新產(chǎn)品SK海力士去年在

SOTA性能,廈大多模態(tài)蛋白質(zhì)-配體親和力預(yù)測(cè)AI方法,首次結(jié)合分子表面訊息 SOTA性能,廈大多模態(tài)蛋白質(zhì)-配體親和力預(yù)測(cè)AI方法,首次結(jié)合分子表面訊息 Jul 17, 2024 pm 06:37 PM

編輯|KX在藥物研發(fā)領(lǐng)域,準(zhǔn)確有效地預(yù)測(cè)蛋白質(zhì)與配體的結(jié)合親和力對(duì)於藥物篩選和優(yōu)化至關(guān)重要。然而,目前的研究並沒(méi)有考慮到分子表面訊息在蛋白質(zhì)-配體相互作用中的重要作用?;洞耍瑏?lái)自廈門大學(xué)的研究人員提出了一種新穎的多模態(tài)特徵提?。∕FE)框架,該框架首次結(jié)合了蛋白質(zhì)表面、3D結(jié)構(gòu)和序列的信息,並使用交叉注意機(jī)制進(jìn)行不同模態(tài)之間的特徵對(duì)齊。實(shí)驗(yàn)結(jié)果表明,該方法在預(yù)測(cè)蛋白質(zhì)-配體結(jié)合親和力方面取得了最先進(jìn)的性能。此外,消融研究證明了該框架內(nèi)蛋白質(zhì)表面資訊和多模態(tài)特徵對(duì)齊的有效性和必要性。相關(guān)研究以「S

Iyo One:是耳機(jī),也是音訊計(jì)算機(jī) Iyo One:是耳機(jī),也是音訊計(jì)算機(jī) Aug 08, 2024 am 01:03 AM

任何時(shí)候,專注都是一種美德。作者|湯一濤編輯|靖宇人工智慧的再次流行,催生了新一波的硬體創(chuàng)新。風(fēng)頭最勁的AIPin遭遇了前所未有的負(fù)評(píng)。 MarquesBrownlee(MKBHD)稱這是他評(píng)測(cè)過(guò)的最糟糕的產(chǎn)品;TheVerge的編輯DavidPierce則表示,他不會(huì)建議任何人購(gòu)買這款設(shè)備。它的競(jìng)爭(zhēng)對(duì)手RabbitR1也沒(méi)有好到哪裡去。對(duì)這款A(yù)I設(shè)備最大的質(zhì)疑是,明明只是做一個(gè)App的事情,但Rabbit公司卻整出了一個(gè)200美元的硬體。許多人把AI硬體創(chuàng)新視為顛覆智慧型手機(jī)時(shí)代的機(jī)會(huì),並投身其

See all articles