Tokenformer:通過(guò)將參數(shù)視為令牌來(lái)重新思考 Transformer
Nov 04, 2024 am 12:36 AMTransformers 改變了人工智能,在 NLP、計(jì)算機(jī)視覺(jué)和多模式數(shù)據(jù)集成方面提供了無(wú)與倫比的性能。這些模型擅長(zhǎng)通過(guò)注意力機(jī)制識(shí)別數(shù)據(jù)中的模式,使其成為復(fù)雜任務(wù)的理想選擇。然而,由于傳統(tǒng)結(jié)構(gòu)的計(jì)算成本較高,變壓器模型的快速擴(kuò)展需要改進(jìn)。
Transformers 徹底改變了人工智能,在自然語(yǔ)言處理 (NLP)、計(jì)算機(jī)視覺(jué)和多模式數(shù)據(jù)集成方面提供了無(wú)與倫比的性能。這些模型擅長(zhǎng)通過(guò)注意力機(jī)制識(shí)別數(shù)據(jù)中的模式,使其成為復(fù)雜任務(wù)的理想選擇。然而,由于傳統(tǒng)結(jié)構(gòu)的計(jì)算成本較高,變壓器模型的快速擴(kuò)展需要改進(jìn)。隨著這些模型的增長(zhǎng),它們需要大量的硬件資源和訓(xùn)練時(shí)間,并且隨著模型大小的增加呈指數(shù)級(jí)增長(zhǎng)。
縮放變壓器的主要障礙在于其線性投影層內(nèi)的固定參數(shù)。這種靜態(tài)結(jié)構(gòu)限制了模型在不完全重新訓(xùn)練的情況下擴(kuò)展的能力,隨著模型大小的增加,這種能力會(huì)呈指數(shù)級(jí)增長(zhǎng)。當(dāng)架構(gòu)發(fā)生修改時(shí),例如增加通道尺寸,這些傳統(tǒng)模型通常需要全面的重新訓(xùn)練。
因此,這些擴(kuò)展的計(jì)算成本變得非常高,而且該方法缺乏靈活性。無(wú)法動(dòng)態(tài)添加新參數(shù)會(huì)抑制增長(zhǎng),使這些模型不太適應(yīng)不斷發(fā)展的人工智能應(yīng)用程序,并且在時(shí)間和資源方面成本更高。
從歷史上看,管理模型可擴(kuò)展性的方法包括使用 Net2Net 等方法復(fù)制權(quán)重或重構(gòu)模型,其中復(fù)制神經(jīng)元擴(kuò)展層。然而,這些方法通常會(huì)破壞預(yù)訓(xùn)練模型的平衡,導(dǎo)致收斂速度變慢并增加訓(xùn)練復(fù)雜性。
雖然這些方法取得了漸進(jìn)的進(jìn)展,但它們?cè)跀U(kuò)展過(guò)程中保持模型完整性方面仍然面臨限制。 Transformer 嚴(yán)重依賴靜態(tài)線性投影,導(dǎo)致參數(shù)擴(kuò)展成本高昂且不靈活。 GPT 和其他大型 Transformer 等傳統(tǒng)模型經(jīng)常從頭開(kāi)始重新訓(xùn)練,每個(gè)新的擴(kuò)展階段都會(huì)產(chǎn)生高昂的計(jì)算成本。
現(xiàn)在,馬克斯普朗克研究所、谷歌和北京大學(xué)的研究人員開(kāi)發(fā)了一種名為 Tokenformer 的新架構(gòu),通過(guò)將模型參數(shù)視為令牌,從根本上重新構(gòu)想了 Transformer,從而允許令牌和參數(shù)之間進(jìn)行動(dòng)態(tài)交互。
在這個(gè)框架中,Tokenformer 引入了一個(gè)稱為令牌參數(shù)注意(Pattention)層的新穎組件,它有助于增量擴(kuò)展。該模型可以添加新的參數(shù)標(biāo)記而無(wú)需重新訓(xùn)練,大大降低了訓(xùn)練成本。
通過(guò)在同一框架內(nèi)表示輸入令牌和參數(shù),Tokenformer 可以靈活擴(kuò)展,為研究人員提供更高效、資源意識(shí)更強(qiáng)的模型架構(gòu),同時(shí)保持可擴(kuò)展性和高性能。
Tokenformer 的 Pattention 層使用輸入 token 作為查詢,而模型參數(shù)作為鍵和值,這與標(biāo)準(zhǔn) Transformer 方法不同,僅依賴于線性投影。
模型的擴(kuò)展是通過(guò)添加新的鍵值參數(shù)對(duì)、保持輸入和輸出維度不變并避免完全重新訓(xùn)練來(lái)實(shí)現(xiàn)的。 Tokenformer 的架構(gòu)設(shè)計(jì)為模塊化,使研究人員能夠通過(guò)合并額外的代幣來(lái)無(wú)縫擴(kuò)展模型。
這種增量擴(kuò)展功能支持預(yù)訓(xùn)練權(quán)重的有效重用,同時(shí)能夠快速適應(yīng)新數(shù)據(jù)集或更大的模型大小,而不會(huì)破壞學(xué)習(xí)的信息。
Tokenformer 的性能優(yōu)勢(shì)非常顯著,因?yàn)樵撃P驮诒3譁?zhǔn)確性的同時(shí)顯著降低了計(jì)算成本。例如,Tokenformer 將參數(shù)從 1.24 億擴(kuò)展到 14 億,而訓(xùn)練成本僅為傳統(tǒng) Transformer 所需的一半。
在一項(xiàng)實(shí)驗(yàn)中,該模型針對(duì) 14 億個(gè)參數(shù)配置實(shí)現(xiàn)了 11.77 的測(cè)試?yán)Щ蠖?,幾乎與從頭開(kāi)始訓(xùn)練的類似大小的 Transformer 的 11.63 困惑度相匹配。
這種效率意味著 Tokenformer 可以在多個(gè)領(lǐng)域?qū)崿F(xiàn)高性能,包括語(yǔ)言和視覺(jué)建模任務(wù),而資源支出只是傳統(tǒng)模型的一小部分。
Tokenformer 提出了許多關(guān)于推進(jìn)人工智能研究和改進(jìn)基于 Transformer 的模型的關(guān)鍵要點(diǎn)。其中包括:
將參數(shù)視為令牌可以實(shí)現(xiàn)增量模型擴(kuò)展,而無(wú)需重新訓(xùn)練。
令牌參數(shù)注意層有助于高效的參數(shù)擴(kuò)展。
模塊化架構(gòu)通過(guò)合并額外的代幣來(lái)支持無(wú)縫模型增長(zhǎng)。
該模型以最少的資源消耗在不同領(lǐng)域?qū)崿F(xiàn)了高性能。
總之,Tokenformer 提供了一種變革性方法來(lái)擴(kuò)展基于 Transformer 的模型。該模型架構(gòu)通過(guò)將參數(shù)視為令牌、降低成本并保持跨任務(wù)的模型性能來(lái)實(shí)現(xiàn)可擴(kuò)展性和資源效率。
這種靈活性代表了變壓器設(shè)計(jì)的突破,提供了一種無(wú)需重新訓(xùn)練即可適應(yīng)先進(jìn)人工智能應(yīng)用需求的模型。 Tokenformer 的架構(gòu)為未來(lái)的人工智能研究帶來(lái)了希望,提供了可持續(xù)、高效地開(kāi)發(fā)大規(guī)模模型的途徑。
查看 HuggingFace 上的論文、GitHub 頁(yè)面和模型。
這項(xiàng)研究的所有功勞都?xì)w功于該項(xiàng)目的研究人員。另外,不要忘記在 Twitter 上關(guān)注我們并加入我們的 Telegram 頻道和 LinkedIn 群組。如果您喜歡我們的工作,您一定會(huì)喜歡我們的時(shí)事通訊。不要忘記加入我們的 55k ML SubReddit。
[我們的贊助機(jī)會(huì)]與 100 萬(wàn)每月讀者和 50 萬(wàn)社區(qū)成員推廣您的研究/產(chǎn)品/網(wǎng)絡(luò)研討會(huì)
以上是Tokenformer:通過(guò)將參數(shù)視為令牌來(lái)重新思考 Transformer的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

熱AI工具

Undress AI Tool
免費(fèi)脫衣服圖片

Undresser.AI Undress
人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover
用于從照片中去除衣服的在線人工智能工具。

Clothoff.io
AI脫衣機(jī)

Video Face Swap
使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱門(mén)文章

熱工具

記事本++7.3.1
好用且免費(fèi)的代碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
功能強(qiáng)大的PHP集成開(kāi)發(fā)環(huán)境

Dreamweaver CS6
視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版
神級(jí)代碼編輯軟件(SublimeText3)

熱門(mén)話題

歐意(OKX)作為全球領(lǐng)先的加密貨幣交易所,提供安全可靠的交易環(huán)境和豐富的數(shù)字資產(chǎn)種類。1. 訪問(wèn)官網(wǎng) www.okx.com 下載應(yīng)用程序;2. 根據(jù)設(shè)備選擇 Android 或 iOS 版本;3. 安裝應(yīng)用并完成注冊(cè)或登錄;4. 啟用雙重驗(yàn)證保障賬戶安全。平臺(tái)支持現(xiàn)貨交易、杠桿交易、合約交易、DeFi、OKX Earn 理財(cái)及 NFT 市場(chǎng)等多種功能。

獲取歐易交易所APP官方正確地址需通過(guò)以下三個(gè)官方渠道:1.官方網(wǎng)站下載,訪問(wèn)官網(wǎng)域名[adid]fe9fc289c3ff0af142b6d3bead98a923[/adid]并下載對(duì)應(yīng)系統(tǒng)的版本;2.關(guān)注官方社交媒體賬號(hào)獲取最新下載信息;3.聯(lián)系官方客服進(jìn)行確認(rèn)。同時(shí),用戶應(yīng)警惕釣魚(yú)網(wǎng)站、核對(duì)域名、安裝殺毒軟件、開(kāi)啟二次驗(yàn)證并避免泄露個(gè)人信息以保障賬戶安全。

Gate.io 是一個(gè)安全可靠的數(shù)字資產(chǎn)交易平臺(tái),用戶應(yīng)通過(guò)官方地址訪問(wèn)以避免安全風(fēng)險(xiǎn)。為確保賬戶安全,請(qǐng)使用安全網(wǎng)絡(luò)環(huán)境、啟用雙重驗(yàn)證、定期更改密碼、警惕釣魚(yú)網(wǎng)站和詐騙信息,并核對(duì)官方郵件地址。Gate.io 提供豐富的交易品種、合約交易、理財(cái)借貸、Startup 首發(fā)平臺(tái)、自主研發(fā)的 GateChain 公鏈、多重安全保障、7x24 小時(shí)客服支持以及功能完善的移動(dòng)端 App。要開(kāi)始使用 Gate.io,可訪問(wèn)其官方網(wǎng)站注冊(cè)賬戶、完成實(shí)名認(rèn)證、充值并開(kāi)始交易。

選擇可靠的加密貨幣交易平臺(tái)至關(guān)重要,以確保交易安全、降低成本并提升體驗(yàn)。2025年十大交易所包括:1.OKX,具備強(qiáng)大技術(shù)與多種交易方式;2.Binance,交易量大且生態(tài)完善;3.Huobi,注重合規(guī)與用戶拓展;4.Coinbase,適合新手;5.Kraken,安全性高費(fèi)用低;6.Bitfinex,面向?qū)I(yè)用戶;7.Bybit,專注衍生品;8.KuCoin,幣種豐富;9.Gemini,監(jiān)管嚴(yán)格;10.Gate.io,提供創(chuàng)新產(chǎn)品。選擇時(shí)應(yīng)關(guān)注安全性、交易量、手續(xù)費(fèi)、幣種、用戶體驗(yàn)、客服及合規(guī)性

加密貨幣交易者應(yīng)選擇安全可靠、功能多樣的交易平臺(tái),以確保資產(chǎn)安全和交易效率。 1. OKX:全球領(lǐng)先平臺(tái),提供現(xiàn)貨、合約等多種交易方式,并支持便捷注冊(cè)與身份驗(yàn)證流程;2. Binance:以低費(fèi)用和豐富幣種著稱,適合全球用戶;3. Huobi:歷史悠久,安全性高,產(chǎn)品多樣;4. Coinbase:界面友好且合規(guī)性強(qiáng),適合新手;5. Kraken:以專業(yè)性和透明度見(jiàn)長(zhǎng);6. KuCoin:幣種豐富并提供多種獎(jiǎng)勵(lì)計(jì)劃;7. Bitfinex:面向?qū)I(yè)用戶,提供杠桿交易;8. Gate.io:創(chuàng)新產(chǎn)品與

選擇靠譜的加密貨幣交易平臺(tái)需優(yōu)先考慮安全性、費(fèi)用、幣種及功能。 2025年十大可靠平臺(tái)包括OKX、Binance、Huobi、Coinbase、Kraken、KuCoin、Bitfinex、Gemini、Bitstamp和Crypto.com,它們各具特色,如OKX提供多種交易方式并注重安全;Binance以低手續(xù)費(fèi)著稱;Coinbase適合新手;Kraken和Gemini強(qiáng)調(diào)合規(guī)與安全等。選擇時(shí)應(yīng)從以下五點(diǎn)考量:1. 安全性:查看是否具備雙重認(rèn)證、冷存儲(chǔ)等措施;2. 交易費(fèi)用:比較不同平臺(tái)費(fèi)率并

選擇合適的虛擬數(shù)字貨幣交易平臺(tái)至關(guān)重要,推薦十大主流平臺(tái)包括OKX、Binance、Huobi、Coinbase、Kraken、Bitfinex、Gate.io、KuCoin、Bybit和MEXC。 1. OKX提供豐富的交易品種和理財(cái)產(chǎn)品;2. Binance以低費(fèi)用和強(qiáng)大交易引擎著稱;3. Huobi支持現(xiàn)貨、合約等多種交易服務(wù);4. Coinbase適合新手操作;5. Kraken安全性高;6. Bitfinex交易深度好;7. Gate.io用戶界面友好;8. KuCoin支持多種小幣種;

選擇加密貨幣交易平臺(tái)需綜合考慮安全性、交易量、手續(xù)費(fèi)等因素,2025年十大交易所包括:1.OKX,以技術(shù)實(shí)力和多樣交易方式領(lǐng)先;2.Binance,因幣種豐富和交易量大著稱;3.Huobi,注重合規(guī)并拓展生態(tài)系統(tǒng);4.Coinbase,適合新手的用戶友好平臺(tái);5.Kraken,以安全性和低費(fèi)用受認(rèn)可;6.Bitfinex,面向?qū)I(yè)交易者的高級(jí)工具;7.Bybit,專注衍生品和高杠桿交易;8.KuCoin,提供廣泛幣種選擇;9.Gemini,強(qiáng)調(diào)監(jiān)管合規(guī)和機(jī)構(gòu)服務(wù);10.Gate.io,涵蓋多種交