Tokenformer:透??過將參數(shù)視為令牌來重新思考 Transformer
Nov 04, 2024 am 12:36 AMTransformers 改變了人工智慧,在 NLP、電腦視覺和多模式資料整合方面提供了無與倫比的性能。這些模型擅長透過注意力機制識別資料中的模式,使其成為複雜任務的理想選擇。然而,由於傳統(tǒng)結(jié)構(gòu)的計算成本較高,變壓器模型的快速擴展需要改進。
Transformers 徹底改變了人工智慧,在自然語言處理 (NLP)、電腦視覺和多模式資料整合方面提供了無與倫比的效能。這些模型擅長透過注意力機制識別資料中的模式,使其成為複雜任務的理想選擇。然而,由於傳統(tǒng)結(jié)構(gòu)的計算成本較高,變壓器模型的快速擴展需要改進。隨著這些模型的增長,它們需要大量的硬體資源和訓練時間,並且隨著模型大小的增加而呈指數(shù)級增長。
縮放變壓器的主要障礙在於其線性投影層內(nèi)的固定參數(shù)。這種靜態(tài)結(jié)構(gòu)限制了模型在不完全重新訓練的情況下擴展的能力,隨著模型大小的增加,這種能力會呈指數(shù)級增長。當架構(gòu)發(fā)生修改時,例如增加通道尺寸,這些傳統(tǒng)模型通常需要全面的重新訓練。
因此,這些擴充的計算成本變得非常高,而且該方法缺乏靈活性。無法動態(tài)添加新參數(shù)會抑製成長,使這些模型不太適應不斷發(fā)展的人工智慧應用程序,並且在時間和資源方面成本更高。
從歷史上看,管理模型可擴展性的方法包括使用 Net2Net 等方法複製權(quán)重或重構(gòu)模型,其中複製神經(jīng)元擴展層。然而,這些方法通常會破壞預訓練模型的平衡,導致收斂速度變慢並增加訓練複雜性。
雖然這些方法取得了漸進的進展,但它們在擴展過程中保持模型完整性方面仍然面臨限制。 Transformer 嚴重依賴靜態(tài)線性投影,導致參數(shù)擴展成本高且不靈活。 GPT 和其他大型 Transformer 等傳統(tǒng)模型經(jīng)常從頭開始重新訓練,每個新的擴展階段都會產(chǎn)生高昂的計算成本。
現(xiàn)在,馬克斯普朗克研究所、谷歌和北京大學的研究人員開發(fā)了一種名為Tokenformer 的新架構(gòu),透過將模型參數(shù)視為令牌,從根本上重新構(gòu)想了Transformer,從而允許令牌和參數(shù)之間進行動態(tài)互動。
在這個框架中,Tokenformer 引入了一個稱為令牌參數(shù)注意(Pattention)層的新穎元件,它有助於增量擴展。該模型可以添加新的參數(shù)標記而無需重新訓練,大大降低了訓練成本。
透過在同一框架內(nèi)表示輸入令牌和參數(shù),Tokenformer 可以靈活擴展,為研究人員提供更有效率、資源意識更強的模型架構(gòu),同時保持可擴展性和高效能。
Tokenformer 的 Pattention 層使用輸入 token 作為查詢,而模型參數(shù)作為鍵和值,這與標準 Transformer 方法不同,僅依賴線性投影。
模型的擴展是透過添加新的鍵值參數(shù)對、保持輸入和輸出維度不變並避免完全重新訓練來實現(xiàn)的。 Tokenformer 的架構(gòu)設計為模組化,使研究人員能夠透過合併額外的代幣來無縫擴展模型。
這種增量擴展功能支援預訓練權(quán)重的有效重複使用,同時能夠快速適應新資料集或更大的模型大小,而不會破壞學習的資訊。
Tokenformer 的效能優(yōu)勢非常顯著,因為模型在保持準確性的同時顯著降低了計算成本。例如,Tokenformer 將參數(shù)從 1.24 億擴展到 14 億,而訓練成本僅為傳統(tǒng) Transformer 所需的一半。
在一項實驗中,該模型針對 14 億個參數(shù)配置實現(xiàn)了 11.77 的測試困惑度,幾乎與從頭開始訓練的類似大小的 Transformer 的 11.63 困惑度相匹配。
這種效率意味著 Tokenformer 可以在多個領(lǐng)域?qū)崿F(xiàn)高效能,包括語言和視覺建模任務,而資源支出只是傳統(tǒng)模型的一小部分。
Tokenformer 提出了許多關(guān)於推進人工智慧研究和改進基於 Transformer 的模型的關(guān)鍵要點。其中包括:
將參數(shù)視為令牌可以實現(xiàn)增量模型擴展,而無需重新訓練。
令牌參數(shù)注意層有助於高效率的參數(shù)擴展。
模組化架構(gòu)透過合併額外的代幣來支援無縫模型成長。
該模型以最少的資源消耗在不同領(lǐng)域?qū)崿F(xiàn)了高效能。
總之,Tokenformer 提供了一種變革性方法來擴展基於 Transformer 的模型。此模型架構(gòu)透過將參數(shù)視為令牌、降低成本並保持跨任務的模型效能來實現(xiàn)可擴展性和資源效率。
這種靈活性代表了變壓器設計的突破,提供了一種無需重新訓練即可適應先進人工智慧應用需求的模型。 Tokenformer 的架構(gòu)為未來的人工智慧研究帶來了希望,提供了可持續(xù)、高效地開發(fā)大規(guī)模模型的途徑。
查看 HuggingFace 上的論文、GitHub 頁面和模型。
這項研究的所有功勞都歸功於該計畫的研究人員。另外,不要忘記在 Twitter 上關(guān)注我們並加入我們的 Telegram 頻道和 LinkedIn 群組。如果您喜歡我們的工作,您一定會喜歡我們的時事通訊。不要忘記加入我們的 55k ML SubReddit。
[我們的贊助機會]與 100 萬每月讀者和 50 萬社區(qū)成員推廣您的研究/產(chǎn)品/網(wǎng)絡研討會
以上是Tokenformer:透??過將參數(shù)視為令牌來重新思考 Transformer的詳細內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

熱AI工具

Undress AI Tool
免費脫衣圖片

Undresser.AI Undress
人工智慧驅(qū)動的應用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6
視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

歐意(OKX)作為全球領(lǐng)先的加密貨幣交易所,提供安全可靠的交易環(huán)境和豐富的數(shù)字資產(chǎn)種類。 1. 訪問官網(wǎng) www.okx.com 下載應用程序;2. 根據(jù)設備選擇 Android 或 iOS 版本;3. 安裝應用並完成註冊或登錄;4. 啟用雙重驗證保障賬戶安全。平臺支持現(xiàn)貨交易、槓桿交易、合約交易、DeFi、OKX Earn 理財及 NFT 市場等多種功能。

獲取歐易交易所APP官方正確地址需通過以下三個官方渠道:1.官方網(wǎng)站下載,訪問官網(wǎng)域名[adid]fe9fc289c3ff0af142b6d3bead98a923[/adid]並下載對應系統(tǒng)的版本;2.關(guān)注官方社交媒體賬號獲取最新下載信息;3.聯(lián)繫官方客服進行確認。同時,用戶應警惕釣魚網(wǎng)站、核對域名、安裝殺毒軟件、開啟二次驗證並避免洩露個人信息以保障賬戶安全。

Gate.io 是一個安全可靠的數(shù)字資產(chǎn)交易平臺,用戶應通過官方地址訪問以避免安全風險。為確保賬戶安全,請使用安全網(wǎng)絡環(huán)境、啟用雙重驗證、定期更改密碼、警惕釣魚網(wǎng)站和詐騙信息,並核對官方郵件地址。 Gate.io 提供豐富的交易品種、合約交易、理財借貸、Startup 首發(fā)平臺、自主研發(fā)的 GateChain 公鏈、多重安全保障、7x24 小時客服支持以及功能完善的移動端 App。要開始使用 Gate.io,可訪問其官方網(wǎng)站註冊賬戶、完成實名認證、充值並開始交易。

選擇可靠的加密貨幣交易平臺至關(guān)重要,以確保交易安全、降低成本並提升體驗。 2025年十大交易所包括:1.OKX,具備強大技術(shù)與多種交易方式;2.Binance,交易量大且生態(tài)完善;3.Huobi,注重合規(guī)與用戶拓展;4.Coinbase,適合新手;5.Kraken,安全性高費用低;6.Bitfinex,面向?qū)I(yè)用戶;7.Bybit,專注衍生品;8.KuCoin,幣種豐富;9.Gemini,監(jiān)管嚴格;10.Gate.io,提供創(chuàng)新產(chǎn)品。選擇時應關(guān)注安全性、交易量、手續(xù)費、幣種、用戶體驗、客服及合規(guī)性

加密貨幣交易者應選擇安全可靠、功能多樣的交易平臺,以確保資產(chǎn)安全和交易效率。1. OKX:全球領(lǐng)先平臺,提供現(xiàn)貨、合約等多種交易方式,并支持便捷注冊與身份驗證流程;2. Binance:以低費用和豐富幣種著稱,適合全球用戶;3. Huobi:歷史悠久,安全性高,產(chǎn)品多樣;4. Coinbase:界面友好且合規(guī)性強,適合新手;5. Kraken:以專業(yè)性和透明度見長;6. KuCoin:幣種豐富并提供多種獎勵計劃;7. Bitfinex:面向?qū)I(yè)用戶,提供杠桿交易;8. Gate.io:創(chuàng)新產(chǎn)品與

選擇靠譜的加密貨幣交易平臺需優(yōu)先考慮安全性、費用、幣種及功能。2025年十大可靠平臺包括OKX、Binance、Huobi、Coinbase、Kraken、KuCoin、Bitfinex、Gemini、Bitstamp和Crypto.com,它們各具特色,如OKX提供多種交易方式并注重安全;Binance以低手續(xù)費著稱;Coinbase適合新手;Kraken和Gemini強調(diào)合規(guī)與安全等。選擇時應從以下五點考量:1. 安全性:查看是否具備雙重認證、冷存儲等措施;2. 交易費用:比較不同平臺費率并

選擇合適的虛擬數(shù)字貨幣交易平臺至關(guān)重要,推薦十大主流平臺包括OKX、Binance、Huobi、Coinbase、Kraken、Bitfinex、Gate.io、KuCoin、Bybit和MEXC。1. OKX提供豐富的交易品種和理財產(chǎn)品;2. Binance以低費用和強大交易引擎著稱;3. Huobi支持現(xiàn)貨、合約等多種交易服務;4. Coinbase適合新手操作;5. Kraken安全性高;6. Bitfinex交易深度好;7. Gate.io用戶界面友好;8. KuCoin支持多種小幣種;

選擇加密貨幣交易平臺需綜合考慮安全性、交易量、手續(xù)費等因素,2025年十大交易所包括:1.OKX,以技術(shù)實力和多樣交易方式領(lǐng)先;2.Binance,因幣種豐富和交易量大著稱;3.Huobi,注重合規(guī)并拓展生態(tài)系統(tǒng);4.Coinbase,適合新手的用戶友好平臺;5.Kraken,以安全性和低費用受認可;6.Bitfinex,面向?qū)I(yè)交易者的高級工具;7.Bybit,專注衍生品和高杠桿交易;8.KuCoin,提供廣泛幣種選擇;9.Gemini,強調(diào)監(jiān)管合規(guī)和機構(gòu)服務;10.Gate.io,涵蓋多種交