国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
介紹
概述
目錄
什么是Chinchilla縮放法?
焦點轉(zhuǎn)變:從模型大小到數(shù)據(jù)
龍貓縮放定律的概述
龍貓縮放定律的主要發(fā)現(xiàn)
計算最佳訓(xùn)練
來自400多個模型的經(jīng)驗證據(jù)
修訂的估計和持續(xù)改進
龍貓方法的好處
提高性能
降低計算成本
對未來研究和模型開發(fā)的影響
挑戰(zhàn)和考慮因素
結(jié)論
常見問題
首頁 科技周邊 人工智能 什么是龍貓縮放定律?

什么是龍貓縮放定律?

Apr 12, 2025 am 11:27 AM

介紹

大型語言模型(LLMS)促進了自然語言處理(NLP)的進步,但它們也提出了一些有關(guān)計算效率的重要問題。這些模型已經(jīng)變得太大了,因此培訓(xùn)和推理成本不再在合理的限制范圍內(nèi)。

為了解決這個問題,Hoffmann等人引入的龍貓縮放定律。 2022年,提供了一個開創(chuàng)性的框架,以優(yōu)化LLM的培訓(xùn)。 Chinchilla縮放定律提供了一個必要的指南,可以通過在模型大小,培訓(xùn)數(shù)據(jù)和計算資源之間建立關(guān)系來有效地擴展LLM的情況而不損害績效。我們將在本文中詳細討論它。

什么是龍貓縮放定律?

概述

  • Chinchilla縮放定律通過平衡模型大小和數(shù)據(jù)量來優(yōu)化LLM培訓(xùn),以提高效率。
  • 新的擴展見解表明,在接受更多數(shù)據(jù)培訓(xùn)時,較小的語言模型可以勝過較大的語言模型。
  • Chinchilla的方法通過將數(shù)據(jù)數(shù)量優(yōu)先于模型尺寸來挑戰(zhàn)傳統(tǒng)的LLM縮放,以提高計算效率。
  • Chinchilla縮放法為NLP提供了新的路線圖,從而指導(dǎo)了高性能,資源有效的模型的發(fā)展。
  • Chinchilla縮放定律通過將模型大小和培訓(xùn)數(shù)據(jù)加倍,從而最大程度地提高語言模型性能,從而最大程度地縮寫計算成本。

目錄

  • 什么是Chinchilla縮放法?
  • 焦點轉(zhuǎn)變:從模型大小到數(shù)據(jù)
  • 龍貓縮放定律的概述
  • 龍貓縮放定律的主要發(fā)現(xiàn)
    • 計算最佳訓(xùn)練
    • 來自400多個模型的經(jīng)驗證據(jù)
    • 修訂的估計和持續(xù)改進
  • 龍貓方法的好處
    • 提高性能
    • 降低計算成本
  • 對未來研究和模型開發(fā)的影響
  • 挑戰(zhàn)和考慮因素
  • 常見問題

什么是Chinchilla縮放法?

該論文“培訓(xùn)譯文最佳的大語言模型”于2022年發(fā)表,重點是確定三個關(guān)鍵因素之間的關(guān)系:模型大小,代幣數(shù)量和計算預(yù)算。作者發(fā)現(xiàn),現(xiàn)有的大型語言模型(LLMS)如GPT-3(175b參數(shù)),Gopher(280b)和Megatron(530b)的訓(xùn)練明顯不足。盡管這些模型的大小增加,但訓(xùn)練數(shù)據(jù)的數(shù)量在很大程度上保持恒定,從而導(dǎo)致了次優(yōu)的性能。作者提出,必須將模型大小和訓(xùn)練令牌的數(shù)量平均縮放,以進行最佳訓(xùn)練。為了證明這一點,他們培訓(xùn)了大約400款型號,范圍從7,000萬到160億多個參數(shù)不等,使用了5到5000億個令牌。

基于這些發(fā)現(xiàn),作者訓(xùn)練了一種名為Chinchilla的新模型,該模型使用與Gopher(280B)相同的計算預(yù)算,但只有70B參數(shù),而培訓(xùn)數(shù)據(jù)則多四倍。 Chinchilla的表現(xiàn)優(yōu)于幾個著名的LLM,包括Gopher(280b),GPT-3(175b),Jurassic-1(178b)和Megatron(530b)。這一結(jié)果與OpenAI在“ LLMS縮放定律”中提出的縮放定律相矛盾,這表明較大的模型總是會更好。 Chinchilla縮放定律表明,經(jīng)過更多數(shù)據(jù)培訓(xùn)時,較小的模型可以實現(xiàn)出色的性能。這種方法還使較小的模型更易于微調(diào)和減少推理潛伏期。

什么是龍貓縮放定律?

該圖顯示,盡管較小,但Chinchilla(70b)遵循不同的計算與參數(shù)比率,并且超過了Gopher和GPT-3等較大的模型。

其他方法(1、2和3)探索了基于計算分配優(yōu)化模型性能的不同方法。

什么是龍貓縮放定律?

從這個數(shù)字中,我們可以看到Chinchilla的優(yōu)勢,即使Chinchilla的尺寸較?。?0B參數(shù)),它也接受了更大的數(shù)據(jù)集(1.4萬億代碼)的培訓(xùn),該數(shù)據(jù)遵循了Chinchilla縮放法律中介紹的原則,如果他們在更大的模型上培訓(xùn)了更大的模型。參數(shù)但接受了相對較少的令牌培訓(xùn),這表明這些模型可能沒有完全優(yōu)化其計算潛力。

焦點轉(zhuǎn)變:從模型大小到數(shù)據(jù)

從歷史上看,提高LLM性能的重點一直在增加模型大小上,如GPT-3和Gopher等模型所示。這是由Kaplan等人的研究驅(qū)動的。 (2020),它提出了模型大小和性能之間的冪律關(guān)系。但是,隨著模型的增長,訓(xùn)練數(shù)據(jù)的數(shù)量并未相應(yīng)地擴展,從而導(dǎo)致計算潛力不足。 Chinchilla縮放法律通過表明資源的分配更加平衡,尤其是在數(shù)據(jù)和模型大小方面,可以導(dǎo)致表現(xiàn)更好的模型,這些模型在不達到最低可能的損失的情況下會導(dǎo)致更佳的計算模型。

龍貓縮放定律的概述

模型大小,訓(xùn)練令牌和計算成本之間的權(quán)衡是龍貓縮放定律的核心。該法律在這三個參數(shù)之間建立了最佳的平衡:

  • 模型大?。∟) :模型中的參數(shù)數(shù)量。
  • 訓(xùn)練令牌(D) :訓(xùn)練過程中使用的令牌總數(shù)。
  • 計算成本(c) :分配用于培訓(xùn)的總計算資源,通常以拖臺(每秒的浮點操作)進行測量。

Chinchilla縮放定律表明,為了獲得最佳性能,模型大小和訓(xùn)練數(shù)據(jù)的數(shù)量都應(yīng)以相等的速度擴展。具體而言,訓(xùn)練令牌的數(shù)量也應(yīng)為每次加倍模型大小加倍。這種方法對比了早期的方法,該方法強調(diào)增加模型大小而沒有足夠增加訓(xùn)練數(shù)據(jù)。

這種關(guān)系在數(shù)學(xué)上表示為:

什么是龍貓縮放定律?

在哪里:

  • L是模特的最終損失。
  • L_0是不可約的損失,代表了最佳性能。
  • 與理想的生成過程相比, AB是捕獲模型表現(xiàn)不佳的常數(shù)。
  • αβ是描述損失對模型大小和數(shù)據(jù)大小的尺度的指數(shù)。

龍貓縮放定律的主要發(fā)現(xiàn)

以下是龍貓鱗片定律的主要發(fā)現(xiàn):

計算最佳訓(xùn)練

龍貓縮放定律突出顯示了模型大小和訓(xùn)練數(shù)據(jù)量之間的最佳平衡。具體而言,研究發(fā)現(xiàn),每個模型參數(shù)的20個訓(xùn)練令牌的大約比率非常適合通過給定的計算預(yù)算實現(xiàn)最佳性能。例如,具有700億參數(shù)的龍貓模型接受了1.4萬億代幣的訓(xùn)練,比Gopher多四倍,但參數(shù)卻少得多。這種平衡導(dǎo)致模型在幾個基準(zhǔn)上的表現(xiàn)明顯優(yōu)于較大的模型。

來自400多個模型的經(jīng)驗證據(jù)

為了得出龍貓縮放定律,Hoffmann等人。培訓(xùn)了400多個變壓器型號,大小從7,000萬到160億個參數(shù)不等,在多達5000億個代幣的數(shù)據(jù)集上。經(jīng)驗證據(jù)強烈支持以下假設(shè):經(jīng)過更多數(shù)據(jù)(以固定的計算預(yù)算)訓(xùn)練的模型比單獨增加模型大小要好。

修訂的估計和持續(xù)改進

隨后的研究試圖完善Hoffmann等人的初始發(fā)現(xiàn),從而確定參數(shù)估計值的可能調(diào)整。一些研究提出了原始結(jié)果中的較小不一致,并提出了修訂的估計值,以更好地適合觀察到的數(shù)據(jù)。這些調(diào)整表明需要進一步的研究以了解模型縮放的動態(tài),但是《龍貓縮放定律》的核心見解仍然是寶貴的指南。

龍貓方法的好處

這是龍貓方法的好處:

提高性能

Chinchilla的模型大小和訓(xùn)練數(shù)據(jù)相等的縮放得出了顯著的結(jié)果。盡管比許多其他大型模型都小,但在各種基準(zhǔn)上,Chinchilla的表現(xiàn)都優(yōu)于GPT-3,Gopher,甚至大量的超源性NLG模型(5300億個參數(shù))。例如,在大量的多任務(wù)語言理解(MMLU)基準(zhǔn)上,奇奇拉的平均準(zhǔn)確性為67.5%,比Gopher的60%顯著提高。

降低計算成本

Chinchilla方法優(yōu)化了性能,并降低了訓(xùn)練和推理的計算和能源成本。諸如GPT-3和Gopher之類的培訓(xùn)模型需要巨大的計算資源,使它們在現(xiàn)實世界中的應(yīng)用非常昂貴。相比之下,Chinchilla的型號較小和更廣泛的培訓(xùn)數(shù)據(jù)導(dǎo)致對微調(diào)和推理的計算要求較低,從而使其在下游應(yīng)用程序中更容易訪問。

對未來研究和模型開發(fā)的影響

《龍貓縮放法》為LLM開發(fā)的未來提供了寶貴的見解。關(guān)鍵含義包括:

  • 指導(dǎo)模型設(shè)計:了解如何平衡模型大小和培訓(xùn)數(shù)據(jù),使研究人員和開發(fā)人員在設(shè)計新模型時可以做出更明智的決策。通過遵守《龍貓縮放定律》中概述的原則,開發(fā)人員可以確保其模型既計算效率高且表現(xiàn)高。
  • 指導(dǎo)模型設(shè)計:有關(guān)優(yōu)化音量的知識,因此培訓(xùn)數(shù)據(jù)為模型的研究和設(shè)計提供了信息。在此指南量表中,他們的想法的發(fā)展將在高效率的廣泛定義中運作,而不會過多地消費計算機資源。
  • 性能優(yōu)化:龍貓縮放定律提供了優(yōu)化LLM的路線圖。通過專注于相等的規(guī)模,開發(fā)人員可以避免訓(xùn)練不足的大型模型的陷阱,并確保對訓(xùn)練和推理任務(wù)進行優(yōu)化模型。
  • 丹丘(Chinchilla)以外的探索:隨著研究的繼續(xù),新的策略正在發(fā)展,以擴大龍貓縮放法的思想。例如,一些研究人員正在研究以更少的計算資源來達到相似性能水平的方法,或者進一步增強數(shù)據(jù)約束環(huán)境中的模型性能。這些探索可能會導(dǎo)致更有效的培訓(xùn)管道。

挑戰(zhàn)和考慮因素

盡管《龍貓縮放法》標(biāo)志著了解LLM擴展的重要一步,但它也提出了新的問題和挑戰(zhàn):

  • 數(shù)據(jù)收集:就像龍貓一樣,訓(xùn)練1.4萬億代幣的模型意味著許多高質(zhì)量數(shù)據(jù)集的可用性。但是,這樣的數(shù)據(jù)收集和處理規(guī)模為研究人員和開發(fā)人員以及倫理問題(例如隱私和偏見)提出了組織問題。
  • 偏見和毒性:但是,使用龍貓縮放定律訓(xùn)練的模型的定期偏差和毒性比例降低比所有這些效率低下問題更容易,更有效。隨著LLM的權(quán)力和覆蓋范圍的增長,確保公平和減輕有害產(chǎn)出將是未來研究的關(guān)鍵領(lǐng)域。

結(jié)論

龍貓的縮放定律代表了我們對優(yōu)化大型語言模型培訓(xùn)的理解的關(guān)鍵進步。通過在模型大小,培訓(xùn)數(shù)據(jù)和計算成本之間建立明確的關(guān)系,該法律為有效擴展LLM的計算最佳框架提供了最佳的框架。 Chinchilla模型的成功證明了這種方法在績效和資源效率方面的實際好處。

隨著該領(lǐng)域的研究繼續(xù),龍貓縮放法的原理可能會影響LLM開發(fā)的未來,從而指導(dǎo)模型的設(shè)計,這些模型在維持可持續(xù)性和可及性的同時,推動了自然語言處理的邊界。

另外,如果您正在在線尋找生成AI課程,請?zhí)剿鳎篏enai Pinnacle程序!

常見問題

Q1。什么是龍貓縮放定律?

Ans。 Chinchilla縮放定律是一個經(jīng)驗框架,描述了語言模型的大?。▍?shù)數(shù)),培訓(xùn)數(shù)據(jù)的量(令牌)和培訓(xùn)所需的計算資源之間的最佳關(guān)系。它旨在最大程度地減少培訓(xùn)計算,同時最大程度地提高模型性能。

Q2。 Chinchilla縮放定律的關(guān)鍵參數(shù)是什么?

Ans。關(guān)鍵參數(shù)包括:
1。N:模型中的參數(shù)數(shù)。
2。D:培訓(xùn)令牌的數(shù)量。
3。C:拖船中的總計算成本。
4。L:模型在測試數(shù)據(jù)集上實現(xiàn)的平均損失。
5。A和B:與理想生成過程相比,反映表現(xiàn)不佳的常數(shù)。
6。α和β:指數(shù)分別描述損失量表的模型和數(shù)據(jù)大小。

Q3。 Chinchilla縮放法律指南模型培訓(xùn)如何?

Ans。該法律表明,模型大小和訓(xùn)練令牌應(yīng)以相等的速度擴展以達到最佳性能。具體而言,對于型號尺寸的每次加倍,訓(xùn)練令牌的數(shù)量也應(yīng)加倍,通常旨在每個參數(shù)的比例約為20個令牌。

Q4。龍貓縮放定律有哪些批評或局限性?

Ans。最近的研究表明,Hoffmann等人的原始估計值可能存在潛在的問題,包括報告的數(shù)據(jù)和過度置信區(qū)間的不一致。一些研究人員認(rèn)為,擴展法可能過于簡單,并且在模型培訓(xùn)中沒有考慮各種實際考慮。

Q5。龍貓縮放法如何影響最近的語言模型開發(fā)?

Ans。 《龍貓縮放法》的發(fā)現(xiàn)為包括Google的Gemini Suite在內(nèi)的幾個著名模型的設(shè)計和培訓(xùn)過程提供了信息。它還促使人們討論了“超越龍貓”策略的討論,研究人員根據(jù)原始縮放法探索了大于最佳的培訓(xùn)模型。

以上是什么是龍貓縮放定律?的詳細內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻,版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機

Video Face Swap

Video Face Swap

使用我們完全免費的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

熱門話題

AI投資者停滯不前? 3條購買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 AI投資者停滯不前? 3條購買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 Jul 02, 2025 am 11:13 AM

投資蓬勃發(fā)展,但僅資本還不夠。隨著估值的上升和獨特性的衰落,以AI為中心的風(fēng)險投資的投資者必須做出關(guān)鍵決定:購買,建立或合作伙伴才能獲得優(yōu)勢?這是評估每個選項和PR的方法

AGI和AI超級智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 AGI和AI超級智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 Jul 04, 2025 am 11:10 AM

讓我們來談?wù)劇? 對創(chuàng)新AI突破的分析是我正在進行的AI中正在進行的福布斯列覆蓋的一部分,包括識別和解釋各種有影響力的AI復(fù)雜性(請參閱此處的鏈接)。 前往Agi和

Kimi K2:最強大的開源代理模型 Kimi K2:最強大的開源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時候破壞了Genai行業(yè)的大量開源中國模型嗎?盡管DeepSeek占據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

未來預(yù)測從AI到AGI的道路上的大規(guī)模情報爆炸 未來預(yù)測從AI到AGI的道路上的大規(guī)模情報爆炸 Jul 02, 2025 am 11:19 AM

讓我們來談?wù)劇? 對創(chuàng)新AI突破的分析是我正在進行的AI中正在進行的福布斯列覆蓋的一部分,包括識別和解釋各種有影響力的AI復(fù)雜性(請參閱此處的鏈接)。對于那些讀者

AMD繼續(xù)在AI中建立動力,還有很多工作要做 AMD繼續(xù)在AI中建立動力,還有很多工作要做 Jun 28, 2025 am 11:15 AM

總體而言,我認(rèn)為該活動對于展示AMD如何向客戶和開發(fā)人員移動球非常重要。在SU下,AMD的M.O.要制定明確,雄心勃勃的計劃并對他們執(zhí)行。她的“說/do”比率很高。公司做

推理模型的思想鏈可能無法長期解決 推理模型的思想鏈可能無法長期解決 Jul 02, 2025 am 11:18 AM

例如,如果您向模型提出一個問題,例如:“(x)人在(x)公司做什么?”您可能會看到一個看起來像這樣的推理鏈,假設(shè)系統(tǒng)知道如何檢索必要的信息:找到有關(guān)CO的詳細信息

Grok 4 vs Claude 4:哪個更好? Grok 4 vs Claude 4:哪個更好? Jul 12, 2025 am 09:37 AM

到2025年中期,AI“軍備競賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車型Grok 4和Claude 4。這兩種模型處于設(shè)計理念和部署平臺的相反端,但他們卻在

人工智能將勒索,小偷,甚至為其隱藏的議程殺死 人工智能將勒索,小偷,甚至為其隱藏的議程殺死 Jun 26, 2025 am 10:36 AM

與AI使用相關(guān)的威脅在數(shù)量和嚴(yán)重性上都在增加,因為這種新時代的技術(shù)觸及了人類生活的越來越多。現(xiàn)在的一份新報告警告說,與廣泛使用有關(guān)的另一個即將發(fā)生的危險

See all articles