国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
介紹
概述
目錄
什么是Chinchilla縮放法?
焦點(diǎn)轉(zhuǎn)變:從模型大小到數(shù)據(jù)
龍貓縮放定律的概述
龍貓縮放定律的主要發(fā)現(xiàn)
計(jì)算最佳訓(xùn)練
來(lái)自400多個(gè)模型的經(jīng)驗(yàn)證據(jù)
修訂的估計(jì)和持續(xù)改進(jìn)
龍貓方法的好處
提高性能
降低計(jì)算成本
對(duì)未來(lái)研究和模型開(kāi)發(fā)的影響
挑戰(zhàn)和考慮因素
結(jié)論
常見(jiàn)問(wèn)題
首頁(yè) 科技周邊 人工智能 什么是龍貓縮放定律?

什么是龍貓縮放定律?

Apr 12, 2025 am 11:27 AM

介紹

大型語(yǔ)言模型(LLMS)促進(jìn)了自然語(yǔ)言處理(NLP)的進(jìn)步,但它們也提出了一些有關(guān)計(jì)算效率的重要問(wèn)題。這些模型已經(jīng)變得太大了,因此培訓(xùn)和推理成本不再在合理的限制范圍內(nèi)。

為了解決這個(gè)問(wèn)題,Hoffmann等人引入的龍貓縮放定律。 2022年,提供了一個(gè)開(kāi)創(chuàng)性的框架,以優(yōu)化LLM的培訓(xùn)。 Chinchilla縮放定律提供了一個(gè)必要的指南,可以通過(guò)在模型大小,培訓(xùn)數(shù)據(jù)和計(jì)算資源之間建立關(guān)系來(lái)有效地?cái)U(kuò)展LLM的情況而不損害績(jī)效。我們將在本文中詳細(xì)討論它。

什么是龍貓縮放定律?

概述

  • Chinchilla縮放定律通過(guò)平衡模型大小和數(shù)據(jù)量來(lái)優(yōu)化LLM培訓(xùn),以提高效率。
  • 新的擴(kuò)展見(jiàn)解表明,在接受更多數(shù)據(jù)培訓(xùn)時(shí),較小的語(yǔ)言模型可以勝過(guò)較大的語(yǔ)言模型。
  • Chinchilla的方法通過(guò)將數(shù)據(jù)數(shù)量?jī)?yōu)先于模型尺寸來(lái)挑戰(zhàn)傳統(tǒng)的LLM縮放,以提高計(jì)算效率。
  • Chinchilla縮放法為NLP提供了新的路線圖,從而指導(dǎo)了高性能,資源有效的模型的發(fā)展。
  • Chinchilla縮放定律通過(guò)將模型大小和培訓(xùn)數(shù)據(jù)加倍,從而最大程度地提高語(yǔ)言模型性能,從而最大程度地縮寫(xiě)計(jì)算成本。

目錄

  • 什么是Chinchilla縮放法?
  • 焦點(diǎn)轉(zhuǎn)變:從模型大小到數(shù)據(jù)
  • 龍貓縮放定律的概述
  • 龍貓縮放定律的主要發(fā)現(xiàn)
    • 計(jì)算最佳訓(xùn)練
    • 來(lái)自400多個(gè)模型的經(jīng)驗(yàn)證據(jù)
    • 修訂的估計(jì)和持續(xù)改進(jìn)
  • 龍貓方法的好處
    • 提高性能
    • 降低計(jì)算成本
  • 對(duì)未來(lái)研究和模型開(kāi)發(fā)的影響
  • 挑戰(zhàn)和考慮因素
  • 常見(jiàn)問(wèn)題

什么是Chinchilla縮放法?

該論文“培訓(xùn)譯文最佳的大語(yǔ)言模型”于2022年發(fā)表,重點(diǎn)是確定三個(gè)關(guān)鍵因素之間的關(guān)系:模型大小,代幣數(shù)量和計(jì)算預(yù)算。作者發(fā)現(xiàn),現(xiàn)有的大型語(yǔ)言模型(LLMS)如GPT-3(175b參數(shù)),Gopher(280b)和Megatron(530b)的訓(xùn)練明顯不足。盡管這些模型的大小增加,但訓(xùn)練數(shù)據(jù)的數(shù)量在很大程度上保持恒定,從而導(dǎo)致了次優(yōu)的性能。作者提出,必須將模型大小和訓(xùn)練令牌的數(shù)量平均縮放,以進(jìn)行最佳訓(xùn)練。為了證明這一點(diǎn),他們培訓(xùn)了大約400款型號(hào),范圍從7,000萬(wàn)到160億多個(gè)參數(shù)不等,使用了5到5000億個(gè)令牌。

基于這些發(fā)現(xiàn),作者訓(xùn)練了一種名為Chinchilla的新模型,該模型使用與Gopher(280B)相同的計(jì)算預(yù)算,但只有70B參數(shù),而培訓(xùn)數(shù)據(jù)則多四倍。 Chinchilla的表現(xiàn)優(yōu)于幾個(gè)著名的LLM,包括Gopher(280b),GPT-3(175b),Jurassic-1(178b)和Megatron(530b)。這一結(jié)果與OpenAI在“ LLMS縮放定律”中提出的縮放定律相矛盾,這表明較大的模型總是會(huì)更好。 Chinchilla縮放定律表明,經(jīng)過(guò)更多數(shù)據(jù)培訓(xùn)時(shí),較小的模型可以實(shí)現(xiàn)出色的性能。這種方法還使較小的模型更易于微調(diào)和減少推理潛伏期。

什么是龍貓縮放定律?

該圖顯示,盡管較小,但Chinchilla(70b)遵循不同的計(jì)算與參數(shù)比率,并且超過(guò)了Gopher和GPT-3等較大的模型。

其他方法(1、2和3)探索了基于計(jì)算分配優(yōu)化模型性能的不同方法。

什么是龍貓縮放定律?

從這個(gè)數(shù)字中,我們可以看到Chinchilla的優(yōu)勢(shì),即使Chinchilla的尺寸較小(70B參數(shù)),它也接受了更大的數(shù)據(jù)集(1.4萬(wàn)億代碼)的培訓(xùn),該數(shù)據(jù)遵循了Chinchilla縮放法律中介紹的原則,如果他們?cè)诟蟮哪P蜕吓嘤?xùn)了更大的模型。參數(shù)但接受了相對(duì)較少的令牌培訓(xùn),這表明這些模型可能沒(méi)有完全優(yōu)化其計(jì)算潛力。

焦點(diǎn)轉(zhuǎn)變:從模型大小到數(shù)據(jù)

從歷史上看,提高LLM性能的重點(diǎn)一直在增加模型大小上,如GPT-3和Gopher等模型所示。這是由Kaplan等人的研究驅(qū)動(dòng)的。 (2020),它提出了模型大小和性能之間的冪律關(guān)系。但是,隨著模型的增長(zhǎng),訓(xùn)練數(shù)據(jù)的數(shù)量并未相應(yīng)地?cái)U(kuò)展,從而導(dǎo)致計(jì)算潛力不足。 Chinchilla縮放法律通過(guò)表明資源的分配更加平衡,尤其是在數(shù)據(jù)和模型大小方面,可以導(dǎo)致表現(xiàn)更好的模型,這些模型在不達(dá)到最低可能的損失的情況下會(huì)導(dǎo)致更佳的計(jì)算模型。

龍貓縮放定律的概述

模型大小,訓(xùn)練令牌和計(jì)算成本之間的權(quán)衡是龍貓縮放定律的核心。該法律在這三個(gè)參數(shù)之間建立了最佳的平衡:

  • 模型大?。∟) :模型中的參數(shù)數(shù)量。
  • 訓(xùn)練令牌(D) :訓(xùn)練過(guò)程中使用的令牌總數(shù)。
  • 計(jì)算成本(c) :分配用于培訓(xùn)的總計(jì)算資源,通常以拖臺(tái)(每秒的浮點(diǎn)操作)進(jìn)行測(cè)量。

Chinchilla縮放定律表明,為了獲得最佳性能,模型大小和訓(xùn)練數(shù)據(jù)的數(shù)量都應(yīng)以相等的速度擴(kuò)展。具體而言,訓(xùn)練令牌的數(shù)量也應(yīng)為每次加倍模型大小加倍。這種方法對(duì)比了早期的方法,該方法強(qiáng)調(diào)增加模型大小而沒(méi)有足夠增加訓(xùn)練數(shù)據(jù)。

這種關(guān)系在數(shù)學(xué)上表示為:

什么是龍貓縮放定律?

在哪里:

  • L是模特的最終損失。
  • L_0是不可約的損失,代表了最佳性能。
  • 與理想的生成過(guò)程相比, AB是捕獲模型表現(xiàn)不佳的常數(shù)。
  • αβ是描述損失對(duì)模型大小和數(shù)據(jù)大小的尺度的指數(shù)。

龍貓縮放定律的主要發(fā)現(xiàn)

以下是龍貓鱗片定律的主要發(fā)現(xiàn):

計(jì)算最佳訓(xùn)練

龍貓縮放定律突出顯示了模型大小和訓(xùn)練數(shù)據(jù)量之間的最佳平衡。具體而言,研究發(fā)現(xiàn),每個(gè)模型參數(shù)的20個(gè)訓(xùn)練令牌的大約比率非常適合通過(guò)給定的計(jì)算預(yù)算實(shí)現(xiàn)最佳性能。例如,具有700億參數(shù)的龍貓模型接受了1.4萬(wàn)億代幣的訓(xùn)練,比Gopher多四倍,但參數(shù)卻少得多。這種平衡導(dǎo)致模型在幾個(gè)基準(zhǔn)上的表現(xiàn)明顯優(yōu)于較大的模型。

來(lái)自400多個(gè)模型的經(jīng)驗(yàn)證據(jù)

為了得出龍貓縮放定律,Hoffmann等人。培訓(xùn)了400多個(gè)變壓器型號(hào),大小從7,000萬(wàn)到160億個(gè)參數(shù)不等,在多達(dá)5000億個(gè)代幣的數(shù)據(jù)集上。經(jīng)驗(yàn)證據(jù)強(qiáng)烈支持以下假設(shè):經(jīng)過(guò)更多數(shù)據(jù)(以固定的計(jì)算預(yù)算)訓(xùn)練的模型比單獨(dú)增加模型大小要好。

修訂的估計(jì)和持續(xù)改進(jìn)

隨后的研究試圖完善Hoffmann等人的初始發(fā)現(xiàn),從而確定參數(shù)估計(jì)值的可能調(diào)整。一些研究提出了原始結(jié)果中的較小不一致,并提出了修訂的估計(jì)值,以更好地適合觀察到的數(shù)據(jù)。這些調(diào)整表明需要進(jìn)一步的研究以了解模型縮放的動(dòng)態(tài),但是《龍貓縮放定律》的核心見(jiàn)解仍然是寶貴的指南。

龍貓方法的好處

這是龍貓方法的好處:

提高性能

Chinchilla的模型大小和訓(xùn)練數(shù)據(jù)相等的縮放得出了顯著的結(jié)果。盡管比許多其他大型模型都小,但在各種基準(zhǔn)上,Chinchilla的表現(xiàn)都優(yōu)于GPT-3,Gopher,甚至大量的超源性NLG模型(5300億個(gè)參數(shù))。例如,在大量的多任務(wù)語(yǔ)言理解(MMLU)基準(zhǔn)上,奇奇拉的平均準(zhǔn)確性為67.5%,比Gopher的60%顯著提高。

降低計(jì)算成本

Chinchilla方法優(yōu)化了性能,并降低了訓(xùn)練和推理的計(jì)算和能源成本。諸如GPT-3和Gopher之類(lèi)的培訓(xùn)模型需要巨大的計(jì)算資源,使它們?cè)诂F(xiàn)實(shí)世界中的應(yīng)用非常昂貴。相比之下,Chinchilla的型號(hào)較小和更廣泛的培訓(xùn)數(shù)據(jù)導(dǎo)致對(duì)微調(diào)和推理的計(jì)算要求較低,從而使其在下游應(yīng)用程序中更容易訪問(wèn)。

對(duì)未來(lái)研究和模型開(kāi)發(fā)的影響

《龍貓縮放法》為L(zhǎng)LM開(kāi)發(fā)的未來(lái)提供了寶貴的見(jiàn)解。關(guān)鍵含義包括:

  • 指導(dǎo)模型設(shè)計(jì):了解如何平衡模型大小和培訓(xùn)數(shù)據(jù),使研究人員和開(kāi)發(fā)人員在設(shè)計(jì)新模型時(shí)可以做出更明智的決策。通過(guò)遵守《龍貓縮放定律》中概述的原則,開(kāi)發(fā)人員可以確保其模型既計(jì)算效率高且表現(xiàn)高。
  • 指導(dǎo)模型設(shè)計(jì):有關(guān)優(yōu)化音量的知識(shí),因此培訓(xùn)數(shù)據(jù)為模型的研究和設(shè)計(jì)提供了信息。在此指南量表中,他們的想法的發(fā)展將在高效率的廣泛定義中運(yùn)作,而不會(huì)過(guò)多地消費(fèi)計(jì)算機(jī)資源。
  • 性能優(yōu)化:龍貓縮放定律提供了優(yōu)化LLM的路線圖。通過(guò)專(zhuān)注于相等的規(guī)模,開(kāi)發(fā)人員可以避免訓(xùn)練不足的大型模型的陷阱,并確保對(duì)訓(xùn)練和推理任務(wù)進(jìn)行優(yōu)化模型。
  • 丹丘(Chinchilla)以外的探索:隨著研究的繼續(xù),新的策略正在發(fā)展,以擴(kuò)大龍貓縮放法的思想。例如,一些研究人員正在研究以更少的計(jì)算資源來(lái)達(dá)到相似性能水平的方法,或者進(jìn)一步增強(qiáng)數(shù)據(jù)約束環(huán)境中的模型性能。這些探索可能會(huì)導(dǎo)致更有效的培訓(xùn)管道。

挑戰(zhàn)和考慮因素

盡管《龍貓縮放法》標(biāo)志著了解LLM擴(kuò)展的重要一步,但它也提出了新的問(wèn)題和挑戰(zhàn):

  • 數(shù)據(jù)收集:就像龍貓一樣,訓(xùn)練1.4萬(wàn)億代幣的模型意味著許多高質(zhì)量數(shù)據(jù)集的可用性。但是,這樣的數(shù)據(jù)收集和處理規(guī)模為研究人員和開(kāi)發(fā)人員以及倫理問(wèn)題(例如隱私和偏見(jiàn))提出了組織問(wèn)題
  • 偏見(jiàn)和毒性:但是,使用龍貓縮放定律訓(xùn)練的模型的定期偏差和毒性比例降低比所有這些效率低下問(wèn)題更容易,更有效。隨著LLM的權(quán)力和覆蓋范圍的增長(zhǎng),確保公平和減輕有害產(chǎn)出將是未來(lái)研究的關(guān)鍵領(lǐng)域。

結(jié)論

龍貓的縮放定律代表了我們對(duì)優(yōu)化大型語(yǔ)言模型培訓(xùn)的理解的關(guān)鍵進(jìn)步。通過(guò)在模型大小,培訓(xùn)數(shù)據(jù)和計(jì)算成本之間建立明確的關(guān)系,該法律為有效擴(kuò)展LLM的計(jì)算最佳框架提供了最佳的框架。 Chinchilla模型的成功證明了這種方法在績(jī)效和資源效率方面的實(shí)際好處。

隨著該領(lǐng)域的研究繼續(xù),龍貓縮放法的原理可能會(huì)影響LLM開(kāi)發(fā)的未來(lái),從而指導(dǎo)模型的設(shè)計(jì),這些模型在維持可持續(xù)性和可及性的同時(shí),推動(dòng)了自然語(yǔ)言處理的邊界。

另外,如果您正在在線尋找生成AI課程,請(qǐng)?zhí)剿鳎篏enai Pinnacle程序!

常見(jiàn)問(wèn)題

Q1。什么是龍貓縮放定律?

Ans。 Chinchilla縮放定律是一個(gè)經(jīng)驗(yàn)框架,描述了語(yǔ)言模型的大?。▍?shù)數(shù)),培訓(xùn)數(shù)據(jù)的量(令牌)和培訓(xùn)所需的計(jì)算資源之間的最佳關(guān)系。它旨在最大程度地減少培訓(xùn)計(jì)算,同時(shí)最大程度地提高模型性能。

Q2。 Chinchilla縮放定律的關(guān)鍵參數(shù)是什么?

Ans。關(guān)鍵參數(shù)包括:
1。N:模型中的參數(shù)數(shù)。
2。D:培訓(xùn)令牌的數(shù)量。
3。C:拖船中的總計(jì)算成本。
4。L:模型在測(cè)試數(shù)據(jù)集上實(shí)現(xiàn)的平均損失。
5。A和B:與理想生成過(guò)程相比,反映表現(xiàn)不佳的常數(shù)。
6。α和β:指數(shù)分別描述損失量表的模型和數(shù)據(jù)大小。

Q3。 Chinchilla縮放法律指南模型培訓(xùn)如何?

Ans。該法律表明,模型大小和訓(xùn)練令牌應(yīng)以相等的速度擴(kuò)展以達(dá)到最佳性能。具體而言,對(duì)于型號(hào)尺寸的每次加倍,訓(xùn)練令牌的數(shù)量也應(yīng)加倍,通常旨在每個(gè)參數(shù)的比例約為20個(gè)令牌。

Q4。龍貓縮放定律有哪些批評(píng)或局限性?

Ans。最近的研究表明,Hoffmann等人的原始估計(jì)值可能存在潛在的問(wèn)題,包括報(bào)告的數(shù)據(jù)和過(guò)度置信區(qū)間的不一致。一些研究人員認(rèn)為,擴(kuò)展法可能過(guò)于簡(jiǎn)單,并且在模型培訓(xùn)中沒(méi)有考慮各種實(shí)際考慮。

Q5。龍貓縮放法如何影響最近的語(yǔ)言模型開(kāi)發(fā)?

Ans。 《龍貓縮放法》的發(fā)現(xiàn)為包括Google的Gemini Suite在內(nèi)的幾個(gè)著名模型的設(shè)計(jì)和培訓(xùn)過(guò)程提供了信息。它還促使人們討論了“超越龍貓”策略的討論,研究人員根據(jù)原始縮放法探索了大于最佳的培訓(xùn)模型。

以上是什么是龍貓縮放定律?的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

AI投資者停滯不前? 3條購(gòu)買(mǎi),建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 AI投資者停滯不前? 3條購(gòu)買(mǎi),建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 Jul 02, 2025 am 11:13 AM

投資蓬勃發(fā)展,但僅資本還不夠。隨著估值的上升和獨(dú)特性的衰落,以AI為中心的風(fēng)險(xiǎn)投資的投資者必須做出關(guān)鍵決定:購(gòu)買(mǎi),建立或合作伙伴才能獲得優(yōu)勢(shì)?這是評(píng)估每個(gè)選項(xiàng)和PR的方法

AGI和AI超級(jí)智能將嚴(yán)重?fù)糁腥祟?lèi)天花板的假設(shè)障礙 AGI和AI超級(jí)智能將嚴(yán)重?fù)糁腥祟?lèi)天花板的假設(shè)障礙 Jul 04, 2025 am 11:10 AM

讓我們來(lái)談?wù)劇? 對(duì)創(chuàng)新AI突破的分析是我正在進(jìn)行的AI中正在進(jìn)行的福布斯列覆蓋的一部分,包括識(shí)別和解釋各種有影響力的AI復(fù)雜性(請(qǐng)參閱此處的鏈接)。 前往Agi和

Kimi K2:最強(qiáng)大的開(kāi)源代理模型 Kimi K2:最強(qiáng)大的開(kāi)源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時(shí)候破壞了Genai行業(yè)的大量開(kāi)源中國(guó)模型嗎?盡管DeepSeek占據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

未來(lái)預(yù)測(cè)從AI到AGI的道路上的大規(guī)模情報(bào)爆炸 未來(lái)預(yù)測(cè)從AI到AGI的道路上的大規(guī)模情報(bào)爆炸 Jul 02, 2025 am 11:19 AM

讓我們來(lái)談?wù)劇? 對(duì)創(chuàng)新AI突破的分析是我正在進(jìn)行的AI中正在進(jìn)行的福布斯列覆蓋的一部分,包括識(shí)別和解釋各種有影響力的AI復(fù)雜性(請(qǐng)參閱此處的鏈接)。對(duì)于那些讀者

AMD繼續(xù)在AI中建立動(dòng)力,還有很多工作要做 AMD繼續(xù)在AI中建立動(dòng)力,還有很多工作要做 Jun 28, 2025 am 11:15 AM

總體而言,我認(rèn)為該活動(dòng)對(duì)于展示AMD如何向客戶和開(kāi)發(fā)人員移動(dòng)球非常重要。在SU下,AMD的M.O.要制定明確,雄心勃勃的計(jì)劃并對(duì)他們執(zhí)行。她的“說(shuō)/do”比率很高。公司做

推理模型的思想鏈可能無(wú)法長(zhǎng)期解決 推理模型的思想鏈可能無(wú)法長(zhǎng)期解決 Jul 02, 2025 am 11:18 AM

例如,如果您向模型提出一個(gè)問(wèn)題,例如:“(x)人在(x)公司做什么?”您可能會(huì)看到一個(gè)看起來(lái)像這樣的推理鏈,假設(shè)系統(tǒng)知道如何檢索必要的信息:找到有關(guān)CO的詳細(xì)信息

Grok 4 vs Claude 4:哪個(gè)更好? Grok 4 vs Claude 4:哪個(gè)更好? Jul 12, 2025 am 09:37 AM

到2025年中期,AI“軍備競(jìng)賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車(chē)型Grok 4和Claude 4。這兩種模型處于設(shè)計(jì)理念和部署平臺(tái)的相反端,但他們卻在

人工智能將勒索,小偷,甚至為其隱藏的議程殺死 人工智能將勒索,小偷,甚至為其隱藏的議程殺死 Jun 26, 2025 am 10:36 AM

與AI使用相關(guān)的威脅在數(shù)量和嚴(yán)重性上都在增加,因?yàn)檫@種新時(shí)代的技術(shù)觸及了人類(lèi)生活的越來(lái)越多?,F(xiàn)在的一份新報(bào)告警告說(shuō),與廣泛使用有關(guān)的另一個(gè)即將發(fā)生的危險(xiǎn)

See all articles