国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
介紹
概述
目錄
什麼是Chinchilla縮放法?
焦點轉變:從模型大小到數(shù)據(jù)
龍貓縮放定律的概述
龍貓縮放定律的主要發(fā)現(xiàn)
計算最佳訓練
來自400多個模型的經(jīng)驗證據(jù)
修訂的估計和持續(xù)改進
龍貓方法的好處
提高性能
降低計算成本
對未來研究和模型開發(fā)的影響
挑戰(zhàn)和考慮因素
結論
常見問題
首頁 科技週邊 人工智慧 什麼是龍貓縮放定律?

什麼是龍貓縮放定律?

Apr 12, 2025 am 11:27 AM

介紹

大型語言模型(LLMS)促進了自然語言處理(NLP)的進步,但它們也提出了一些有關計算效率的重要問題。這些模型已經(jīng)變得太大了,因此培訓和推理成本不再在合理的限制範圍內。

為了解決這個問題,Hoffmann等人引入的龍貓縮放定律。 2022年,提供了一個開創(chuàng)性的框架,以優(yōu)化LLM的培訓。 Chinchilla縮放定律提供了一個必要的指南,可以通過在模型大小,培訓數(shù)據(jù)和計算資源之間建立關係來有效地擴展LLM的情況而不損害績效。我們將在本文中詳細討論它。

什麼是龍貓縮放定律?

概述

  • Chinchilla縮放定律通過平衡模型大小和數(shù)據(jù)量來優(yōu)化LLM培訓,以提高效率。
  • 新的擴展見解表明,在接受更多數(shù)據(jù)培訓時,較小的語言模型可以勝過較大的語言模型。
  • Chinchilla的方法通過將數(shù)據(jù)數(shù)量優(yōu)先於模型尺寸來挑戰(zhàn)傳統(tǒng)的LLM縮放,以提高計算效率。
  • Chinchilla縮放法為NLP提供了新的路線圖,從而指導了高性能,資源有效的模型的發(fā)展。
  • Chinchilla縮放定律通過將模型大小和培訓數(shù)據(jù)加倍,從而最大程度地提高語言模型性能,從而最大程度地縮寫計算成本。

目錄

  • 什麼是Chinchilla縮放法?
  • 焦點轉變:從模型大小到數(shù)據(jù)
  • 龍貓縮放定律的概述
  • 龍貓縮放定律的主要發(fā)現(xiàn)
    • 計算最佳訓練
    • 來自400多個模型的經(jīng)驗證據(jù)
    • 修訂的估計和持續(xù)改進
  • 龍貓方法的好處
    • 提高性能
    • 降低計算成本
  • 對未來研究和模型開發(fā)的影響
  • 挑戰(zhàn)和考慮因素
  • 常見問題

什麼是Chinchilla縮放法?

該論文“培訓譯文最佳的大語言模型”於2022年發(fā)表,重點是確定三個關鍵因素之間的關係:模型大小,代幣數(shù)量和計算預算。作者發(fā)現(xiàn),現(xiàn)有的大型語言模型(LLMS)如GPT-3(175b參數(shù)),Gopher(280b)和Megatron(530b)的訓練明顯不足。儘管這些模型的大小增加,但訓練數(shù)據(jù)的數(shù)量在很大程度上保持恆定,從而導致了次優(yōu)的性能。作者提出,必須將模型大小和訓練令牌的數(shù)量平均縮放,以進行最佳訓練。為了證明這一點,他們培訓了大約400款型號,範圍從7,000萬到160億多個參數(shù)不等,使用了5到5000億個令牌。

基於這些發(fā)現(xiàn),作者訓練了一種名為Chinchilla的新模型,該模型使用與Gopher(280B)相同的計算預算,但只有70B參數(shù),而培訓數(shù)據(jù)則多四倍。 Chinchilla的表現(xiàn)優(yōu)於幾個著名的LLM,包括Gopher(280b),GPT-3(175b),Jurassic-1(178b)和Megatron(530b)。這一結果與OpenAI在“ LLMS縮放定律”中提出的縮放定律相矛盾,這表明較大的模型總是會更好。 Chinchilla縮放定律表明,經(jīng)過更多數(shù)據(jù)培訓時,較小的模型可以實現(xiàn)出色的性能。這種方法還使較小的模型更易於微調和減少推理潛伏期。

什麼是龍貓縮放定律?

該圖顯示,儘管較小,但Chinchilla(70b)遵循不同的計算與參數(shù)比率,並且超過了Gopher和GPT-3等較大的模型。

其他方法(1、2和3)探索了基於計算分配優(yōu)化模型性能的不同方法。

什麼是龍貓縮放定律?

從這個數(shù)字中,我們可以看到Chinchilla的優(yōu)勢,即使Chinchilla的尺寸較?。?0B參數(shù)),它也接受了更大的數(shù)據(jù)集(1.4萬億代碼)的培訓,該數(shù)據(jù)遵循了Chinchilla縮放法律中介紹的原則,如果他們在更大的模型上培訓了更大的模型。參數(shù)但接受了相對較少的令牌培訓,這表明這些模型可能沒有完全優(yōu)化其計算潛力。

焦點轉變:從模型大小到數(shù)據(jù)

從歷史上看,提高LLM性能的重點一直在增加模型大小上,如GPT-3和Gopher等模型所示。這是由Kaplan等人的研究驅動的。 (2020),它提出了模型大小和性能之間的冪律關係。但是,隨著模型的增長,訓練數(shù)據(jù)的數(shù)量並未相應地擴展,從而導致計算潛力不足。 Chinchilla縮放法律通過表明資源的分配更加平衡,尤其是在數(shù)據(jù)和模型大小方面,可以導致表現(xiàn)更好的模型,這些模型在不達到最低可能的損失的情況下會導致更佳的計算模型。

龍貓縮放定律的概述

模型大小,訓練令牌和計算成本之間的權衡是龍貓縮放定律的核心。該法律在這三個參數(shù)之間建立了最佳的平衡:

  • 模型大?。∟) :模型中的參數(shù)數(shù)量。
  • 訓練令牌(D) :訓練過程中使用的令牌總數(shù)。
  • 計算成本(c) :分配用於培訓的總計算資源,通常以拖臺(每秒的浮點操作)進行測量。

Chinchilla縮放定律表明,為了獲得最佳性能,模型大小和訓練數(shù)據(jù)的數(shù)量都應以相等的速度擴展。具體而言,訓練令牌的數(shù)量也應為每次加倍模型大小加倍。這種方法對比了早期的方法,該方法強調增加模型大小而沒有足夠增加訓練數(shù)據(jù)。

這種關係在數(shù)學上表示為:

什麼是龍貓縮放定律?

在哪裡:

  • L是模特的最終損失。
  • L_0是不可約的損失,代表了最佳性能。
  • 與理想的生成過程相比, AB是捕獲模型表現(xiàn)不佳的常數(shù)。
  • αβ是描述損失對模型大小和數(shù)據(jù)大小的尺度的指數(shù)。

龍貓縮放定律的主要發(fā)現(xiàn)

以下是龍貓鱗片定律的主要發(fā)現(xiàn):

計算最佳訓練

龍貓縮放定律突出顯示了模型大小和訓練數(shù)據(jù)量之間的最佳平衡。具體而言,研究發(fā)現(xiàn),每個模型參數(shù)的20個訓練令牌的大約比率非常適合通過給定的計算預算實現(xiàn)最佳性能。例如,具有700億參數(shù)的龍貓模型接受了1.4萬億代幣的訓練,比Gopher多四倍,但參數(shù)卻少得多。這種平衡導致模型在幾個基準上的表現(xiàn)明顯優(yōu)於較大的模型。

來自400多個模型的經(jīng)驗證據(jù)

為了得出龍貓縮放定律,Hoffmann等人。培訓了400多個變壓器型號,大小從7,000萬到160億個參數(shù)不等,在多達5000億個代幣的數(shù)據(jù)集上。經(jīng)驗證據(jù)強烈支持以下假設:經(jīng)過更多數(shù)據(jù)(以固定的計算預算)訓練的模型比單獨增加模型大小要好。

修訂的估計和持續(xù)改進

隨後的研究試圖完善Hoffmann等人的初始發(fā)現(xiàn),從而確定參數(shù)估計值的可能調整。一些研究提出了原始結果中的較小不一致,並提出了修訂的估計值,以更好地適合觀察到的數(shù)據(jù)。這些調整表明需要進一步的研究以了解模型縮放的動態(tài),但是《龍貓縮放定律》的核心見解仍然是寶貴的指南。

龍貓方法的好處

這是龍貓方法的好處:

提高性能

Chinchilla的模型大小和訓練數(shù)據(jù)相等的縮放得出了顯著的結果。儘管比許多其他大型模型都小,但在各種基準上,Chinchilla的表現(xiàn)都優(yōu)於GPT-3,Gopher,甚至大量的超源性NLG模型(5300億個參數(shù))。例如,在大量的多任務語言理解(MMLU)基準上,奇奇拉的平均準確性為67.5%,比Gopher的60%顯著提高。

降低計算成本

Chinchilla方法優(yōu)化了性能,並降低了訓練和推理的計算和能源成本。諸如GPT-3和Gopher之類的培訓模型需要巨大的計算資源,使它們在現(xiàn)實世界中的應用非常昂貴。相比之下,Chinchilla的型號較小和更廣泛的培訓數(shù)據(jù)導致對微調和推理的計算要求較低,從而使其在下游應用程序中更容易訪問。

對未來研究和模型開發(fā)的影響

《龍貓縮放法》為LLM開發(fā)的未來提供了寶貴的見解。關鍵含義包括:

  • 指導模型設計:了解如何平衡模型大小和培訓數(shù)據(jù),使研究人員和開發(fā)人員在設計新模型時可以做出更明智的決策。通過遵守《龍貓縮放定律》中概述的原則,開發(fā)人員可以確保其模型既計算效率高且表現(xiàn)高。
  • 指導模型設計:有關優(yōu)化音量的知識,因此培訓數(shù)據(jù)為模型的研究和設計提供了信息。在此指南量表中,他們的想法的發(fā)展將在高效率的廣泛定義中運作,而不會過多地消費計算機資源。
  • 性能優(yōu)化:龍貓縮放定律提供了優(yōu)化LLM的路線圖。通過專注於相等的規(guī)模,開發(fā)人員可以避免訓練不足的大型模型的陷阱,並確保對訓練和推理任務進行優(yōu)化模型。
  • 丹丘(Chinchilla)以外的探索:隨著研究的繼續(xù),新的策略正在發(fā)展,以擴大龍貓縮放法的思想。例如,一些研究人員正在研究以更少的計算資源來達到相似性能水平的方法,或者進一步增強數(shù)據(jù)約束環(huán)境中的模型性能。這些探索可能會導致更有效的培訓管道。

挑戰(zhàn)和考慮因素

儘管《龍貓縮放法》標誌著了解LLM擴展的重要一步,但它也提出了新的問題和挑戰(zhàn):

  • 數(shù)據(jù)收集:就像龍貓一樣,訓練1.4萬億代幣的模型意味著許多高質量數(shù)據(jù)集的可用性。但是,這樣的數(shù)據(jù)收集和處理規(guī)模為研究人員和開發(fā)人員以及倫理問題(例如隱私和偏見)提出了組織問題。
  • 偏見和毒性:但是,使用龍貓縮放定律訓練的模型的定期偏差和毒性比例降低比所有這些效率低下問題更容易,更有效。隨著LLM的權力和覆蓋範圍的增長,確保公平和減輕有害產出將是未來研究的關鍵領域。

結論

龍貓的縮放定律代表了我們對優(yōu)化大型語言模型培訓的理解的關鍵進步。通過在模型大小,培訓數(shù)據(jù)和計算成本之間建立明確的關係,該法律為有效擴展LLM的計算最佳框架提供了最佳的框架。 Chinchilla模型的成功證明了這種方法在績效和資源效率方面的實際好處。

隨著該領域的研究繼續(xù),龍貓縮放法的原理可能會影響LLM開發(fā)的未來,從而指導模型的設計,這些模型在維持可持續(xù)性和可及性的同時,推動了自然語言處理的邊界。

另外,如果您正在在線尋找生成AI課程,請?zhí)剿鳎篏enai Pinnacle程序!

常見問題

Q1。什麼是龍貓縮放定律?

Ans。 Chinchilla縮放定律是一個經(jīng)驗框架,描述了語言模型的大?。▍?shù)數(shù)),培訓數(shù)據(jù)的量(令牌)和培訓所需的計算資源之間的最佳關係。它旨在最大程度地減少培訓計算,同時最大程度地提高模型性能。

Q2。 Chinchilla縮放定律的關鍵參數(shù)是什麼?

Ans。關鍵參數(shù)包括:
1。 N:模型中的參數(shù)數(shù)。
2。 D:培訓令牌的數(shù)量。
3。 C:拖船中的總計算成本。
4。 L:模型在測試數(shù)據(jù)集上實現(xiàn)的平均損失。
5。 A和B:與理想生成過程相比,反映表現(xiàn)不佳的常數(shù)。
6。 α和β:指數(shù)分別描述損失量表的模型和數(shù)據(jù)大小。

Q3。 Chinchilla縮放法律指南模型培訓如何?

Ans。該法律表明,模型大小和訓練令牌應以相等的速度擴展以達到最佳性能。具體而言,對於型號尺寸的每次加倍,訓練令牌的數(shù)量也應加倍,通常旨在每個參數(shù)的比例約為20個令牌。

Q4。龍貓縮放定律有哪些批評或局限性?

Ans。最近的研究表明,Hoffmann等人的原始估計值可能存在潛在的問題,包括報告的數(shù)據(jù)和過度置信區(qū)間的不一致。一些研究人員認為,擴展法可能過於簡單,並且在模型培訓中沒有考慮各種實際考慮。

Q5。 《龍貓縮放法》如何影響最近的語言模型開發(fā)?

Ans。 《龍貓縮放法》的發(fā)現(xiàn)為包括Google的Gemini Suite在內的幾個著名模型的設計和培訓過程提供了信息。它還促使人們討論了“超越龍貓”策略的討論,研究人員根據(jù)原始縮放法探索了大於最佳的培訓模型。

以上是什麼是龍貓縮放定律?的詳細內容。更多資訊請關注PHP中文網(wǎng)其他相關文章!

本網(wǎng)站聲明
本文內容由網(wǎng)友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發(fā)現(xiàn)涉嫌抄襲或侵權的內容,請聯(lián)絡admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

從採用到優(yōu)勢:2025年塑造企業(yè)LLM的10個趨勢 從採用到優(yōu)勢:2025年塑造企業(yè)LLM的10個趨勢 Jun 20, 2025 am 11:13 AM

以下是重塑企業(yè)AI景觀的十種引人注目的趨勢。對LLMSorganizations的財務承諾正在大大增加其在LLMS的投資,其中72%的人預計他們的支出今年會增加。目前,近40%a

AI投資者停滯不前? 3條購買,建造或與人工智能供應商合作的戰(zhàn)略途徑 AI投資者停滯不前? 3條購買,建造或與人工智能供應商合作的戰(zhàn)略途徑 Jul 02, 2025 am 11:13 AM

投資蓬勃發(fā)展,但僅資本還不夠。隨著估值的上升和獨特性的衰落,以AI為中心的風險投資的投資者必須做出關鍵決定:購買,建立或合作夥伴才能獲得優(yōu)勢?這是評估每個選項和PR的方法

生成AI的不可阻擋的增長(AI Outlook第1部分) 生成AI的不可阻擋的增長(AI Outlook第1部分) Jun 21, 2025 am 11:11 AM

披露:我的公司Tirias Research已向IBM,NVIDIA和本文提到的其他公司諮詢。 Growth驅動力的生成AI採用的激增比最樂觀的預測更具戲劇性。然後,

這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 Jun 20, 2025 am 11:16 AM

由於AI,那些日子是編號的。根據(jù)一個螺柱,搜索企業(yè)諸如Travel網(wǎng)站皮劃艇和Edtech Company Chegg之類的企業(yè)正在下降,部分原因是60%的網(wǎng)站搜索不會導致用戶單擊任何鏈接。

AGI和AI超級智能將嚴重擊中人類天花板的假設障礙 AGI和AI超級智能將嚴重擊中人類天花板的假設障礙 Jul 04, 2025 am 11:10 AM

讓我們來談談。 對創(chuàng)新AI突破的分析是我正在進行的AI中正在進行的福布斯列覆蓋的一部分,包括識別和解釋各種有影響力的AI複雜性(請參閱此處的鏈接)。 前往Agi和

構建您的第一個LLM應用程序:初學者的教程 構建您的第一個LLM應用程序:初學者的教程 Jun 24, 2025 am 10:13 AM

您是否曾經(jīng)嘗試過建立自己的大型語言模型(LLM)應用程序?有沒有想過人們如何提高自己的LLM申請來提高生產率? LLM應用程序已被證明在各個方面都有用

AMD繼續(xù)在AI中建立動力,還有很多工作要做 AMD繼續(xù)在AI中建立動力,還有很多工作要做 Jun 28, 2025 am 11:15 AM

總體而言,我認為該活動對於展示AMD如何向客戶和開發(fā)人員移動球非常重要。在SU下,AMD的M.O.要製定明確,雄心勃勃的計劃並對他們執(zhí)行。她的“說/do”比率很高。公司做

未來預測從AI到AGI的道路上的大規(guī)模情報爆炸 未來預測從AI到AGI的道路上的大規(guī)模情報爆炸 Jul 02, 2025 am 11:19 AM

讓我們來談談。 對創(chuàng)新AI突破的分析是我正在進行的AI中正在進行的福布斯列覆蓋的一部分,包括識別和解釋各種有影響力的AI複雜性(請參閱此處的鏈接)。對於那些讀者

See all articles