国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目次
1. 2020 バージョンの第一世代 GPT-3 と大規(guī)模な事前トレーニング
2. GPT-3 の 2020 バージョンから ChatGPT の 2022 バージョンへ
3. Code-Davinci-002 と Text-Davinci-002、コードをトレーニングし、命令を微調(diào)整します
3.1 複雑な推論能力と新しいタスクに一般化する能力の源
5. 現(xiàn)段階での GPT-3.5 の進(jìn)化プロセスの概要
GPT-3.5 は自然言語処理研究における重要なステップですが、すべてが完全に含まれているわけではありません。多くの研究者 (AI2 を含む) によって想定されている望ましい特性。 GPT-3.5 にはない重要なプロパティをいくつか以下に示します:
7. 結(jié)論
FAQ
ホームページ テクノロジー周辺機(jī)器 AI ChatGPT が突然非常に強(qiáng)力になったのはなぜですか?中國人醫(yī)師による 10,000 ワードの長い記事が GPT-3.5 機(jī)能の起源を深く解剖

ChatGPT が突然非常に強(qiáng)力になったのはなぜですか?中國人醫(yī)師による 10,000 ワードの長い記事が GPT-3.5 機(jī)能の起源を深く解剖

Apr 11, 2023 pm 09:37 PM
chatgpt

OpenAI が最近リリースした ChatGPT は、人工知能の分野に大きな衝撃を與えました。その強(qiáng)力な機(jī)能は、言語処理研究者の期待をはるかに超えています。

ChatGPT を経験したユーザーは當(dāng)然次のような質(zhì)問をします: 元の GPT 3 はどのようにして ChatGPT に進(jìn)化したのですか? GPT 3.5 の驚くべき言語機(jī)能はどこから來るのでしょうか?

最近、アレン人工知能研究所の研究者は、ChatGPT の緊急能力を分析し、これらの能力の起源を追跡しようとする記事を書きました。 GPT-3.5 モデル シリーズと関連する大規(guī)模言語モデルがどのように段階的に進(jìn)化して現(xiàn)在の強(qiáng)力な形式になったかを示す、包括的な技術(shù)ロードマップが示されています。

ChatGPT が突然非常に強(qiáng)力になったのはなぜですか?中國人醫(yī)師による 10,000 ワードの長い記事が GPT-3.5 機(jī)能の起源を深く解剖

元のリンク: https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756

著者Fu Yaoは、2020年に入學(xué)したエディンバラ大學(xué)の博士課程の學(xué)生です。コロンビア大學(xué)で修士號(hào)を取得し、北京大學(xué)で學(xué)士號(hào)を取得しました。彼は現(xiàn)在、研究インターンとしてアレン人工知能研究所に勤務(wù)しています。彼の主な研究方向は、人間の言語の大規(guī)模な確率的生成モデルです。

著者 Peng Hao は北京大學(xué)を卒業(yè)し、學(xué)士號(hào)を取得し、ワシントン大學(xué)で博士號(hào)を取得し、現(xiàn)在は研究機(jī)関の若手研究者です。アレン人工知能研究所に在籍し、2023 年に卒業(yè)予定 8 月に、イリノイ大學(xué)アーバナ シャンペーン校のコンピュータ サイエンス學(xué)部に助教授として著任しました。彼の主な研究対象は、言語 AI をより効率的かつ理解しやすくすること、および大規(guī)模な言語モデルを構(gòu)築することです。

著者Tushar Khotはウィスコンシン大學(xué)マディソン校を博士號(hào)を取得して卒業(yè)し、現(xiàn)在はアレン人工知能研究所の研究員です。彼の主な研究方向は構(gòu)造化機(jī)械推論です。

1. 2020 バージョンの第一世代 GPT-3 と大規(guī)模な事前トレーニング

第一世代 GPT-3 は 3 つの重要な機(jī)能を?qū)g証しました:

  • 言語生成: プロンプト単語 (プロンプト) に従って、プロンプト単語を完成させる文を生成します。これは、今日人間が言語モデルと対話する最も一般的な方法でもあります。
  • コンテキスト內(nèi)學(xué)習(xí): 特定のタスクのいくつかの例に従い、新しいテスト ケースのソリューションを生成します。非常に重要な點(diǎn)は、GPT-3 は言語モデルであるにもかかわらず、その論文では「言語モデリング」についてほとんど言及されていないということです - 著者は執(zhí)筆エネルギーのすべてを文脈學(xué)習(xí)のビジョンに費(fèi)やしており、これが GPT-3 の本當(dāng)の焦點(diǎn)です。
  • 世界の知識(shí): 事実の知識(shí) (事実の知識(shí)) と常識(shí) (常識(shí)) が含まれます。

では、これらの能力はどこから來たのでしょうか?

基本的に、上記の 3 つの機(jī)能は大規(guī)模な事前トレーニングから得られます。つまり、3,000 億語のコーパス (トレーニング コーパスの 60%) 上で 1,750 億個(gè)のパラメータを持つモデルを事前トレーニングします。 2016 年から 2019 年にかけて、C4 の 22% は WebText2 から來ており、16% は Books から來ており、3% は Wikipedia から來ています)。で:######

  • 言語生成の能力は、言語モデリング (言語モデリング) のトレーニング目標(biāo)から得られます。
  • 世界の知識(shí)は、3,000 億語のトレーニング コーパスから得られます (他に存在する可能性はありません)。
  • モデルの 1,750 億個(gè)のパラメーターは知識(shí)を保存するためのものであり、これは Liang et al. (2022) の論文によってさらに証明されています。彼らは、知識(shí)集約型タスクのパフォーマンスはモデルのサイズに密接に関係していると結(jié)論付けました。
  • 文脈學(xué)習(xí)能力の源と、文脈學(xué)習(xí)が一般化できる理由を追跡することは依然として困難です。直感的には、この機(jī)能は、トレーニング中に同じバッチ內(nèi)に連続して配置される同じタスクからのデータ ポイントから得られる可能性があります。しかし、なぜ言語モデルの事前トレーニングが文脈學(xué)習(xí)を促すのか、また文脈學(xué)習(xí)が微調(diào)整とは大きく異なる動(dòng)作をする理由については、ほとんど研究が行われていません。

気になるのは初代GPT-3の強(qiáng)さです。

実際には、オリジナルの GPT-3 (OpenAI API では davinci と呼ばれます) が「強(qiáng)い」のか「弱い」のかを判斷するのは困難です。

一方で、特定のクエリに合理的に応答し、多くのデータセットで適切なパフォーマンスを達(dá)成します;

一方では、多くのタスクでは、T5 のような小型モデルよりもパフォーマンスが悪くなります (元の論文を參照)。

今日 (2022 年 12 月) の ChatGPT 標(biāo)準(zhǔn)では、第 1 世代の GPT-3 が「インテリジェント」であると言うのは困難です。 Meta のオープンソース OPT モデルは、オリジナルの GPT-3 を複製しようとしていますが、その機(jī)能は今日の標(biāo)準(zhǔn)とは著しく対照的です。 OPT をテストした多くの人も、現(xiàn)在の text-davinci-002 と比較すると、このモデルは確かに「それほど良くない」と考えています。

それにもかかわらず、OPT は、オリジナルの GPT-3 を近似したオープンソースとして十分に優(yōu)れたものである可能性があります (OPT の論文とスタンフォード大學(xué)の HELM 評(píng)価によると)。

第一世代 GPT-3 は一見弱いように見えますが、その後の実験により、第一世代 GPT-3 には非常に強(qiáng)力な可能性があることが証明されました。これらの可能性は、後にコード トレーニング、命令チューニング、ヒューマン フィードバックによる強(qiáng)化學(xué)習(xí) (RLHF) によって解き放たれ、最終的な本體は非常に強(qiáng)力な創(chuàng)発機(jī)能を?qū)g証しました。

2. GPT-3 の 2020 バージョンから ChatGPT の 2022 バージョンへ

OpenAI がどのように発展したかを示すために、オリジナルの GPT-3 から始めます。 ChatGPT を見てみましょう GPT-3.5 の進(jìn)化ツリーを見てみましょう:

ChatGPT が突然非常に強(qiáng)力になったのはなぜですか?中國人醫(yī)師による 10,000 ワードの長い記事が GPT-3.5 機(jī)能の起源を深く解剖

2020 年 7 月に、OpenAI は davinci の第一世代 GPT をリリースしました。 -3紙のモデルインデックスを搭載して以來、進(jìn)化を続けています。

2021 年 7 月に、Codex 論文がリリースされました。この論文では、初期の Codex が (おそらく內(nèi)部の) 120 億パラメータの GPT-3 バリアントに基づいて微調(diào)整されました。この 120 億パラメータ モデルは、後に OpenAI API の code-cushman-001 に進(jìn)化しました。

2022 年 3 月に、OpenAI は命令チューニングに関する論文をリリースしました。その教師あり命令チューニング部分は、davinci-instruct-beta および text-davinci-001 に対応します。

2022 年 4 月から 7 月にかけて、OpenAI は Code-davinci-002 モデル (Codex とも呼ばれる) のベータ テストを開始しました。次に、code-davinci-002、text-davinci-003、および ChatGPT はすべて、code-davinci-002 からの命令を微調(diào)整することによって取得されます。詳細(xì)については、OpenAI のモデル インデックスのドキュメントを參照してください。

Codex はコードのみのモデルのように聞こえますが、code-davinci-002 はおそらく自然言語にとって最も強(qiáng)力な GPT-3.5 バリアントです (text-davinci-002 および -003 よりも優(yōu)れています)。 )。 code-davinci-002 はテキストとコードの両方でトレーニングされ、指示 (以下で説明) に基づいて適応された可能性があります。

次に、2022 年 5 月から 6 月にリリースされた text-davinci-002 は、code-davinci-002 に基づいた教師あり命令調(diào)整モデルです。 text-davinci-002 の命令を微調(diào)整すると、モデルのコンテキスト學(xué)習(xí)能力は低下する可能性がありますが、モデルのゼロショット能力は強(qiáng)化されます (後述)。

次に、2022 年 11 月にリリースされた text-davinci-003 と ChatGPT があり、これらはヒューマン フィードバックに基づく強(qiáng)化學(xué)習(xí) (ヒューマン フィードバックからの強(qiáng)化學(xué)習(xí)による命令チューニング) モデルのバージョンです。2 つの異なるバリエーションです。

text-davinci-003 は、text-davinci-002 で失われた部分的なコンテキスト學(xué)習(xí)機(jī)能の一部を復(fù)元します (ただし、それでも code-davinci-002 より劣ります)。 (微調(diào)整中に言語モデリングが混合されました)、ゼロサンプル機(jī)能がさらに改善されました (RLHF のおかげで)。一方、ChatGPT は、會(huì)話履歴をモデル化する機(jī)能のために、ほぼすべてのコンテキスト學(xué)習(xí)機(jī)能を犠牲にしているようです。

全體として、code-davinci-002 より前の 2020 年から 2021 年にかけて、OpenAI はコード トレーニングと命令の微調(diào)整を通じて GPT-3 を強(qiáng)化することに多大な労力を投資してきました。 code-davinci-002 が完成するまでに、すべての機(jī)能がすでに備わっていました。その後の命令の微調(diào)整では、教師ありバージョンまたは強(qiáng)化學(xué)習(xí)バージョンのどちらを使用しても、次のことが行われる可能性があります (これについては後で詳しく説明します):

  • 命令の微調(diào)整新しい機(jī)能 (既存のすべての機(jī)能) がモデルに挿入されます。コマンドナッジの役割は、これらの能力のロックを解除/アクティブ化することです。これは主に、命令微調(diào)整のデータ量が事前トレーニング データ量よりも數(shù)桁少ないためです (基本的な機(jī)能は事前トレーニングによって注入されます)。
  • コマンドの微調(diào)整により、GPT-3.5 をさまざまなスキル ツリーに區(qū)別します。 text-davinci-003 のように文脈學(xué)習(xí)に優(yōu)れたものもあれば、ChatGPT のように會(huì)話に優(yōu)れたものもあります。
  • 命令を微調(diào)整すると、人間による調(diào)整のためのパフォーマンスが犠牲になります。 OpenAI の作成者は、命令の微調(diào)整に関する論文の中でこれを「調(diào)整稅」と呼んでいます。

    多くの論文では、code-davinci-002 がベンチマークで最高のパフォーマンスを達(dá)成すると報(bào)告しています (ただし、モデルは必ずしも人間の期待と一致するとは限りません)。 code-davinci-002 の命令を微調(diào)整した後、モデルは、次のような、人間の期待により沿った (またはモデルが人間と一致した) フィードバックを生成できます。 ゼロサンプルの質(zhì)問と回答、安全で公平なメッセージの生成対話応答、およびモデルの知識(shí)の範(fàn)囲を超えた拒否が問題です。

3. Code-Davinci-002 と Text-Davinci-002、コードをトレーニングし、命令を微調(diào)整します

code-davinci- 002 text-davinci-002 より前には、davinci-instruct-beta と text-davinci-001 という 2 つの中間モデルがありました。どちらも上記の 2-002 モデルよりも多くの點(diǎn)で劣っています (たとえば、text-davinci-001 の連鎖思考推論能力は強(qiáng)力ではありません)。

そこで、このセクションでは -002 モデルに焦點(diǎn)を當(dāng)てます。

3.1 複雑な推論能力と新しいタスクに一般化する能力の源

code-davinci-002 と text-davinci-002、この 2 つに焦點(diǎn)を當(dāng)てます。兄弟は GPT3.5 モデルの最初のバージョンで、1 つはコード用、もう 1 つはテキスト用です。これらは、元の GPT-3 とは異なる 3 つの重要な機(jī)能を備えています:

  • 人間のコマンドに応答します:以前の GPT-3 の出力は次のとおりでした。主にトレーニングセットの一般的な文。このモデルは、指示/手がかりの言葉に対して、(関連性はあるが役に立たない文ではなく) より合理的な回答を生成するようになりました。
  • 目に見えないタスクへの一般化: モデルの調(diào)整に使用される命令の數(shù)が一定の規(guī)模を超えると、モデルはこれまでに見たことのないタスクを自動(dòng)的に実行できます。新しいコマンドに対して有効な回答を生成することもできます。ユーザーは常に新しい質(zhì)問をし、モデルはそれらに答えることができる必要があるため、この機(jī)能はオンライン展開にとって非常に重要です。
  • コード生成とコード理解: モデルはコードでトレーニングされているため、この機(jī)能は明らかです。
  • 複雑な推論に思考連鎖を使用する: 第一世代 GPT3 のモデルには、思考連鎖推論機(jī)能がほとんど、またはまったくありませんでした。 code-davinci-002 と text-davinci-002 は、十分に強(qiáng)力な思考連鎖推論機(jī)能を備えた 2 つのモデルです。
  • #思考連鎖推論は、創(chuàng)発的な能力を解放し、スケーリングの法則を超越するための鍵となる可能性があるため、重要です。

これらの能力はどこから來たのでしょうか?

以前のモデルと比較した場(chǎng)合、主な違いは命令の微調(diào)整とコード トレーニングの 2 つです。具體的には: ######

  • 人間のコマンドに応答する能力は、コマンドの微調(diào)整の直接的な成果です。
  • 目に見えない命令に応答する一般化能力は、命令の數(shù)が一定のレベルを超えると自動(dòng)的に現(xiàn)れます。T0、Flan、および FlanPaLM の論文はこれをさらに証明しています。
  • #複雑な推論に思考連鎖を使用する能力は、コーディング トレーニングの魔法の副産物である可能性があります。 これに関して、いくつかの裏付けとして次の事実があります:
  • 元の GPT-3 はコードを書くように訓(xùn)練されておらず、思考することもできませんでした。鎖。
  • text-davinci-001 モデルは、指示によって微調(diào)整されていますが、思考連鎖に関する論文の最初のバージョンでは、他の思考連鎖について推論する能力が非常に弱いと報(bào)告されています。 ——つまり、指示は微調(diào)整されています 思考連鎖が存在する理由ではないかもしれませんが、モデルが思考連鎖推論を?qū)g行できる最も可能性の高い理由はコード トレーニングです。
  • PaLM には 5% のコード トレーニング データがあり、思考連鎖を行うことができます。
  • Codex 論文のコードデータ量は 159G で、これは第 1 世代 GPT-3 の學(xué)習(xí)データ 5,700 億の約 28% に相當(dāng)します。 code-davinci-002 とその後続の亜種は、思考連鎖推論を行うことができます。
  • HELM テストでは、Liang et al. (2022) がさまざまなモデルの大規(guī)模評(píng)価を?qū)g施しました。彼らは、コードでトレーニングされたモデルが、120 億のパラメーター code-cushman-001 を含む強(qiáng)力な言語推論機(jī)能を備えていることを発見しました。
  • AI2 に関する私たちの取り組みでは、複雑な思考連鎖を備えた場(chǎng)合、code-davinci-002 が現(xiàn)在、GSM8K などの重要な數(shù)學(xué)的ベンチマークで最高のパフォーマンスを発揮するモデルであることも示しています。
  • 直観的には、手続き指向プログラミングは人間がタスクを段階的に解決するプロセスに非常に似ており、オブジェクト指向プログラミングは人間が複雑なタスクを段階的に解決するプロセスに似ています。単純なタスクに分割するプロセスも同様です。
  • 上記の観察はすべて、コードと推論能力/思考連鎖の間の相関関係ですが、必ずしも因果関係があるわけではありません。この相関関係は興味深いものですが、現(xiàn)時(shí)點(diǎn)では研究すべき未解決の問題です?,F(xiàn)時(shí)點(diǎn)では、コードが思考連鎖や複雑な推論の原因であるという決定的な証拠はありません。
  • さらに、ピーター?リュー氏が指摘したように、コード トレーニングのもう 1 つの副産物として考えられるのは、長距離依存関係です?!秆哉Zにおける次の単語の予測(cè)は通常、非常にローカルであり、コードは通常、長い依存関係では、左括弧と右括弧の一致や、離れた関數(shù)定義の參照などが行われます。 ここでさらに付け加えたいのは、オブジェクト指向プログラミングにおけるクラス継承により、コードはコーディング階層を確立するモデルの機(jī)能にも寄與する可能性があるということです。この仮説の検証は今後の作業(yè)に委ねます。

細(xì)部の違いにも注意してください:

  • #text-davinci-002 は code-davinci-002 と同じです
    ##Code-davinci- 002 基本モデル text-davinci-002 は、命令微調(diào)整 code-davinci-002 の成果です (OpenAI ドキュメントを參照)。これは、次のデータに基づいて微調(diào)整されます: (1) 人間が注釈を付けた指示と期待される出力、(2) 人間のアノテーターが選択したモデル出力。
  • コンテキスト內(nèi)の例がある場(chǎng)合、Code-davinci-002 はコンテキスト學(xué)習(xí)で優(yōu)れていますが、コンテキストの例がない / サンプルがゼロの場(chǎng)合は、text-davinci-002 の方がパフォーマンスが優(yōu)れています。ゼロショットタスクの完了。この意味で、text-davinci-002 は人間の期待により沿っています (タスクのコンテキストに応じた例を書くのは面倒な場(chǎng)合があるため)。
  • OpenAI がゼロサンプル機(jī)能と引き換えにコンテキスト學(xué)習(xí)の能力を意図的に犠牲にしたとは考えにくく、コンテキスト學(xué)習(xí)の機(jī)能の低下はむしろ命令學(xué)習(xí)の副作用です。これは調(diào)整稅です。
  • 001 モデル (code-cushman-001 および text-davinci-001) vs. 002 モデル (code-davinci-002 および text-davinci-) 002)
    001 モデルは主に純粋なコード/純粋なテキスト タスク用です。002 モデルは、コード トレーニングと命令の微調(diào)整、コードと任意の機(jī)能を深く統(tǒng)合します。テキストで十分です。
  • Code-davinci-002 は、コード トレーニングと命令の微調(diào)整を深く統(tǒng)合した最初のモデルとなる可能性があります。その証拠は、code-cushman-001 は推論を?qū)g行できますが、プレーン テキストでは良好なパフォーマンスを発揮しないこと、text-davinci-001 はプレーン テキストでは良好なパフォーマンスを発揮しますが、推論が苦手であることです。 code-davinci-002 は両方を同時(shí)に実行できます。
  • 3.2 これらの機(jī)能は事前トレーニング後にすでに存在していますか、それとも微調(diào)整によって後で挿入されるのでしょうか?

この段階で、命令の微調(diào)整とコード トレーニングの重要な役割を特定しました。重要な問題は、コードのトレーニングと命令の微調(diào)整の影響をさらに分析する方法です。

具體的には:

上記の 3 つの能力はオリジナルの GPT-3 にすでに存在しており、指示とコード トレーニングを通じてのみトリガー/ロック解除されますか?それとも、これらの機(jī)能はオリジナルの GPT-3 には存在せず、命令とコードのトレーニングによって導(dǎo)入されたのでしょうか?

答えがすでにオリジナルの GPT-3 にある場(chǎng)合、これらの機(jī)能も OPT にあるはずです。したがって、これらの機(jī)能を再現(xiàn)するには、命令とコードを通じて OPT を直接調(diào)整できる可能性があります。

ただし、code-davinci-002 はオリジナルの GPT-3 davinci に基づいておらず、オリジナルの GPT-3 よりも大きなモデルに基づいている可能性があります。この場(chǎng)合、OPT を調(diào)整しても再現(xiàn)できない可能性があります。

研究コミュニティは、OpenAI が code-davinci-002 のベース モデルとしてどのような種類のモデルをトレーニングしたのかをさらに明確にする必要があります。

次の仮説と証拠があります:

  • code-davinci-002 のベース モデルは、第一世代 GPT-3 davinci モデルではない可能性があります。
  • 元の GPT-3 はデータセット C4 2016-2019 でトレーニングされましたが、code-davinci-002 トレーニング セットは 2021 まで拡張されました終わったばかりです。したがって、code-davinci-002 は 2019 ~ 2021 バージョンの C4 でトレーニングされている可能性があります。
  • オリジナルの GPT-3 には 2048 ワードのコンテキスト ウィンドウがありました。 code-davinci-002 のコンテキスト ウィンドウは 8192 です。 GPT シリーズは絶対位置埋め込みを使用します。トレーニングなしで絶対位置埋め込みを直接外挿することは困難であり、モデルのパフォーマンスに重大な損害を與えます (Press et al., 2022 を參照)。 code-davinci-002 がオリジナルの GPT-3 に基づいている場(chǎng)合、OpenAI はコンテキスト ウィンドウをどのように拡張しますか?
  • 一方、ベース モデルがオリジナルの GPT-3 であっても、後でトレーニングされたモデルであっても、指示に従う能力とゼロ-ショットの一般化は、ベース モデルにすでに存在しており、(挿入されるのではなく) コマンドの調(diào)整によって後でロック解除される可能性があります。
  • これは主に、OpenAI の論文で報(bào)告されている命令データのサイズがわずか 77K であり、以前のデータよりも數(shù)桁小さいためです。 -トレーニングデータ。
  • 他の命令微調(diào)整に関する論文では、データ セット サイズがモデルのパフォーマンスに及ぼすコントラストをさらに証明しています。たとえば、Chung et al. (2022) の研究では、命令微調(diào)整Flan-PaLM の は事前トレーニングのみであり、0.4% と計(jì)算されます。一般に、指導(dǎo)データはトレーニング前のデータよりも大幅に少なくなります。
  • # ただし、モデルの複雑な推論機(jī)能は、トレーニング前の段階でコード データの挿入を通じて行われる場(chǎng)合があります。
  • #コード データ セットのサイズは、上記の命令微調(diào)整の場(chǎng)合とは異なります。ここでのコード データの量は、トレーニング データのかなりの部分を占めるのに十分な量です (たとえば、PaLM にはコード トレーニング データの 8% が??あります)
  • 前述のように、コードの前に-davinci-002 モデル text-davinci-001 は、おそらくコード データで微調(diào)整されていないため、思考チェーンの論文の最初のバージョンで報(bào)告されているように、推論/思考チェーンの機(jī)能が非常に貧弱で、場(chǎng)合によっては、パラメータ サイズ code-cushman-001 悪くありません。
  • おそらく、コード トレーニングと命令の微調(diào)整の効果を區(qū)別する最良の方法は、code-cushman-001、T5、および FlanT5 を比較することです。 。
  • 両者は同様のモデル サイズ (110 億と 120 億) と同様のトレーニング データ セット (C4) を持っているため、最大の違いはトレーニングしたかどうかです。コードについて/命令の微調(diào)整は行いましたか?
  • 現(xiàn)時(shí)點(diǎn)ではそのような比較はありません。これについては今後の研究に委ねます。
4. text-davinci-003 と ChatGPT、ヒューマン フィードバックからの強(qiáng)化學(xué)習(xí) (RLHF) の力

は現(xiàn)在段階中 (2022 年 12 月)、 text-davinci-002、text-davinci-003、ChatGPT の間には厳密な統(tǒng)計(jì)的比較はほとんどありません。主な理由は次のとおりです。

    #text-davinci-003 と ChatGPT が以下より小さい執(zhí)筆時(shí)點(diǎn)で生後1か月。
  • ChatGPT は OpenAI API を通じて呼び出すことができないため、標(biāo)準(zhǔn)のベンチマークでテストするのは面倒です。
したがって、これらのモデル間の比較は、研究コミュニティの集合的な経験に基づいています (統(tǒng)計(jì)的にはそれほど厳密ではありません)。しかし、私たちは、予備的な記述的比較によってモデルのメカニズムを解明できると信じています。

最初に、text-davinci-002、text-davinci-003、ChatGPT 間の次の比較に注目します。

    3 つすべてモデルはコマンドに応じて微調(diào)整されています。
  • text-davinci-002 は、教師あり命令チューニングで微調(diào)整されたモデルです。
  • text-davinci-003 と ChatGPT は、ヒューマン フィードバック RLHF からの強(qiáng)化學(xué)習(xí)による命令チューニングです。これがそれらの最も重要な違いです。
これは、ほとんどの新しいモデルの動(dòng)作が RLHF の影響によるものであることを意味します。

それでは、RLHF トリガーの機(jī)能を見てみましょう:

  • 有益な回答: text-davinci-003 の生成は通常、 text-davinci-002 長いです。 ChatGPT の応答はより長いため、より簡潔な応答を得るには、ユーザーは明示的に「一文で答えてください」と尋ねる必要があります。これは RLHF から直接派生したものです。
  • 公正な応答: ChatGPT は通常、政治的な出來事など、複數(shù)の主體の利益が関係する出來事に対して、非常にバランスのとれた回答を返します。こちらもRLHFの製品です。
  • 不適切な拒否の問題: これは、コンテンツ フィルターと、RLHF によってトリガーされるモデル自體の機(jī)能の組み合わせであり、フィルターは一部をフィルターしてからモデルを除外します。一部を拒否します。
  • 知識(shí)の範(fàn)囲外の質(zhì)問を拒否します: たとえば、2021 年 6 月以降に発生した新しいイベントを拒否します (それ以降はデータに含まれないため)。訓(xùn)練を受けています)。これは RLHF の最も驚くべき部分で、どの問題が知識(shí)の範(fàn)囲內(nèi)にあり、どの問題が知識(shí)の範(fàn)囲外であるかをモデルが暗黙的に區(qū)別できるようになります。

注目に値する 2 つの點(diǎn)があります:

  • すべての機(jī)能はモデルに固有のものであり、RLHF 経由で注入されるものではありません。 RLHF が行うことは、新たな能力をトリガー/アンロックすることです。この議論は主にデータ サイズの比較から來ています。事前トレーニングされたデータの量と比較して、RLHF が消費(fèi)する計(jì)算能力/データははるかに少なくなります。
  • モデルは、ルールを記述することによってではなく、RLHF を通じてロックを解除することによって、何がわからないかを知っています。 RLHF の本來の目的は人間の期待を複雑にする応答をモデルに生成させることであり、モデルが何を知らないかをモデルに知らせることよりも、モデルに安全な文を生成させることであったため、これは非常に驚くべき発見です。

舞臺(tái)裏で何が起こっているのか:

  • ChatGPT: コンテキストを?qū)W習(xí)する能力を犠牲にして、會(huì)話履歴をモデル化する能力。 ChatGPT は text-davinci-003 ほどコンテキスト プレゼンテーションの影響を強(qiáng)く受けないようであるため、これは経験的な観察です。
  • text-davinci-003: text-davinci-002 によって犠牲になったコンテキスト學(xué)習(xí)能力を回復(fù)し、ゼロサンプル能力を向上させます。 instructGPT の論文によると、これは (RLHF 自體ではなく) 言語モデリングの目的と混合された強(qiáng)化學(xué)習(xí)の調(diào)整段階から來ています。

5. 現(xiàn)段階での GPT-3.5 の進(jìn)化プロセスの概要

これまでのところ、私たちは GPT-3.5 で登場(chǎng)したすべての機(jī)能を注意深く検討してきました。次の表は、進(jìn)化の経路をまとめたものです:

ChatGPT が突然非常に強(qiáng)力になったのはなぜですか?中國人醫(yī)師による 10,000 ワードの長い記事が GPT-3.5 機(jī)能の起源を深く解剖

結(jié)論は次のとおりです:

  • 言語生成能力、基本的な世界知識(shí)、文脈學(xué)習(xí)はすべて事前トレーニング (davinci) から得られます。
  • 大量の知識(shí)を保存できる機(jī)能は、1,750 億個(gè)のパラメーターによってもたらされます。
  • 指示に従い、新しいタスクに一般化する能力は、指示學(xué)習(xí) (Davinci-instruct-beta) の指示の數(shù)を増やすことで得られます。
  • 複雑な推論を?qū)g行する能力は、コード トレーニング (code-davinci-002) によって得られると考えられます。
  • 中立的、客観的、安全で有益な回答を生成する能力は、人間との調(diào)整から生ま??れます。具體的には:
  • 教師あり學(xué)習(xí)バージョンの場(chǎng)合、結(jié)果のモデルは text-davinci-002 になります。
  • 強(qiáng)化學(xué)習(xí)版(RLHF)の場(chǎng)合、取得されるモデルはtext-davinci-003となります。
  • 教師ありであろうと RLHF であろうと、モデルのパフォーマンスは多くのタスクで code-davinci-002 を超えることはできません。このアライメントによるパフォーマンス低下の現(xiàn)象は、アライメント タックスと呼ばれます。
  • #対話能力も RLHF (ChatGPT) から來ています。具體的には、次のことと引き換えにコンテキスト學(xué)習(xí)の能力が犠牲になります。
# モデルの會(huì)話履歴。
  • ダイアログの情報(bào)量を増やします。
  • モデルの知識(shí)の範(fàn)囲外の質(zhì)問は拒否してください。
  • 6. GPT-3.5 で現(xiàn)在できないこと

GPT-3.5 は自然言語処理研究における重要なステップですが、すべてが完全に含まれているわけではありません。多くの研究者 (AI2 を含む) によって想定されている望ましい特性。 GPT-3.5 にはない重要なプロパティをいくつか以下に示します:

  • モデルの信念をリアルタイムで書き換えます: モデルが何かについての信念を表現(xiàn)するとき、その信念が間違っている場(chǎng)合、それを修正するのに苦労する可能性があります:
  • 私が最近遭遇した例は次のとおりです。ChatGPT は、3599 = 59 * 61 を認(rèn)めているにもかかわらず、3599 が素?cái)?shù)であると主張します。また、この Reddit の最も速く泳ぐ海洋哺乳類の例もご覧ください。
  • ただし、モデルの信念にはさまざまなレベルの強(qiáng)さがあるようです。一例として、ダース?ベイダー (スター?ウォーズ映畫のキャラクター) が 2020 年の選挙で勝ったと伝えたとしても、モデルは依然として現(xiàn)在の米國大統(tǒng)領(lǐng)がバイデンであると考えるでしょう。しかし、選挙の年を 2024 年に変更すると、大統(tǒng)領(lǐng)はダース?ベイダーであり、2026 年に大統(tǒng)領(lǐng)になると考えられます。
  • 形式推論: GPT-3.5 シリーズは、數(shù)學(xué)や一次論理などの厳密に形式的なシステムでは推論できません:
  • #自然言語処理の文獻(xiàn)では、「推論」という言葉の定義が明確でないことがよくあります。しかし、曖昧さの観點(diǎn)から見てみると、たとえば、いくつかの質(zhì)問は (a) 非常に曖昧で根拠がありません; (b) 多少の論理はありますが、場(chǎng)所によっては曖昧である可能性もあります; ( c) 非常に厳密であり、曖昧さがあってはなりません。
  • その後、モデルは (b) あいまいさのあるタイプの推論をうまく実行できます。例は次のとおりです:
  • Generate豆腐麺の作り方。豆腐パフを作るときは、塩味にするか甘くするかなど、多少曖昧な工程が多くても大丈夫です。全體的な手順がおおよそ正しければ、豆腐は食べられます。
  • 數(shù)學(xué)の定理を証明するためのアイデア。証明のアイデアは言語で表現(xiàn)された非公式な段階的な解決策であり、各ステップの厳密な導(dǎo)出はあまり具體的である必要はありません。証明のアイデアは數(shù)學(xué)の指導(dǎo)でよく使用されます。教師が全體的な手順を大まかに正確に示している限り、生徒はそれを大まかに理解できます。そして教師は特定の証明の詳細(xì)を生徒に宿題として課し、答えは省略されます。
  • GPT-3.5 タイプ (c) の推論は不可能です (推論は曖昧さを許容できません)。
  • #例は厳密な數(shù)學(xué)的証明であり、中間ステップをスキップしたり、ぼやけたり、間違ったりすることができないことが必要です。
  • しかし、この種の厳密な推論を言語モデルによって行うべきか、それとも記號(hào)システムによって行うべきかについては、まだ議論の余地があります。一例として、GPT に 3 桁の加算を?qū)g行させる代わりに、Python を呼び出すだけです。
  • インターネットからの検索: GPT-3.5 シリーズは (一時(shí)的に) インターネットを直接検索できません。
  • #しかし、2021 年 12 月に公開された WebGPT 論文があり、GPT が検索エンジンを呼び出すことができるようになりました。そのため、検索機(jī)能は OpenAI 內(nèi)でテストされました。
  • ここで區(qū)別する必要がある點(diǎn)は、GPT-3.5 の 2 つの重要だが異なる機(jī)能は知識(shí)と推論であるということです。一般的に言えば、知識(shí)部分を外部の検索システムにオフロードして、言語モデルが推論のみに焦點(diǎn)を當(dāng)てられるようにできれば素晴らしいでしょう。
  • #モデルの內(nèi)部知識(shí)は、常にある時(shí)點(diǎn)で遮斷されるからです。モデルには、最新の質(zhì)問に答えるために常に最新の知識(shí)が必要です。
  • 1,750 億のパラメータが知識(shí)を保存するために頻繁に使用されていることを説明したことを思い出してください。知識(shí)をモデルの外にオフロードできれば、モデルのパラメーターを大幅に削減でき、最終的には攜帯電話でも実行できるようになります (突飛なアイデアですが、ChatGPT は十分に SF です。將來がどうなるかは誰にも分かりません)。

7. 結(jié)論

このブログ投稿では、GPT-3.5 シリーズのさまざまな機(jī)能を注意深く調(diào)査し、そのすべての新機(jī)能の起源を追跡しました。能力のソース。

元の GPT-3 モデルは、事前トレーニングを通じて生成機(jī)能、世界の知識(shí)、コンテキスト內(nèi)學(xué)習(xí)を獲得しました。その後、命令チューニングのモデル ブランチを通じて、命令に従い、目に見えないタスクに一般化する能力を獲得しました。コードによってトレーニングされたブランチ モデルはコードを理解する能力を獲得し、コード トレーニングの副産物として、モデルは潛在的に複雑な推論を?qū)g行する能力も獲得します。

これら 2 つのブランチを組み合わせると、code-davinci-002 は、すべての優(yōu)れた機(jī)能を備えた最強(qiáng)の GPT-3.5 モデルのように見えます。次に、教師あり命令チューニングと RLHF を通じて、人間による調(diào)整、つまり調(diào)整稅と引き換えにモデルの機(jī)能が犠牲になります。 RLHF を使用すると、モデルは知識(shí)範(fàn)囲外の質(zhì)問を拒否しながら、より有益で偏りのない回答を生成できます。

この記事が GPT 評(píng)価の明確な全體像を提供し、言語モデル、命令チューニング、コード チューニングに関する議論のきっかけになれば幸いです。最も重要なことは、この記事がオープンソース コミュニティ內(nèi)で GPT-3.5 を再現(xiàn)するためのロードマップとして機(jī)能することを願(yuàn)っています。

FAQ

  • この記事の記述は仮説に近いものですか、それとも結(jié)論に近いものですか?
  • #コード トレーニングから複雑な推論を行う能力は、私たちが信じがちな思い込みです。
  • 目に見えないタスクを一般化する能力は大規(guī)模な指導(dǎo)學(xué)習(xí)から得られる、というのが少なくとも 4 つの論文の結(jié)論です。
  • GPT-3.5 は 1,750 億パラメータの GPT-3 ではなく、他の大規(guī)模な基本モデルに由來しているというのが経験に基づいた推測(cè)です。
  • これらの機(jī)能はすべてすでに存在しており、教師あり學(xué)習(xí)であろうと強(qiáng)化學(xué)習(xí)であろうと、これらの機(jī)能を注入するのではなく、命令のチューニングを通じてこれらの機(jī)能を解放することが強(qiáng)く想定されています。それ。その主な理由は、命令チューニング データの量が事前トレーニング データの量よりも數(shù)桁少ないためです。
  • 結(jié)論 = これらの主張の正當(dāng)性を裏付ける多くの証拠; 仮説 = 肯定的な証拠だが十分強(qiáng)力ではない; 経験に基づいた推測(cè) = 確かな証拠はないが、いくつかの要素はその方向を示している
  • OPT や BLOOM などの他のモデルがそれほど強(qiáng)力ではないのはなぜですか?
  • OPT はおそらくトレーニング プロセスが不安定すぎるためです。
  • BLOOMの狀況は不明です。

以上がChatGPT が突然非常に強(qiáng)力になったのはなぜですか?中國人醫(yī)師による 10,000 ワードの長い記事が GPT-3.5 機(jī)能の起源を深く解剖の詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國語 Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明
この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見つけた場(chǎng)合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脫衣畫像を無料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中國語版

SublimeText3 中國語版

中國語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強(qiáng)力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

ChatGPT では、無料ユーザーが 1 日あたりの制限付きで DALL-E 3 を使用して畫像を生成できるようになりました ChatGPT では、無料ユーザーが 1 日あたりの制限付きで DALL-E 3 を使用して畫像を生成できるようになりました Aug 09, 2024 pm 09:37 PM

DALL-E 3は、前モデルより大幅に改良されたモデルとして2023年9月に正式導(dǎo)入されました。これは、複雑な詳細(xì)を含む畫像を作成できる、これまでで最高の AI 畫像ジェネレーターの 1 つと考えられています。ただし、発売當(dāng)初は対象外でした

攜帯電話にchatgptをインストールする方法 攜帯電話にchatgptをインストールする方法 Mar 05, 2024 pm 02:31 PM

インストール手順: 1. ChatGTP ソフトウェアを ChatGTP 公式 Web サイトまたはモバイル ストアからダウンロードします; 2. それを開いた後、設(shè)定インターフェイスで言語を中國語を選択します; 3. ゲーム インターフェイスでヒューマン マシン ゲームを選択し、中國スペクトル; 4 . 起動(dòng)後、チャット ウィンドウにコマンドを入力してソフトウェアを操作します。

ChatGPT と Python の完璧な組み合わせ: インテリジェントな顧客サービス チャットボットの作成 ChatGPT と Python の完璧な組み合わせ: インテリジェントな顧客サービス チャットボットの作成 Oct 27, 2023 pm 06:00 PM

ChatGPT と Python の完璧な組み合わせ: インテリジェント カスタマー サービス チャットボットの作成 はじめに: 今日の情報(bào)化時(shí)代において、インテリジェント カスタマー サービス システムは企業(yè)と顧客の間の重要なコミュニケーション ツールとなっています。より良い顧客サービス體験を提供するために、多くの企業(yè)が顧客相談や質(zhì)問応答などのタスクを完了するためにチャットボットに注目し始めています。この記事では、OpenAI の強(qiáng)力なモデル ChatGPT と Python 言語を使用して、インテリジェントな顧客サービス チャットボットを作成し、顧客サービスを向上させる方法を紹介します。

ChatGPT と Java を使用してインテリジェントなチャットボットを開発する方法 ChatGPT と Java を使用してインテリジェントなチャットボットを開発する方法 Oct 28, 2023 am 08:54 AM

この記事では、ChatGPT と Java を使用してインテリジェントなチャットボットを開発する方法を紹介し、いくつかの具體的なコード例を示します。 ChatGPT は、OpenAI によって開発された生成事前トレーニング トランスフォーマーの最新バージョンです。これは、自然言語を理解し、人間のようなテキストを生成できるニューラル ネットワーク ベースの人工知能テクノロジーです。 ChatGPT を使用すると、適応型チャットを簡単に作成できます

ChatGPT PHP を使用してインテリジェントな顧客サービス ロボットを構(gòu)築する方法 ChatGPT PHP を使用してインテリジェントな顧客サービス ロボットを構(gòu)築する方法 Oct 28, 2023 am 09:34 AM

ChatGPTPHP を使用してインテリジェントな顧客サービス ロボットを構(gòu)築する方法 はじめに: 人工知能技術(shù)の発展に伴い、顧客サービスの分野でロボットの使用が増えています。 ChatGPTPHP を使用してインテリジェントな顧客サービス ロボットを構(gòu)築すると、企業(yè)はより効率的でパーソナライズされた顧客サービスを提供できるようになります。この記事では、ChatGPTPHP を使用してインテリジェントな顧客サービス ロボットを構(gòu)築する方法を紹介し、具體的なコード例を示します。 1. ChatGPTPHP をインストールし、ChatGPTPHP を使用してインテリジェントな顧客サービス ロボットを構(gòu)築します。

ChatGPT と Python の完璧な組み合わせ: リアルタイム チャットボットの構(gòu)築 ChatGPT と Python の完璧な組み合わせ: リアルタイム チャットボットの構(gòu)築 Oct 28, 2023 am 08:37 AM

ChatGPT と Python の完璧な組み合わせ: リアルタイム チャットボットの構(gòu)築 はじめに: 人工知能技術(shù)の急速な発展に伴い、チャットボットはさまざまな分野でますます重要な役割を果たしています。チャットボットは、ユーザーが即時(shí)にパーソナライズされた支援を提供できると同時(shí)に、企業(yè)に効率的な顧客サービスを提供するのに役立ちます。この記事では、OpenAI の ChatGPT モデルと Python 言語を使用してリアルタイム チャット ロボットを作成する方法と、具體的なコード例を紹介します。 1.チャットGPT

中國でもchatgptは使えますか? 中國でもchatgptは使えますか? Mar 05, 2024 pm 03:05 PM

chatgpt は中國でも使用できますが、香港やマカオでも登録できません。ユーザーが登録したい場(chǎng)合は、外國の攜帯電話番號(hào)を使用して登録できます。登録プロセス中にネットワーク環(huán)境を切り替える必要があることに注意してください。外國のIP。

専用アプリのリリースにより、ChatGPT が macOS で利用可能になりました 専用アプリのリリースにより、ChatGPT が macOS で利用可能になりました Jun 27, 2024 am 10:05 AM

Open AI の ChatGPT Mac アプリケーションは、ここ數(shù)か月間 ChatGPT Plus サブスクリプションを持つユーザーのみに限定されていましたが、現(xiàn)在は誰でも利用できるようになりました。最新の Apple S を持っている限り、アプリは他のネイティブ Mac アプリと同じようにインストールされます。

See all articles