国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

ホームページ テクノロジー周辺機器 AI Openai'の好みの微調(diào)整:例のあるガイド

Openai'の好みの微調(diào)整:例のあるガイド

Mar 02, 2025 am 09:02 AM

Openaiの好みの微調(diào)整(PFT):LLMをユーザー設(shè)定に合わせるためのガイド

優(yōu)先微調(diào)整(PFT)は、ユーザーの好みを備えた大規(guī)模な言語モデル(LLM)を調(diào)整するための強力な手法です。 OpenAIによって最近導(dǎo)入されたPFTは、モデル出力を形成する方法として、監(jiān)視付き微調(diào)整(SFT)と補強微調(diào)整(RFT)を補完します。この記事では、PFTの簡潔な説明を提供し、Openaiの開発者ダッシュボードを使用してそのアプリケーションを?qū)g証しています。

OpenaiのPFT

を理解しています

特定の入力の特定の出力の生成に焦點を當てたSFTとは異なり、PFTは、望ましくない応答を避けながら、モデルを好ましい応答に導(dǎo)くことを目指しています。 OpenAIのPFTのコアテクニックである直接選好最適化(DPO)は、シンプルでありながら効果的なアライメント方法です。 RLHFとは異なり、DPOは報酬モデルの複雑さをバイパスし、損失関數(shù)を直接最適化します。これにより、実裝が簡素化され、計算効率が向上します

DPOデータセットは、各プロンプトのペア応答で構(gòu)成されています。 OpenaiのPFTの場合、このデータセットは次の構(gòu)造でJSONL形式でなければなりません。

Openaiは、SFTとPFTを組み合わせて最適なアライメントを組み合わせることをお勧めします。 通常、PFTは、教師付きデータセットに最初のSFT後に適用されます。

pft
{
  "input": {
    "messages": [
      {
        "role": "user",
        "content": "Prompt text here"
      }
    ],
    "tools": [],
    "parallel_tool_calls": true
  },
  "preferred_output": [
    {
      "role": "assistant",
      "content": "Preferred response here"
    }
  ],
  "non_preferred_output": [
    {
      "role": "assistant",
      "content": "Non-preferred response here"
    }
  ]
}
のデータセット準備

優(yōu)先データセットを作成するには、LLM出力のペアを生成し(例:異なる溫度設(shè)定を使用する)、別のLLM(理想的にはより強力なもの)を使用して、各ペアを「優(yōu)先」および「非プロファー」とラベル付けすることが含まれます。

このチュートリアルでは、簡略化されたアプローチを使用しています。既存の優(yōu)先データセット(例:

顔から顔から

)をダウンロードし、Pythonスクリプトを使用して最初の50行を再構(gòu)築します。 このスクリプトは、OpenAIのPFTに必要なJSONL形式にデータセットを変換します。

最終的なデータセットがJSONL形式であることを確認し、後続の空の行を削除することを忘れないでください。

OpenaiのPFT argilla/ultrafeedback-binarized-preferencesを?qū)g行しています

データセットの準備ができたら:
# ... (Python code to process and convert the Hugging Face dataset to OpenAI's JSONL format is omitted for brevity but described in the original article) ...

Openaiダッシュボードにアクセスします。

微調(diào)整セクションに移動して、新しい微調(diào)整ジョブを開始します。

微調(diào)整方法として「直接設(shè)定最適化」を選択します

準備されたトレーニングと検証データセット(利用可能な場合)をアップロードします。
  1. OpenAIは、ハイパーパラメーターのカスタマイズを許可します。ただし、システムが最適な設(shè)定を自動的に決定できるようにすることができます。 トレーニング時間はデータセットサイズに依存します
  2. 結(jié)論
  3. DPOを使用しているOpenaiのPFTは、LLMの動作を改良し、ユーザーの好みに合わせて貴重なツールを提供します。 指定されたJSONL形式でデータセットを慎重に準備することにより、OpenAIのインフラストラクチャを活用して、よりカスタマイズされた望ましいモデル応答スタイルを?qū)g現(xiàn)できます。 SFTやRFTを含むOpenAIの微調(diào)整方法に関するさらなるリソースは、元の記事のリンクで入手できます。

以上がOpenai'の好みの微調(diào)整:例のあるガイドの詳細內(nèi)容です。詳細については、PHP 中國語 Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明
この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當する法的責(zé)任を負いません。盜作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脫衣畫像を無料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中國語版

SublimeText3 中國語版

中國語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Kimi K2:最も強力なオープンソースエージェントモデル Kimi K2:最も強力なオープンソースエージェントモデル Jul 12, 2025 am 09:16 AM

今年初めにゲナイ産業(yè)を混亂させたオープンソースの中國モデルの洪水を覚えていますか? Deepseekはほとんどの見出しを取りましたが、Kimi K1.5はリストの著名な名前の1つでした。そして、モデルはとてもクールでした。

Grok 4 vs Claude 4:どちらが良いですか? Grok 4 vs Claude 4:どちらが良いですか? Jul 12, 2025 am 09:37 AM

2025年半ばまでに、AIの「武器競爭」は熱くなり、Xaiと人類は両方ともフラッグシップモデルであるGrok 4とClaude 4をリリースしました。これら2つのモデルは、設(shè)計哲學(xué)と展開プラットフォームの反対側(cè)にありますが、

今日、今日私たちの間を歩いている10の驚くべきヒューマノイドロボット 今日、今日私たちの間を歩いている10の驚くべきヒューマノイドロボット Jul 16, 2025 am 11:12 AM

しかし、おそらく1つを見るのに10年も待つ必要はありません。実際、本當に有用で人間のような機械の最初の波と考えられるものは、すでにここにあります。 近年、多くのプロトタイプと生産モデルがTから抜け出しています

コンテキストエンジニアリングは' new'迅速なエンジニアリング コンテキストエンジニアリングは' new'迅速なエンジニアリング Jul 12, 2025 am 09:33 AM

前年まで、迅速なエンジニアリングは、大規(guī)模な言語モデル(LLMS)と対話するための重要なスキルと見なされていました。しかし、最近、LLMは推論と理解能力を大幅に進めています。當然、私たちの期待

LeiaのImmersityモバイルアプリは、毎日の寫真に3D深さをもたらします LeiaのImmersityモバイルアプリは、毎日の寫真に3D深さをもたらします Jul 09, 2025 am 11:17 AM

レイア獨自のニューラル深度エンジンの上に構(gòu)築されたアプリは、靜止畫像を処理し、シミュレートされた動き(パン、ズーム、視差効果など)とともに自然な深さを追加し、SCEに踏み込む印象を與える短いビデオリールを作成します。

7種類のAIエージェントは何ですか? 7種類のAIエージェントは何ですか? Jul 11, 2025 am 11:08 AM

AIエンジンなど、ミラノからの新しい衣料品コレクションに関する詳細なフィードバックや、世界中で事業(yè)を展開しているビジネスの自動市場分析、または大規(guī)模な車両艦隊を管理するインテリジェントシステムなど、洗練されたものを想像してください。

これらのAIモデルは言語を?qū)Wぶことができず、戦略を?qū)Wびました これらのAIモデルは言語を?qū)Wぶことができず、戦略を?qū)Wびました Jul 09, 2025 am 11:16 AM

キングスカレッジロンドンとオックスフォード大學(xué)の研究者からの新しい研究は、Openai、Google、および人類が反復(fù)囚のジレンマに基づいた激しい鳴き聲競爭で一緒に投げ込まれたときに起こったことの結(jié)果を共有しています。これはノーでした

隠されたコマンド危機:研究者はAIを公開します 隠されたコマンド危機:研究者はAIを公開します Jul 13, 2025 am 11:08 AM

科學(xué)者は、システムをバイパスするための賢いが驚くべき方法を発見しました。 2025年7月は、研究者がアカデミックな提出物に目に見えない指示を挿入した精巧な戦略の発見をマークしました。これらの秘密の指示は尾でした

See all articles