aa级女人大片喷水视频免费,yy6080久久亚洲精品

ホームページ

テクノロジー周辺機器

Openai＆＃x27;の好みの微調(diào)整：例のあるガイド

Joseph Gordon-Levitt

Mar 02, 2025 am 09:02 AM

Openaiの好みの微調(diào)整（PFT）：LLMをユーザー設(shè)定に合わせるためのガイド

優(yōu)先微調(diào)整（PFT）は、ユーザーの好みを備えた大規(guī)模な言語モデル（LLM）を調(diào)整するための強力な手法です。 OpenAIによって最近導(dǎo)入されたPFTは、モデル出力を形成する方法として、監(jiān)視付き微調(diào)整（SFT）と補強微調(diào)整（RFT）を補完します。この記事では、PFTの簡潔な説明を提供し、Openaiの開発者ダッシュボードを使用してそのアプリケーションを?qū)g証しています。

OpenaiのPFT

を理解しています

特定の入力の特定の出力の生成に焦點を當てたSFTとは異なり、PFTは、望ましくない応答を避けながら、モデルを好ましい応答に導(dǎo)くことを目指しています。 OpenAIのPFTのコアテクニックである直接選好最適化（DPO）は、シンプルでありながら効果的なアライメント方法です。 RLHFとは異なり、DPOは報酬モデルの複雑さをバイパスし、損失関數(shù)を直接最適化します。これにより、実裝が簡素化され、計算効率が向上します

DPOデータセットは、各プロンプトのペア応答で構(gòu)成されています。 OpenaiのPFTの場合、このデータセットは次の構(gòu)造でJSONL形式でなければなりません。

Openaiは、SFTとPFTを組み合わせて最適なアライメントを組み合わせることをお勧めします。通常、PFTは、教師付きデータセットに最初のSFT後に適用されます。

pft

{
  "input": {
    "messages": [
      {
        "role": "user",
        "content": "Prompt text here"
      }
    ],
    "tools": [],
    "parallel_tool_calls": true
  },
  "preferred_output": [
    {
      "role": "assistant",
      "content": "Preferred response here"
    }
  ],
  "non_preferred_output": [
    {
      "role": "assistant",
      "content": "Non-preferred response here"
    }
  ]
}

のデータセット準備

優(yōu)先データセットを作成するには、LLM出力のペアを生成し（例：異なる溫度設(shè)定を使用する）、別のLLM（理想的にはより強力なもの）を使用して、各ペアを「優(yōu)先」および「非プロファー」とラベル付けすることが含まれます。

このチュートリアルでは、簡略化されたアプローチを使用しています。既存の優(yōu)先データセット（例：

顔から顔から

）をダウンロードし、Pythonスクリプトを使用して最初の50行を再構(gòu)築します。このスクリプトは、OpenAIのPFTに必要なJSONL形式にデータセットを変換します。

最終的なデータセットがJSONL形式であることを確認し、後続の空の行を削除することを忘れないでください。

OpenaiのPFT argilla/ultrafeedback-binarized-preferencesを?qū)g行しています

データセットの準備ができたら：

# ... (Python code to process and convert the Hugging Face dataset to OpenAI's JSONL format is omitted for brevity but described in the original article) ...

Openaiダッシュボードにアクセスします。

微調(diào)整セクションに移動して、新しい微調(diào)整ジョブを開始します。

微調(diào)整方法として「直接設(shè)定最適化」を選択します

準備されたトレーニングと検証データセット（利用可能な場合）をアップロードします。

OpenAIは、ハイパーパラメーターのカスタマイズを許可します。ただし、システムが最適な設(shè)定を自動的に決定できるようにすることができます。トレーニング時間はデータセットサイズに依存します
DPOを使用しているOpenaiのPFTは、LLMの動作を改良し、ユーザーの好みに合わせて貴重なツールを提供します。指定されたJSONL形式でデータセットを慎重に準備することにより、OpenAIのインフラストラクチャを活用して、よりカスタマイズされた望ましいモデル応答スタイルを?qū)g現(xiàn)できます。 SFTやRFTを含むOpenAIの微調(diào)整方法に関するさらなるリソースは、元の記事のリンクで入手できます。

以上がOpenai＆＃x27;の好みの微調(diào)整：例のあるガイドの詳細內(nèi)容です。詳細については、PHP 中國語 Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明

この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當する法的責(zé)任を負いません。盜作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡(luò)ください。