成人av片无码免费网站,草草网站影院白丝内射,99精品国产高清一区二区麻豆

ホームページ

テクノロジー周辺機(jī)器

Humanval：LLMコード生成機(jī)能を評(píng)価するためのベンチマーク

Joseph Gordon-Levitt

Mar 02, 2025 am 09:47 AM

Humanval：Pass@K

でコード生成を評(píng)価しますこのチュートリアルでは、大規(guī)模な言語(yǔ)モデル（LLM）コード生成機(jī)能を評(píng)価するためのOpenAIベンチマークであるHumanValを探索し、

メトリックに焦點(diǎn)を當(dāng)てています。ハグする顔のエコシステムを使用して、164 Pythonの問(wèn)題でpass@kモデルを評(píng)価します。これは、伝統(tǒng)的なテキストと類似の指標(biāo)とは対照的に、実用的で機(jī)能的な正確性評(píng)価を提供します。 codeparrot-small

HumanEval: A Benchmark for Evaluating LLM Code Generation Capabilities

著者による畫像

パス@k

を理解しています

Humanvalは機(jī)能的正確性アプローチを採(cǎi)用しており、上部の少なくとも1つの生成コードサンプルの少なくとも1つが問(wèn)題を正しく解決する可能性を測(cè)定します。これは、実世界の開発者テストをミラーリングする?yún)g純なテキストマッチングよりも関連性があります。

式は次のとおりです ここで：

pass@k：生成されたサンプルの合計(jì)。

：正しいサンプルの數(shù)。

n：考慮される上部サンプルの數(shù)
式は、cすべての
kkサンプルが正しくないという確率を計(jì)算し、これを1から減算して、少なくとも1つの正しいサンプルの確率を取得します。より高い

と

。を使用します 顔を抱きしめた人間の評(píng)価 このセクションでは、抱きしめられたフェイスのライブラリを使用して評(píng)価プロセスを詳しく説明しています。より速い評(píng)価を得るために、より小さなpass@kモデルを使用します pass@10pass@1001。セットアップ：

必要なライブラリをインストールします：

evaluate codeparrot-small環(huán)境変數(shù)の設(shè)定：

2。データセットとメトリックの読み込み：

pip install evaluate

データセットと

メトリックをロードします：

import os
os.environ["HF_ALLOW_CODE_EVAL"] = "1"
os.environ["TOKENIZERS_PARALLELISM"] = "false"

3。モデルとトークン剤の読み込み：

モデルとトークンザーをロードします：openai_humaneval code_eval

from datasets import load_dataset
from evaluate import load
human_eval = load_dataset("openai_humaneval")['test']
code_eval_metric = load("code_eval")

4。トークン剤の調(diào)整：

トークン剤に

と

があることを確認(rèn)し、必要に応じてモデルの埋め込みをサイズ変更します。 codeparrot/codeparrot-small

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_name = "codeparrot/codeparrot-small"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
model.eval()

5。コード生成：

問(wèn)題ごとに5つのコードサンプルを生成します（合計(jì)164の問(wèn)題）：

pad_token_ideos_token_id6。コンピューティングパス@k：

if tokenizer.pad_token_id is None: tokenizer.pad_token_id = 0
if tokenizer.eos_token_id is None: tokenizer.eos_token_id = 2
if tokenizer.pad_token is None: tokenizer.add_special_tokens({'pad_token': '<pad>'})
if tokenizer.eos_token is None: tokenizer.add_special_tokens({'eos_token': ''})
if len(tokenizer) > model.config.vocab_size: model.resize_token_embeddings(len(tokenizer))</pad>

computeおよび：

pip install evaluate

出力には、pass@1およびpass@5スコアが表示され、モデルのパフォーマンスが示されます。コード生成の確率的性質(zhì)により、結(jié)果は異なる場(chǎng)合があることを忘れないでください。これらの結(jié)果をより強(qiáng)力なモデル（GPT-4など）の結(jié)果と比較すると、codeparrot-smallモデルの機(jī)能のコンテキストが提供されます。さらなる分析には、さまざまなハイパーパラメーターの探索や、より洗練されたコード生成手法の使用が含まれる場(chǎng)合があります。

以上がHumanval：LLMコード生成機(jī)能を評(píng)価するためのベンチマークの詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國(guó)語(yǔ) Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明

この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見つけた場(chǎng)合は、admin@php.cn までご連絡(luò)ください。