国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

ホームページ テクノロジー周辺機(jī)器 AI Humanval:LLMコード生成機(jī)能を評(píng)価するためのベンチマーク

Humanval:LLMコード生成機(jī)能を評(píng)価するためのベンチマーク

Mar 02, 2025 am 09:47 AM

Humanval:Pass@K

でコード生成を評(píng)価します このチュートリアルでは、大規(guī)模な言語(yǔ)モデル(LLM)コード生成機(jī)能を評(píng)価するためのOpenAIベンチマークであるHumanValを探索し、

メトリックに焦點(diǎn)を當(dāng)てています。ハグする顔のエコシステムを使用して、164 Pythonの問(wèn)題でpass@kモデルを評(píng)価します。 これは、伝統(tǒng)的なテキストと類似の指標(biāo)とは対照的に、実用的で機(jī)能的な正確性評(píng)価を提供します。 codeparrot-small

HumanEval: A Benchmark for Evaluating LLM Code Generation Capabilities

著者による畫像

パス@k

を理解しています

Humanvalは機(jī)能的正確性アプローチを採(cǎi)用しており、上部の少なくとも1つの生成コードサンプルの少なくとも1つが問(wèn)題を正しく解決する可能性を測(cè)定します。 これは、実世界の開発者テストをミラーリングする?yún)g純なテキストマッチングよりも関連性があります。

式は次のとおりです ここで:

pass@k:生成されたサンプルの合計(jì)。

:正しいサンプルの數(shù)。
  • n:考慮される上部サンプルの數(shù)
  • 式は、cすべての
  • kkサンプルが正しくないという確率を計(jì)算し、これを1から減算して、少なくとも1つの正しいサンプルの確率を取得します。 より高い
  • スコアは、コード生成のパフォーマンスが向上します。 リーダーボードはしばしば

。を使用します 顔を抱きしめた人間の評(píng)価 このセクションでは、抱きしめられたフェイスのライブラリを使用して評(píng)価プロセスを詳しく説明しています。より速い評(píng)価を得るために、より小さなpass@kモデルを使用します pass@10pass@1001。セットアップ:

必要なライブラリをインストールします:

evaluate codeparrot-small環(huán)境変數(shù)の設(shè)定:

2。データセットとメトリックの読み込み:

pip install evaluate
データセットと

メトリックをロードします:

import os
os.environ["HF_ALLOW_CODE_EVAL"] = "1"
os.environ["TOKENIZERS_PARALLELISM"] = "false"

3。モデルとトークン剤の読み込み:

モデルとトークンザーをロードします:openai_humaneval code_eval

from datasets import load_dataset
from evaluate import load
human_eval = load_dataset("openai_humaneval")['test']
code_eval_metric = load("code_eval")
4。トークン剤の調(diào)整:

トークン剤に

があることを確認(rèn)し、必要に応じてモデルの埋め込みをサイズ変更します。 codeparrot/codeparrot-small

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_name = "codeparrot/codeparrot-small"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
model.eval()
5。コード生成:

問(wèn)題ごとに5つのコードサンプルを生成します(合計(jì)164の問(wèn)題):

pad_token_ideos_token_id6。コンピューティングパス@k:

if tokenizer.pad_token_id is None: tokenizer.pad_token_id = 0
if tokenizer.eos_token_id is None: tokenizer.eos_token_id = 2
if tokenizer.pad_token is None: tokenizer.add_special_tokens({'pad_token': '<pad>'})
if tokenizer.eos_token is None: tokenizer.add_special_tokens({'eos_token': ''})
if len(tokenizer) > model.config.vocab_size: model.resize_token_embeddings(len(tokenizer))</pad>

computeおよび

pip install evaluate

出力には、pass@1およびpass@5スコアが表示され、モデルのパフォーマンスが示されます。 コード生成の確率的性質(zhì)により、結(jié)果は異なる場(chǎng)合があることを忘れないでください。 これらの結(jié)果をより強(qiáng)力なモデル(GPT-4など)の結(jié)果と比較すると、codeparrot-smallモデルの機(jī)能のコンテキストが提供されます。 さらなる分析には、さまざまなハイパーパラメーターの探索や、より洗練されたコード生成手法の使用が含まれる場(chǎng)合があります。

以上がHumanval:LLMコード生成機(jī)能を評(píng)価するためのベンチマークの詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國(guó)語(yǔ) Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明
この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見つけた場(chǎng)合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脫衣畫像を無(wú)料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無(wú)料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡(jiǎn)単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無(wú)料のコードエディター

SublimeText3 中國(guó)語(yǔ)版

SublimeText3 中國(guó)語(yǔ)版

中國(guó)語(yǔ)版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強(qiáng)力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Kimi K2:最も強(qiáng)力なオープンソースエージェントモデル Kimi K2:最も強(qiáng)力なオープンソースエージェントモデル Jul 12, 2025 am 09:16 AM

今年初めにゲナイ産業(yè)を混亂させたオープンソースの中國(guó)モデルの洪水を覚えていますか? Deepseekはほとんどの見出しを取りましたが、Kimi K1.5はリストの著名な名前の1つでした。そして、モデルはとてもクールでした。

Grok 4 vs Claude 4:どちらが良いですか? Grok 4 vs Claude 4:どちらが良いですか? Jul 12, 2025 am 09:37 AM

2025年半ばまでに、AIの「武器競(jìng)爭(zhēng)」は熱くなり、Xaiと人類は両方ともフラッグシップモデルであるGrok 4とClaude 4をリリースしました。これら2つのモデルは、設(shè)計(jì)哲學(xué)と展開プラットフォームの反対側(cè)にありますが、

今日、今日私たちの間を歩いている10の驚くべきヒューマノイドロボット 今日、今日私たちの間を歩いている10の驚くべきヒューマノイドロボット Jul 16, 2025 am 11:12 AM

しかし、おそらく1つを見るのに10年も待つ必要はありません。実際、本當(dāng)に有用で人間のような機(jī)械の最初の波と考えられるものは、すでにここにあります。 近年、多くのプロトタイプと生産モデルがTから抜け出しています

コンテキストエンジニアリングは&#039; new&#039;迅速なエンジニアリング コンテキストエンジニアリングは&#039; new&#039;迅速なエンジニアリング Jul 12, 2025 am 09:33 AM

前年まで、迅速なエンジニアリングは、大規(guī)模な言語(yǔ)モデル(LLMS)と対話するための重要なスキルと見なされていました。しかし、最近、LLMは推論と理解能力を大幅に進(jìn)めています。當(dāng)然、私たちの期待

LeiaのImmersityモバイルアプリは、毎日の寫真に3D深さをもたらします LeiaのImmersityモバイルアプリは、毎日の寫真に3D深さをもたらします Jul 09, 2025 am 11:17 AM

レイア獨(dú)自のニューラル深度エンジンの上に構(gòu)築されたアプリは、靜止畫像を処理し、シミュレートされた動(dòng)き(パン、ズーム、視差効果など)とともに自然な深さを追加し、SCEに踏み込む印象を與える短いビデオリールを作成します。

7種類のAIエージェントは何ですか? 7種類のAIエージェントは何ですか? Jul 11, 2025 am 11:08 AM

AIエンジンなど、ミラノからの新しい衣料品コレクションに関する詳細(xì)なフィードバックや、世界中で事業(yè)を展開しているビジネスの自動(dòng)市場(chǎng)分析、または大規(guī)模な車両艦隊(duì)を管理するインテリジェントシステムなど、洗練されたものを想像してください。

これらのAIモデルは言語(yǔ)を?qū)Wぶことができず、戦略を?qū)Wびました これらのAIモデルは言語(yǔ)を?qū)Wぶことができず、戦略を?qū)Wびました Jul 09, 2025 am 11:16 AM

キングスカレッジロンドンとオックスフォード大學(xué)の研究者からの新しい研究は、Openai、Google、および人類が反復(fù)囚のジレンマに基づいた激しい鳴き聲競(jìng)爭(zhēng)で一緒に投げ込まれたときに起こったことの結(jié)果を共有しています。これはノーでした

隠されたコマンド危機(jī):研究者はAIを公開します 隠されたコマンド危機(jī):研究者はAIを公開します Jul 13, 2025 am 11:08 AM

科學(xué)者は、システムをバイパスするための賢いが驚くべき方法を発見しました。 2025年7月は、研究者がアカデミックな提出物に目に見えない指示を挿入した精巧な戦略の発見をマークしました。これらの秘密の指示は尾でした

See all articles