97久久精品无码一区二区天美,国产av,日韩精品

VisionAgentは、AI駆動(dòng)型のビジョンアプリケーションの開発を合理化し、退屈なタスクを自動(dòng)化し、すぐに使用できるツールを提供します。その速度、柔軟性、およびスケーラビリティは、AIの研究者、開発者、および企業(yè)に役立ちます。將來の進(jìn)歩には、より強(qiáng)力なモデルとより広範(fàn)なアプリケーションサポートが組み込まれる可能性があります。

ホームページ

テクノロジー周辺機(jī)器

Andrew NGのVisionAgent：Bision AI Solutionsの合理化

Joseph Gordon-Levitt

Mar 06, 2025 am 11:46 AM

VisionAgent：コンピュータービジョンアプリケーション開発の革新

コンピュータービジョンは、ヘルスケア、製造、小売などの産業(yè)を変革しています。ただし、ビジョンベースのソリューションの構(gòu)築は、多くの場(chǎng)合、複雑で時(shí)間がかかります。 Andrew Ngが率いるLandingaiは、作成や反復(fù)から展開まで、プロセス全體を簡(jiǎn)素化するために設(shè)計(jì)された生成的な視覚的なAIアプリケーションビルダーであるVisionAgentを紹介します。

VisionAgentのエージェントオブジェクト検出は、従來のオブジェクト検出方法を上回る、長(zhǎng)いデータのラベル付けとモデルトレーニングの必要性を排除します。そのテキストプロンプトベースの検出により、高品質(zhì)の結(jié)果と多目的な複雑なオブジェクト認(rèn)識(shí)のための高度な推論を利用して、迅速なプロトタイピングと展開が可能になります。

重要な機(jī)能には次のものが含まれます

テキストプロンプトベースの検出：

高度な推論：正確で高品質(zhì)の出力を保証します
汎用性の認(rèn)識(shí)：複雑なオブジェクトとシナリオを効果的に処理します。
VisionAgentは単純なコード生成を上回ります。これは、AIを搭載したアシスタントとして機(jī)能し、計(jì)畫、ツールの選択、コード生成、展開を通じて開発者を?qū)Г蓼埂? このAI支援により、開発者は數(shù)週間ではなく數(shù)分で反復(fù)することができます。目次

VisionAgent Ecosystem

ベンチマーク評(píng)価

VisionAgent in Action

プロンプト：「バスケットとその周辺の野菜を検出します」
1. プロンプト：「ビデオで赤い車を識(shí)別する」
結(jié)論

VisionAgentは、合理化された開発エクスペリエンスのための3つのコアコンポーネントで構(gòu)成されています。

VisionAgent Web App

Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions VisionAgent Library

VisionAgent Tools Library

彼らの相互作用を理解することは、VisionAgentの可能性を最大化するために重要です

VisionAgent Webアプリは、大規(guī)模なセットアップなしでビジョンアプリケーションをプロトタイピング、改良、展開するためのユーザーフレンドリーなホストされたプラットフォームです。その直感的なWebインターフェイスを使用すると、ユーザーは次のことを可能にします

データを簡(jiǎn)単にアップロードして処理します。

コンピュータービジョンコードを生成およびテストします

結(jié)果を視覚化して調(diào)整します。 Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions

クラウドのエンドポイントまたは合理化されたアプリとしてソリューションを展開します。

2。 VisionAgent Library

Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions

VisionAgentライブラリはフレームワークのコアを形成し、AI駆動(dòng)型ビジョンアプリケーションをプログラムで作成および展開するための重要な機(jī)能を提供します。主な機(jī)能には次のものがあります

エージェントベースの計(jì)畫：複數(shù)のソリューションを生成し、最適なソリューションを自動(dòng)的に選択します。
さまざまなビジョンタスクに適したツールを動(dòng)的に選択します。コード生成と評(píng)価：
ビルトインビジョンモデルのサポート：オブジェクト検出、畫像分類、セグメンテーションのために多様なコンピュータービジョンモデルを利用します。
ローカルとクラウドの統(tǒng)合：ローカルの実行を有効にするか、ランディングのクラウドホストモデルをスケーラビリティに使用します。
3。 VisionAgent Tools Library

VisionAgent Tools Libraryは、特定のコンピュータービジョンタスク用の事前に構(gòu)築されたPythonベースのツールのコレクションを提供しています。

畫像やビデオのオブジェクトを識(shí)別して見つけます。 Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions

トレーニングされたAIモデルに基づいて畫像を分類します。

QRコードの読み取り：QRコードから情報(bào)を抽出します
インベントリまたは追跡のオブジェクトをカウントします。
ベンチマーク評(píng)価
1。モデルとアプローチ

ランディングAI（エージェントオブジェクト検出）：

Microsoft Florence-2： Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions Open setオブジェクト検出。

alibaba qwen2.5-vl-7b-instruct：
2。評(píng)価メトリック
モデルは、を使用して評(píng)価されました

recall：関連するすべてのオブジェクトを識(shí)別するモデルの能力を測(cè)定します。

精度：検出の精度を測(cè)定します（誤検知が少ない）
f1スコア：
精度とリコールのバランスの取れた尺度。
3。パフォーマンスの比較

モデル recall 精度 f1スコア著陸ai 77.0％ 82.6％ 79.7％
（最高）
Microsoft Florence-2 43.4％ 36.6％ 39.7％ Google owlv2 81.0％ 29.5％ 43.2％ alibaba qwen2.5-vl-7b-instruct 26.0％ 54.0％ 35.1％
4。重要な調(diào)査結(jié)果

AIのエージェントオブジェクト検出のランディングは、最高のF1スコアを達(dá)成し、精度とリコールの最高のバランスを示しています。他のモデルは、リコールと精度の間にトレードオフを示しました
VisionAgent in Action

VisionAgentは、構(gòu)造化されたワークフローを使用します：

畫像またはビデオをアップロードします。

テキストプロンプトを提供します（たとえば、「メガネを持つ人を検出する」）。

VisionAgentは入力を分析します

検出結(jié)果を受信します。

プロンプト：「バスケットとその周辺の野菜を検出します」

ステップ1：相互作用

ユーザーは、自然言語(yǔ)を使用してリクエストを開始します。 VisionAgentは理解を確認(rèn)します
入力畫像

相互作用の例
「オブジェクト検出を使用して、バスケットの內(nèi)側(cè)と外側(cè)の野菜を検出するコードを生成します。 "

ステップ2：計(jì)畫

VisionAgentが最良のアプローチを決定します：

視覚的な質(zhì)問応答（VQA）を使用して畫像コンテンツを理解します
検出方法の提案を生成します
適切なツール（オブジェクト検出、カラーベースの分類）を選択します

ステップ3：実行

この計(jì)畫は、VisionAgent Library and Tools Libraryを使用して実行されます。
観測(cè)と出力

VisionAgentは構(gòu)造化された結(jié)果を提供します：

場(chǎng)所（內(nèi)/外側(cè)のバスケット）で分類された野菜を検出しました。
各野菜の境界ボックス座標(biāo)。

展開可能なAIモデル。

出力の例

プロンプト：「ビデオで赤い車を識(shí)別する」
この例は、ビデオフレーム、VQA、および提案を使用して、赤い車を特定して追跡するための提案を使用して、同様のプロセスに従います。出力は、ビデオ全體で追跡された車を表示します。（Brevityのために省略された出力畫像の例ですが、野菜検出出力とスタイルが似ています）

結(jié)論

VisionAgentは、AI駆動(dòng)型のビジョンアプリケーションの開発を合理化し、退屈なタスクを自動(dòng)化し、すぐに使用できるツールを提供します。その速度、柔軟性、およびスケーラビリティは、AIの研究者、開発者、および企業(yè)に役立ちます。將來の進(jìn)歩には、より強(qiáng)力なモデルとより広範(fàn)なアプリケーションサポートが組み込まれる可能性があります。