国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目次
導(dǎo)入
學(xué)習(xí)目標(biāo)
目次
フィレンツェ-2とは何ですか?
フィレンツェ-2を使用した畫像キャプション
ダウンロードとインストール
Florence-2モデルのダウンロード
キャプションの生成
プロンプトを提供します
フィレンツェ-2によるオブジェクトの検出
フィレンツェ-2ビジョン言語モデルに畫像を提供します
畫像に境界ボックスを描畫します
グラウンドのフレーズへのキャプション
フィレンツェ-2とのセグメンテーション
畫像のセグメンテーション
マスクを作成し、実際の畫像にオーバーレイします
結(jié)論
キーテイクアウト
よくある質(zhì)問
ホームページ テクノロジー周辺機(jī)器 AI フィレンツェ-2でコンピュータービジョンタスクを?qū)g行する方法-AnalyticsVidhya

フィレンツェ-2でコンピュータービジョンタスクを?qū)g行する方法-AnalyticsVidhya

Apr 19, 2025 am 10:21 AM

導(dǎo)入

元のトランスの導(dǎo)入は、現(xiàn)在の大規(guī)模な言語モデルへの道を開いた。同様に、トランスモデルの導(dǎo)入後、視覚変圧器(VIT)が導(dǎo)入されました。テキストを理解し、応答を與えられたテキストを生成するのに優(yōu)れている変圧器と同様に、畫像を理解し、畫像を與えられた情報(bào)を提供するためにVision Transformerモデルが開発されました。これらは、畫像の理解に優(yōu)れているビジョン言語モデルにつながりました。 Microsoftはこれに一歩前進(jìn)し、単一のモデルだけで多くのビジョンタスクを?qū)g行できるモデルを?qū)毪筏蓼筏?。このガイドでは、MicrosoftがリリースしたFlorence-2と呼ばれるこのモデルを、多くの異なるビジョンタスクを解決するように設(shè)計(jì)されています。

學(xué)習(xí)目標(biāo)

  • ビジョン言語モデルであるFlorence-2を紹介してください。
  • フィレンツェ-2が訓(xùn)練されているデータを理解する。
  • フィレンツェ-2ファミリーのさまざまなモデルについて知ることができます。
  • Florence-2をダウンロードする方法を?qū)Wびます。
  • Florence-2でさまざまなコンピュータービジョンタスクを?qū)g行するためのコードを書き込みます。

この記事は、データサイエンスブログソンの一部として公開されました。

目次

  • フィレンツェ-2とは何ですか?
  • フィレンツェ-2を使用した畫像キャプション
  • フィレンツェ-2によるオブジェクトの検出
  • フィレンツェ-2とのセグメンテーション
  • よくある質(zhì)問

フィレンツェ-2とは何ですか?

Florence-2は、Microsoftチームが開発したVision Language Model(VLM)です。 Florence-2には2つのサイズがあります。 1つは0.23Bバージョンで、もう1つは0.77Bバージョンです。これらの低いサイズにより、誰もがCPU自體でこれらのモデルを簡単に実行できます。 Florence-2は、1つのモデルがすべてを解決できることを念頭に置いて作成されています。 Florence-2は、オブジェクト検出、オブジェクトセグメンテーション、畫像キャプション(詳細(xì)なキャプションの生成)、フレーズセグメンテーション、OCR(光學(xué)文字認(rèn)識(shí))、およびこれらの組み合わせなど、さまざまなタスクを解決するように訓(xùn)練されています。

Florence-2 Vision Languageモデルは、FLD 5Bデータセットでトレーニングされています。このFLD-5Bは、Microsoftチームによって作成されたデータセットです。このデータセットには、約1億2600萬枚の畫像に約54億のテキスト注釈が含まれています。これらには、13億テキスト地域の注釈、5億テキストの注釈、36億テキストフレーズ地域の注釈が含まれます。 Florence-2は、OCR、オブジェクト検出、畫像キャプションなどのタスクのテキストの命令と畫像入力を受け入れ、テキスト結(jié)果を生成します。

アーキテクチャには視覚エンコーダーが含まれ、その後に変圧器エンコーダーデコーダーブロックが続き、損失のために、標(biāo)準(zhǔn)の損失関數(shù)、つまりクロスエントロピー損失を使用します。 Florence-2モデルは、オブジェクト検出のためのボックス表現(xiàn)、OCRテキスト検出のためのクアッドボックス表現(xiàn)、およびセグメンテーションタスクのポリゴン表現(xiàn)の3つのタイプの領(lǐng)域検出を?qū)g行します。

フィレンツェ-2を使用した畫像キャプション

畫像キャプションはビジョン言語タスクであり、畫像が與えられた場合、深い學(xué)習(xí)モデルは畫像に関するキャプションを出力します。このキャプションは、モデルが受けたトレーニングに基づいて短いまたは詳細(xì)にすることができます。これらのタスクを?qū)g行するモデルは、畫像が與えられたテキストを出力する方法を?qū)W習(xí)する巨大な畫像キャプションデータでトレーニングされています。訓(xùn)練されているデータが多いほど、畫像を説明するのが得意になります。

ダウンロードとインストール

Florence Visionモデルを?qū)g行するために必要なライブラリをダウンロードしてインストールすることから始めます。

 !PIPインストール-Q -UトランスはFlash_attn Einops Timmを加速します
  • Transformers: HuggingfaceのTransformers Libraryは、ダウンロードできるさまざまなタスクのさまざまなディープラーニングモデルを提供します。
  • 加速: HuggingfaceのAccelerate Libraryは、GPUを介してモデルを提供するときにモデルの推論時(shí)間を改善します。
  • Flash_attn: Flash Attention Libraryは、オリジナルよりも高速な注意アルゴリズムを?qū)g裝しており、Florence-2モデルで使用されています。
  • EINOPS: Einstein Operationsは、マトリックスの乗算を表すことを簡素化し、フィレンツェ-2モデルに実裝されています。

Florence-2モデルのダウンロード

次に、Florence-2モデルをダウンロードする必要があります。このために、以下のコードを使用します。

トランスから輸入オートプロセッサ、Automodelforcausallmから

model_id = 'Microsoft/Florence-2-Large-ft'
Model = automodelforcausallm.from_pretrained(model_id、trust_remote_code = true).eval()。cuda()
processor = autoprocessor.from_pretrained(model_id、trust_remote_code = true、device_map = "cuda")
  • まず、Automodelforcausallmとオートプロセッサをインポートすることから始めます。
  • 次に、モデル名をmodel_name変數(shù)に保存します。ここでは、フィレンツェ-2の大きな微調(diào)整モデルと連攜します。
  • 次に、.from_pretrained()関數(shù)を呼び出してモデル名を與え、trust_remote_code = trueを設(shè)定することにより、automodelforcausallmのインスタンスを作成します。これにより、HFリポジトリからモデルがダウンロードされます。
  • 次に、.eval()を呼び出してこのモデルを評(píng)価モデルに設(shè)定し、.cuda()関數(shù)を呼び出すことでGPUに送信します。
  • 次に、.from_pretrained()を呼び出し、モデル名を指定し、device_mapをCUDAに設(shè)定することにより、自動(dòng)プロセッサのインスタンスを作成します。

オートプロセッサは、オートトケン剤に非常によく似ています。しかし、AutoTokenizerクラスはテキストとテキストのトークン化を扱っています。 Autoprocessは、テキストと畫像の両方のトークン化を扱っていますが、Florence-2は畫像データを扱っているため、オートプロセッサと連攜しています。

さて、畫像を撮りましょう。

 PILインポート畫像から
image = image.open( "/content/beach.jpg")

フィレンツェ-2でコンピュータービジョンタスクを?qū)g行する方法-AnalyticsVidhya

ここでは、ビーチの寫真を撮りました。

キャプションの生成

次に、この畫像をFlorence-2 Vision Language Modelに提供し、キャプションを生成するように依頼します。

 PROMPT = "<caption>"
inputs = processor(text = prompt、image = image、return_tensors = "pt")。to( "cuda"))
generated_ids = model.generate(
    input_ids = inputs ["input_ids"]、
    pixel_values = inputs ["pixel_values"]、
    max_new_tokens = 512、
    do_sample = false、
))
text_generations = processor.batch_decode(generated_ids、 
skip_special_tokens = false)[0]

result = processor.post_process_generation(text_generations、 
タスク= prompt、image_size =(image.width、image.height)))

印刷(結(jié)果[プロンプト])</caption>

フィレンツェ-2でコンピュータービジョンタスクを?qū)g行する方法-AnalyticsVidhya

  • プロンプトを作成することから始めます。
  • 次に、プロセッサクラスにプロンプ??トと畫像の両方を提供し、Pytorchセンサーを返します。モデルはGPUに存在し、可変入力に保存するため、GPUにそれらを與えます。
  • 入力変數(shù)には、input_ids、つまりトークンID、および畫像のピクセル値が含まれます。
  • 次に、モデルの生成関數(shù)を呼び出し、入力ID、畫像ピクセル値を指定します。最大生成されたトークンを512に設(shè)定し、サンプリングをfalseに保ち、生成されたトークンをGenerated_idsに保存します。
  • 次に、プロセッサの.batch_decode関數(shù)を呼び出して、generated_idsを指定し、skip_special_tokensフラグをfalseに設(shè)定します。これはリストになるため、リストの最初の要素が必要です。
  • 最後に、.post_process_generatedを呼び出し、生成されたテキスト、タスクタイプ、およびimage_sizeをタプルとして提供することにより、生成されたテキストをポストプロセスします。

コードを?qū)g行して上記の出力寫真を表示すると、このモデルが畫像のキャプション「傘とラウンジの椅子が海の背景にあるビーチにある」と生成したことがわかります。上記の畫像のキャプションは非常に短いです。

プロンプトを提供します

この次のステップを踏むことができます。などの他のプロンプトを提供できます。

これを試すためのコードは、以下に示すことができます。

 prompt = "<deciption_caption>"
inputs = processor(text = prompt、image = image、return_tensors = "pt")。to( "cuda"))
generated_ids = model.generate(
    input_ids = inputs ["input_ids"]、
    pixel_values = inputs ["pixel_values"]、
    max_new_tokens = 512、
    do_sample = false、
))
text_generations = processor.batch_decode(generated_ids、 
skip_special_tokens = false)[0]

result = processor.post_process_generation(text_generations、 
タスク= prompt、image_size =(image.width、image.height)))

印刷(結(jié)果[プロンプト])</deciption_caption>

フィレンツェ-2でコンピュータービジョンタスクを?qū)g行する方法-AnalyticsVidhya

 prompt = "<more_detailed_caption>"

inputs = processor(text = prompt、image = image、return_tensors = "pt")。to( "cuda"))

generated_ids = model.generate(
    input_ids = inputs ["input_ids"]、
    pixel_values = inputs ["pixel_values"]、
    max_new_tokens = 512、
    do_sample = false、
))


text_generations = processor.batch_decode(generated_ids、 
skip_special_tokens = false)[0]

result = processor.post_process_generation(text_generations、 
タスク= prompt、image_size =(image.width、image.height)))

印刷(結(jié)果[プロンプト])</more_detailed_caption>

フィレンツェ-2でコンピュータービジョンタスクを?qū)g行する方法-AnalyticsVidhya

ここでは、タスクタイプのためにおよびを使用して、上記の寫真でコードを?qū)g行した後に結(jié)果を見ることができます。 は、「この畫像では、椅子、テーブル、傘、水、船、木、建物、空が雲(yún)と一緒に見えます?!工饯筏?、プロンプトは、「オレンジ色の傘がビーチにあります。傘の橫に白いラウンジの椅子があります。水には2つのボートがあります?!工筏郡盲啤ⅳ长欷椁?つのプロンプトを使用すると、通常のプロンプトよりも畫像キャプションの深さをもう少し得ることができます。

フィレンツェ-2によるオブジェクトの検出

オブジェクト検出は、コンピュータービジョンの有名なタスクの1つです。畫像が與えられたオブジェクトを見つけることを扱っています。オブジェクトの検出では、モデルは畫像を識(shí)別し、オブジェクトの周りの境界ボックスのxおよびy座標(biāo)を提供します。 Florence-2 Vision Languageモデルは、畫像を與えられたオブジェクトを非常に検出できます。

以下の畫像でこれを試してみましょう。

 image = image.open( "/content/van.jpg")

フィレンツェ-2でコンピュータービジョンタスクを?qū)g行する方法-AnalyticsVidhya

ここには、背景に白い建物がある道路に明るいオレンジ色のバンの畫像があります。

フィレンツェ-2ビジョン言語モデルに畫像を提供します

次に、この畫像をフィレンツェ-2ビジョン言語モデルに渡しましょう。

 prompt = "<od>"

inputs = processor(text = prompt、image = image、return_tensors = "pt")。to( "cuda"))

generated_ids = model.generate(
    input_ids = inputs ["input_ids"]、
    pixel_values = inputs ["pixel_values"]、
    max_new_tokens = 512、
    do_sample = false、
))
text_generations = processor.batch_decode(generated_ids、 
skip_special_tokens = false)[0]

結(jié)果= processor.post_process_generation(text_generations、 
タスク= prompt、image_size =(image.width、image.height)))
</od>

オブジェクト検出のプロセスは、行ったばかりの畫像キャプションタスクと非常に似ています。ここでの唯一の違いは、プロンプトを意味するオブジェクト検出に変更することです。そのため、このプロンプトとともにプロセッサオブジェクトに畫像を提供し、トークン化された入力を取得します。次に、これらのトークン化された入力を畫像ピクセル値でフィレンツェ-2ビジョン言語モデルに與えて、出力を生成します。次に、この出力をデコードします。

出力は、結(jié)果という名前の変數(shù)に保存されます。変數(shù)の結(jié)果は、{'bboxes':[[x1、y1、x2、y2]、…]、 'labels':['label1'、 'label2'、]}}。

畫像に境界ボックスを描畫します

次に、これらの境界ボックスを畫像上に描畫します。

 pltとしてmatplotlib.pyplotをインポートします
Matplotlib.patchesをパッチとしてインポートします
図、ax = plt.subplots()
ax.imshow(畫像)
bboxの場合、zipのラベル(結(jié)果[プロンプト] ['bboxes']、results [prompt] ['labels']):
    x1、y1、x2、y2 = bbox
    rect_box = patches.rectangle((x1、y1)、x2-x1、y2-y1、linewidth = 1、 
    edgecolor = 'r'、facecolor = 'none')
    ax.add_patch(rect_box)
    plt.text(x1、y1、label、color = 'white'、fontsize = 8、bbox = dict(facecolor = 'red'、alpha = 0.5))
ax.axis( 'off')
plt.show()

フィレンツェ-2でコンピュータービジョンタスクを?qū)g行する方法-AnalyticsVidhya

  • 畫像の周りに長方形の境界ボックスを描くために、Matplotlibライブラリを使用します。
  • フィギュアと軸を作成することから始めてから、Florence-2 Vision Languageモデルに與えた畫像を表示します。
  • ここでは、モデル出力がx、y座標(biāo)を含むリストである境界ボックスがあり、最終出力には、境界ボックスのリストがあります。つまり、各ラベルには獨(dú)自の境界ボックスがあります。
  • したがって、境界ボックスのリストを繰り返します。
  • 次に、境界ボックスのxおよびy座標(biāo)を開梱します。
  • 次に、最後のステップで開梱した座標(biāo)で長方形を描きます。
  • 最後に、現(xiàn)在表示している畫像にパッチを當(dāng)てます。
  • 境界ボックスにラベルを追加して、境界ボックスにどのオブジェクトが含まれているかを示す必要があります。
  • 最後に、軸を削除します。

このコードを?qū)g行して寫真を見ると、私たちが與えたバン畫像のフィレンツェ-2ビジョン言語モデルによって生成される境界ボックスがたくさんあることがわかります。モデルがバン、窓、およびホイールを検出し、各ラベルの正しい座標(biāo)を提供できることがわかります。

グラウンドのフレーズへのキャプション

次に、フィレンツェ-2モデルがサポートする「フレーズグラウンドへのキャプション」と呼ばれるタスクがあります。モデルが行うことは、畫像とそれのキャプションを與えられたことです。フレーズの接地のタスクは、畫像の領(lǐng)域に與えられたキャプション內(nèi)の名詞句によって言及されている各 /最も関連するエンティティ /オブジェクトを見つけることです。

以下のコードを使用して、このタスクを確認(rèn)できます。

 prompt = "<caption_to_phrase_grounding>白い建物の前に駐車したオレンジ色のバン」
task_type = "<caption_to_phrase_grounding>"
inputs = processor(text = prompt、image = image、return_tensors = "pt")。to( "cuda"))
generated_ids = model.generate(
    input_ids = inputs ["input_ids"]、
    pixel_values = inputs ["pixel_values"]、
    max_new_tokens = 512、
    do_sample = false、
))
text_generations = processor.batch_decode(generated_ids、 
skip_special_tokens = false)[0]
結(jié)果= processor.post_process_generation(text_generations、 
task = task_type、image_size =(image.width、image.height)))
</caption_to_phrase_grounding></caption_to_phrase_grounding>

ここでプロンプトについては、「白い建物の前に駐車したオレンジ色のバン」を與えています。タスクは「」であり、フレーズは「白い建物の前に駐車されているオレンジバン」です。フィレンツェモデルは、この與えられたフレーズから得られるオブジェクト/エンティティへの境界ボックスを生成しようとします。プロットして最終出力を見てみましょう。

 pltとしてmatplotlib.pyplotをインポートします
Matplotlib.patchesをパッチとしてインポートします
図、ax = plt.subplots()
ax.imshow(畫像)
bboxの場合、zipのラベル(results [task_type] ['bboxes']、results [task_type] ['labels']):
    x1、y1、x2、y2 = bbox
    rect_box = patches.rectangle((x1、y1)、x2-x1、y2-y1、linewidth = 1、 
    edgecolor = 'r'、facecolor = 'none')
    ax.add_patch(rect_box)
    plt.text(x1、y1、label、color = 'white'、fontsize = 8、bbox = dict(facecolor = 'red'、alpha = 0.5))
ax.axis( 'off')
plt.show()

フィレンツェ-2でコンピュータービジョンタスクを?qū)g行する方法-AnalyticsVidhya

ここでは、Florence-2 Vision Languageモデルが2つのエンティティを抽出できることがわかります。 1つはオレンジ色のバン、もう1つは白い建物です。その後、フィレンツェ-2は、これらの各エンティティの境界ボックスを生成しました。これにより、キャプションが與えられた場合、モデルは、その特定のキャプションから関連するエンティティ/オブジェクトを抽出し、それらのオブジェクトに対応する境界ボックスを生成できるようにすることができます。

フィレンツェ-2とのセグメンテーション

セグメンテーションはプロセスであり、畫像が撮影され、畫像の複數(shù)の部分に対してマスクが生成されます。各マスクはオブジェクトです。セグメンテーションは、オブジェクト検出の次の段階です。オブジェクトの検出では、畫像の場所のみを見つけて、境界ボックスを生成します。しかし、セグメンテーションでは、長方形の境界ボックスを生成する代わりに、オブジェクトの形になるマスクを生成するため、そのオブジェクトのマスクを作成するようなものです。オブジェクトの位置を知っているだけでなく、オブジェクトの形狀さえ知っているため、これは役立ちます。幸いなことに、フィレンツェ-2ビジョン言語モデルはセグメンテーションをサポートしています。

畫像のセグメンテーション

私たちはバンの畫像にセグメンテーションを試みます。

 prompt = "<referring_expression_segmentation> 2つの黒いタイヤ"
task_type = "<referring_expression_segmentation>"
inputs = processor(text = prompt、image = image、return_tensors = "pt")。to( "cuda"))
generated_ids = model.generate(
    input_ids = inputs ["input_ids"]、
    pixel_values = inputs ["pixel_values"]、
    max_new_tokens = 512、
    do_sample = false、
))
text_generations = processor.batch_decode(generated_ids、 
skip_special_tokens = false)[0]

結(jié)果= processor.post_process_generation(text_generations、 
task = task_type、image_size =(image.width、image.height)))
</referring_expression_segmentation></referring_expression_segmentation>
  • ここでは、プロセスは畫像キャプションとオブジェクト検出タスクに似ています。プロンプトを提供することから始めます。
  • ここで、プロンプトは「 2つの黒いタイヤ」です。タスクはセグメンテーションです。
  • セグメンテーションは、提供されるテキスト入力に基づいており、ここでは「2つの黒いタイヤ」です。
  • したがって、フィレンツェ-2モデルは、このテキスト入力と提供された畫像に密接に関連するマスクを生成しようとします。

ここで、結(jié)果変數(shù)は{":{'polygons':[[[polygon]]、…]、 'labels':[”、”、…]}}の形式の形式のものになります。各オブジェクト/マスクは、[x1、y1、x2、yn]の形式[x1、y1、x2、yn]です。

マスクを作成し、実際の畫像にオーバーレイします

ここで、これらのマスクを作成し、実際の畫像にオーバーレイして、視覚化することができます。

コピーをインポートします
npとしてnumpyをインポートします
iPython.displayインポートディスプレイから
PILインポート畫像、ImagedRaw、ImageFontから

output_image = copy.deepcopy(畫像)
res = results [task_type]
draw = imagedraw.draw(output_image)
スケール= 1
ポリゴンの場合、zipのラベル(res ['polygons']、res ['labels']):
    fill_color = "blue"
    ポリゴンの_ポリゴンの場合:
        _polygon = np.array(_polygon).reshape(-1、2)
        Len(_ Polygon)<p><img  src="/static/imghw/default1.png" data-src="https://img.php.cn/upload/article/000/000/000/174502929770135.png" class="lazy" alt="フィレンツェ-2でコンピュータービジョンタスクを?qū)g行する方法-AnalyticsVidhya" ></p><h4>説明</h4>
  • ここでは、畫像処理のためにPILライブラリからさまざまなツールをインポートすることから始めます。
  • 畫像の深いコピーを作成し、新しい変數(shù)にキー「」の値を保存します。
  • 次に、the.draw()メソッドを呼び出し、実際の畫像のコピーを指定することにより、畫像をimagedrawインスタンスを作成してロードします。
  • 次に、ポリゴンのジップとラベル値を繰り返します。
  • 各ポリゴンについて、個(gè)々のポリゴンを_polygonという名前で反復(fù)し、再形成します。 _ Polygonは現(xiàn)在、高次元リストになっています。
  • _ polygonには少なくとも3つの側(cè)面が必要であるため、接続できることがわかっています。したがって、この妥當(dāng)性條件を確認(rèn)して、_ Polygonリストに少なくとも3つのリスト項(xiàng)目があることを確認(rèn)します。
  • 最後に、.polygon()メソッドを呼び出して_ polygonを與えることにより、実際の畫像のコピーにこの_ polygonを描きます。それに加えて、アウトラインの色と塗りつぶしの色さえ與えます。
  • フィレンツェ-2ビジョン言語モデルがこれらのポリゴンのラベルを生成する場合、.text()関數(shù)を呼び出してラベルを與えることで、実際の畫像のコピーにこのテキストを描畫することもできます。
  • 最後に、Florence-2モデルによって生成されたすべてのポリゴンを描畫した後、IPythonライブラリからディスプレイ関數(shù)を呼び出すことで畫像を出力します。

Florence-2 Vision Languageモデルは、「2つの黒いタイヤ」のクエリを正常に理解し、畫像には目に見える黒いタイヤのある車両が含まれていると推測しました。このモデルは、これらのタイヤのポリゴン表現(xiàn)を生成し、青色でマスクされました。このモデルは、Microsoftチームがキュレーションした強(qiáng)力なトレーニングデータにより、多様なコンピュータービジョンタスクに優(yōu)れていました。

結(jié)論

Florence-2は、Microsoftチームによってゼロから作成および訓(xùn)練されたビジョン言語モデルです。他のビジョン言語モデルとは異なり、Florence-2は、オブジェクトの検出、畫像キャプション、フレーズオブジェクト検出、OCR、セグメンテーション、これらの組み合わせなど、さまざまなコンピュータービジョンタスクを?qū)g行します。このガイドでは、フィレンツェ-2の大規(guī)模なモデルをダウンロードする方法と、フィレンツェ-2でプロンプトを変更すると、さまざまなコンピュータービジョンタスクを?qū)g行する方法を検討しました。

キーテイクアウト

  • フィレンツェ-2モデルには2つのサイズがあります。 1つは、0.230億バージョンのバージョンであるベースバリアントで、もう1つは0.70億パラメーターバージョンの大きなバリアントです。
  • Microsoft Teamは、FLD 5BデータセットでFlorence-2モデルをトレーニングしました。これは、Microsoftチームが作成したさまざまな畫像タスクを含む畫像データセットです。
  • フィレンツェ-2は、入力のプロンプトとともに畫像を受け入れます。プロンプトがフィレンツェ-2ビジョンモデルが実行するタスクのタイプを定義する場合。
  • 各タスクは異なる出力を生成し、これらすべての出力はテキスト形式で生成されます。
  • Florence-2は、MITライセンスを備えたオープンソースモデルであるため、商用アプリケーション用に協(xié)力できます。

よくある質(zhì)問

Q1。フィレンツェ-2とは何ですか?

A. Florence-2は、Microsoftチームによって開発されたビジョン言語モデルであり、0.23Bパラメーターと0.7Bパラメーターバージョンの2つのサイズでリリースされました。

Q2。オートプロセッサはオートトケン剤とどのように違いますか?

A. AutoTokenizerは、テキストをトークンに変換するテキストデータのみを扱うことができます。一方、畫像データさえ含まれるマルチモーダルモデルの自動(dòng)プロセッサプレプロセッサデータ。

Q3。 FLD-5Bとは何ですか?

A. FLD-5Bは、Microsoftチームがキュレーションした畫像データセットです。 1億2600萬枚の畫像に対して約54億の畫像キャプションが含まれています。

Q4。フィレンツェ-2モデルは何を出力しますか?

A.フィレンツェ-2モデルは、指定された入力畫像と入力テキストに基づいてテキストを出力します。このテキストは、タスクがオブジェクトの検出またはセグメンテーションである場合、単純な畫像キャプションになるか、境界ボックス座標(biāo)を調(diào)整できます。

Q5。フィレンツェ-2はオープンソースですか?

A.はい。 Florence-2はMITライセンスの下でリリースされているため、オープンソースになり、このモデルで動(dòng)作するためにHuggingfaceで認(rèn)証する必要はありません。

この記事に示されているメディアは、Analytics Vidhyaが所有しておらず、著者の裁量で使用されています。

以上がフィレンツェ-2でコンピュータービジョンタスクを?qū)g行する方法-AnalyticsVidhyaの詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國語 Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明
この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脫衣畫像を無料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中國語版

SublimeText3 中國語版

中國語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強(qiáng)力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Kimi K2:最も強(qiáng)力なオープンソースエージェントモデル Kimi K2:最も強(qiáng)力なオープンソースエージェントモデル Jul 12, 2025 am 09:16 AM

今年初めにゲナイ産業(yè)を混亂させたオープンソースの中國モデルの洪水を覚えていますか? Deepseekはほとんどの見出しを取りましたが、Kimi K1.5はリストの著名な名前の1つでした。そして、モデルはとてもクールでした。

AGIとAIのスーパーインテリジェンスは、人間の天井の仮定の障壁に急激に衝突するでしょう AGIとAIのスーパーインテリジェンスは、人間の天井の仮定の障壁に急激に衝突するでしょう Jul 04, 2025 am 11:10 AM

それについて話しましょう。 革新的なAIブレークスルーのこの分析は、さまざまなインパクトのあるAIの複雑さの特定と説明など、最新のAIで進(jìn)行中のForbes列のカバレッジの一部です(こちらのリンクを參照)。 アギに向かっています

Grok 4 vs Claude 4:どちらが良いですか? Grok 4 vs Claude 4:どちらが良いですか? Jul 12, 2025 am 09:37 AM

2025年半ばまでに、AIの「武器競爭」は熱くなり、Xaiと人類は両方ともフラッグシップモデルであるGrok 4とClaude 4をリリースしました。これら2つのモデルは、設(shè)計(jì)哲學(xué)と展開プラットフォームの反対側(cè)にありますが、

人工知能がすべての人生の歩みをどのように助け、害することができるかについての詳細(xì)な議論 人工知能がすべての人生の歩みをどのように助け、害することができるかについての詳細(xì)な議論 Jul 04, 2025 am 11:11 AM

私たちは議論します:企業(yè)はAIの職務(wù)機(jī)能の委任、AIが産業(yè)と雇用をどのように形成するか、およびビジネスと労働者の働き方を委任します。

今日、今日私たちの間を歩いている10の驚くべきヒューマノイドロボット 今日、今日私たちの間を歩いている10の驚くべきヒューマノイドロボット Jul 16, 2025 am 11:12 AM

しかし、おそらく1つを見るのに10年も待つ必要はありません。実際、本當(dāng)に有用で人間のような機(jī)械の最初の波と考えられるものは、すでにここにあります。 近年、多くのプロトタイプと生産モデルがTから抜け出しています

コンテキストエンジニアリングは&#039; new&#039;迅速なエンジニアリング コンテキストエンジニアリングは&#039; new&#039;迅速なエンジニアリング Jul 12, 2025 am 09:33 AM

前年まで、迅速なエンジニアリングは、大規(guī)模な言語モデル(LLMS)と対話するための重要なスキルと見なされていました。しかし、最近、LLMは推論と理解能力を大幅に進(jìn)めています。當(dāng)然、私たちの期待

Langchain Fitness Coachを作成します:AIパーソナルトレーナー Langchain Fitness Coachを作成します:AIパーソナルトレーナー Jul 05, 2025 am 09:06 AM

多くの個(gè)人が情熱を持ってジムを訪れ、フィットネスの目標(biāo)を達(dá)成するための正しい道にいると信じています。しかし、結(jié)果は、食事の計(jì)畫が不十分であり、方向性の欠如のためにありません。パーソナルトレーナーALを雇う

6タスクManus AIは數(shù)分で行うことができます 6タスクManus AIは數(shù)分で行うことができます Jul 06, 2025 am 09:29 AM

一般的なAIエージェントであるManusについて知っている必要があると確信しています。數(shù)ヶ月前に発売され、數(shù)か月にわたって、彼らはシステムにいくつかの新機(jī)能を追加しました。これで、ビデオを生成したり、Webサイトを作成したり、MOを行うことができます

See all articles