国产99久久久久久免费看,18欧美乱大交

原始變壓器的引入為當前的大語言模型鋪平了道路。同樣，在引入變壓器模型之后，引入了視覺變壓器（VIT）。就像變形金剛在理解文本和生成響應的文本中表現(xiàn)出色一樣，視覺變壓器模型也被開發(fā)出來理解圖像并提供給定圖像的信息。這些導致視覺語言模型，在理解圖像方面表現(xiàn)出色。微軟已經(jīng)向前邁出了一步，并引入了一個模型，該模型能夠僅使用單個模型執(zhí)行許多視覺任務。在本指南中，我們將查看Microsoft發(fā)布的名為Florence-2的模型，旨在解決許多不同的視覺任務。

學習目標

介紹佛羅倫薩-2，一種視覺語言模型。
了解訓練佛羅倫薩-2的數(shù)據(jù)。
了解佛羅倫薩-2家族中的不同型號。
了解如何下載佛羅倫薩-2。
編寫代碼以使用Florence-2執(zhí)行不同的計算機視覺任務。

本文作為數(shù)據(jù)科學博客馬拉松的一部分發(fā)表。

什么是佛羅倫薩-2？

Florence-2是Microsoft團隊開發(fā)的視覺語言模型（VLM）。佛羅倫薩-2有兩種尺寸。一個是0.23B版本，另一個是0.77b版本。這些低尺寸使每個人都可以輕松地在CPU本身上運行這些模型。創(chuàng)建了佛羅倫薩-2，請記住一個模型可以解決所有問題。對佛羅倫薩-2進行了訓練，可以解決不同的任務，包括對象檢測，對象分割，圖像字幕（甚至生成詳細的字幕），短語分割，OCR（光學字符識別）以及這些組合。

Florence-2 Vision語言模型在FLD 5B數(shù)據(jù)集上進行了培訓。該FLD-5B是由Microsoft團隊創(chuàng)建的數(shù)據(jù)集。該數(shù)據(jù)集在約1.26億張圖像上包含約54億個文本注釋。其中包括13億個文本區(qū)域注釋，5億個文本注釋和36億條文本短語區(qū)域注釋。 Florence-2接受文本說明和圖像輸入，為OCR，對象檢測或圖像字幕等任務生成文本結(jié)果。

該體系結(jié)構(gòu)包含一個視覺編碼器，然后是變壓器編碼器解碼器塊，為了損失，它們可以使用標準損耗函數(shù)，即交叉熵損失。 Florence-2模型執(zhí)行了三種類型的區(qū)域檢測：用于對象檢測的框表示，OCR文本檢測的四框表示以及用于分割任務的多邊形表示。

與佛羅倫薩-2的圖像字幕

圖像字幕是一項視覺語言任務，在給定圖像的情況下，深度學習模型將輸出有關(guān)圖像的標題。根據(jù)模型經(jīng)過的培訓，該標題可以簡短或詳細。執(zhí)行這些任務的模型經(jīng)過巨大的圖像字幕培訓，它們在其中學習如何輸出文本，給定圖像。他們訓練的數(shù)據(jù)越多，他們就越擅長描述圖像。

下載和安裝

我們將首先下載和安裝一些我們需要運行佛羅倫薩視覺模型的庫。

！

變形金剛： HuggingFace的Transformers庫為您可以下載的不同任務提供了各種深度學習模型。
加速： HuggingFace的加速庫可以改善通過GPU服務模型時的模型推理時間。
Flash_attn： Flash注意力庫實現(xiàn)了比原始庫更快的關(guān)注算法，并且在佛羅倫薩-2模型中使用。
EINOPS：愛因斯坦操作簡化了代表矩陣乘法并在佛羅倫薩-2模型中實現(xiàn)的。

下載佛羅倫薩-2型號

現(xiàn)在，我們需要下載Florence-2模型。為此，我們將使用以下代碼。

從變形金剛導入自動化處理器AutomodelforCausAllm

model_id ='Microsoft/Florence-2-large-ft'
model = automodelforcausallm.from_pretrate（model_id，trust_remote_code = true）.eval（）。cuda（）
processor = autopersesor.from_pretrataining（model_id，trust_remote_code = true，device_map =“ cuda”）

我們首先導入AutomodelForCausAllm和AutoPeroCessor。
然后，我們將模型名稱存儲在model_name變量中。在這里，我們將與Florence-2大調(diào)節(jié)模型一起工作。
然后，我們通過調(diào)用.from_pretaining（）函數(shù)賦予其模型名稱并設(shè)置trust_remote_code = true來創(chuàng)建AutoModelforCausAllm的實例，這將從HF存儲庫中下載該模型。
然后，我們通過調(diào)用.eval（）來將此模型設(shè)置為評估模型，并通過調(diào)用.cuda（）函數(shù)將其發(fā)送到GPU。
然后，我們通過調(diào)用.from_pretaining（）并給出模型名稱并將Device_map設(shè)置為CUDA來創(chuàng)建一個自動處理器的實例。

Autopersestor與自動訓練器非常相似。但是，自動傳動器類涉及文本和文本令牌化。而自動處理器則處理文本和圖像令牌化，因為佛羅倫薩-2處理圖像數(shù)據(jù)，我們與自動處理者合作。

現(xiàn)在，讓我們拍攝圖像：

從PIL導入圖像
image = image.open（“/content/beach.jpg”）

如何使用Florence -2 -Analytics Vidhya執(zhí)行計算機視覺任務

在這里，我們拍了一張海灘照片。

生成標題

現(xiàn)在，我們將將這張圖像提供給Florence-2 Vision語言模型，并要求它生成標題。

提示=“ <catchion>”
輸入=處理器（text =提示，images = image，return_tensors =“ pt”）。to（“ cuda”）
生成_ids = model.generate（
    input_ids = inputs [“ input_ids”]，
    pixel_values = inputs [“ pixel_values”]，
    max_new_tokens = 512，
    do_sample = false，
）
text_generations = processor.batch_decode（generated_ids， 
skip_special_tokens = false）[0]

結(jié)果= processor.post_process_generation（text_generations， 
任務=提示，image_size =（image.width，image.height））

打?。ńY(jié)果[提示]）</catchion>

如何使用Florence -2 -Analytics Vidhya執(zhí)行計算機視覺任務

我們首先創(chuàng)建提示。
然后，我們將提示和圖像同時給處理器類，然后返回Pytorch傳感器。我們將它們提供給GPU，因為該模型位于GPU中并將其存儲在變量輸入中。
輸入變量包含input_ids，即令牌ID和圖像的像素值。
然后，我們調(diào)用模型的生成函數(shù)并給出輸入ID，即圖像像素值。我們將最大生成的令牌設(shè)置為512將采樣保留為false，并將生成的令牌存儲在生成的_ids中。
然后，我們調(diào)用處理器的.batch_decode函數(shù)將其授予生成的_ids，并將skip_special_tokens flag設(shè)置為false。這將是一個列表，因此我們需要列表的第一個元素。
最后，我們通過調(diào)用.post_process_generated并將其生成的文本，任務類型和image_size作為元組來進行后處理。

運行代碼并看到上面的輸出圖片，我們看到該模型為圖像生成了標題“雨傘和休息室在海灘上的雨傘和休息室”。上面的圖像標題非常短。

提供提示

我們可以通過提供其他提示來邁出下一步，例如和。

嘗試此操作的代碼可以在下面看到：

提示=“ <lated_caption>”
輸入=處理器（text =提示，images = image，return_tensors =“ pt”）。to（“ cuda”）
生成_ids = model.generate（
    input_ids = inputs [“ input_ids”]，
    pixel_values = inputs [“ pixel_values”]，
    max_new_tokens = 512，
    do_sample = false，
）
text_generations = processor.batch_decode（generated_ids， 
skip_special_tokens = false）[0]

結(jié)果= processor.post_process_generation（text_generations， 
任務=提示，image_size =（image.width，image.height））

打?。ńY(jié)果[提示]）</lated_caption>

如何使用Florence -2 -Analytics Vidhya執(zhí)行計算機視覺任務

提示=“ <more_detailed_caption>”

輸入=處理器（text =提示，images = image，return_tensors =“ pt”）。to（“ cuda”）

生成_ids = model.generate（
    input_ids = inputs [“ input_ids”]，
    pixel_values = inputs [“ pixel_values”]，
    max_new_tokens = 512，
    do_sample = false，
）


text_generations = processor.batch_decode（generated_ids， 
skip_special_tokens = false）[0]

結(jié)果= processor.post_process_generation（text_generations， 
任務=提示，image_size =（image.width，image.height））

打?。ńY(jié)果[提示]）</more_detailed_caption>

如何使用Florence -2 -Analytics Vidhya執(zhí)行計算機視覺任務

在這里，我們使用了和對于任務類型，并且可以在上述圖片中運行代碼后查看結(jié)果。產(chǎn)生了輸出“在此圖像中，我們可以看到椅子，桌子，雨傘，水，船只，樹木，建筑物，建筑物和云層?！?提示產(chǎn)生了輸出，“海灘上有橙色的雨傘。雨傘旁邊有一個白色休息室。水上有兩艘船。”因此，使用這兩個提示，與常規(guī)提示相比，我們可以在圖像字幕上獲得更深的深度。

佛羅倫薩-2的對象檢測

對象檢測是計算機視覺中著名的任務之一。它處理給定圖像的找到一些對象。在對象檢測中，該模型標識圖像并提供對象周圍邊界框的X和Y坐標。 Florence-2 Vision語言模型非常能夠檢測給定圖像的對象。

讓我們使用以下圖像嘗試一下：

 image = image.open（“/content/van.jpg”）

如何使用Florence -2 -Analytics Vidhya執(zhí)行計算機視覺任務

在這里，我們有一張明亮的橙色面包車的圖像，背景中有一棟白色的建筑物。

為佛羅倫薩-2視覺語言模型提供圖像

現(xiàn)在，讓我們將此圖像提供給佛羅倫薩-2視覺語言模型。

提示=“ <od>”

輸入=處理器（text =提示，images = image，return_tensors =“ pt”）。to（“ cuda”）

生成_ids = model.generate（
    input_ids = inputs [“ input_ids”]，
    pixel_values = inputs [“ pixel_values”]，
    max_new_tokens = 512，
    do_sample = false，
）
text_generations = processor.batch_decode（generated_ids， 
skip_special_tokens = false）[0]

結(jié)果= processor.post_process_generation（text_generations， 
任務=提示，image_size =（image.width，image.height））
</od>

對象檢測的過程與我們剛剛完成的圖像字幕任務非常相似。這里唯一的區(qū)別是，我們將提示更改為含義對象檢測。因此，我們將此提示與圖像一起提供給處理器對象并獲取令牌化輸入。然后，我們將這些令牌化輸入帶有圖像像素值的佛羅倫薩-2視覺語言模型，以生成輸出。然后解碼此輸出。

輸出存儲在變量命名結(jié)果中?？勺兘Y(jié)果的格式{：{'bboxes'：[x1，y1，x2，y2]，…]，'labels'：['label1'，'label2'，…]}}。因此，佛羅倫薩-2視覺模型可為每個標記的邊界框，y coordins for for for每個對象。

在圖像上繪制界限

現(xiàn)在，我們將使用我們擁有的坐標在圖像上繪制這些邊界框。

導入matplotlib.pyplot作為PLT
導入matplotlib.patches作為補丁
圖，ax = plt.subplots（）
ax.Imshow（圖像）
對于bbox，在zip中標記（結(jié)果[提示] ['bboxes']，結(jié)果[提示] ['labels']）：
    x1，y1，x2，y2 = bbox
    rect_box = patches.trectangle（（x1，y1），x2-x1，y2-y1，lineWidth = 1， 
    edgecolor ='r'，faceColor ='none'）
    ax.add_patch（rect_box）
    plt.text（x1，y1，label，color ='white'，fontsize = 8，bbox = dict（faceColor ='red'，alpha = 0.5））
ax.axis（'off'）
plt.show（）

如何使用Florence -2 -Analytics Vidhya執(zhí)行計算機視覺任務

為了繪制圖像周圍的矩形邊界框，我們與matplotlib庫一起工作。
我們首先創(chuàng)建一個圖形和一個軸，然后顯示給佛羅倫薩-2視覺語言模型的圖像。
在這里，模型輸出的邊界框是包含x，y坐標的列表，在最終輸出中，有一個邊界框的列表，即每個標簽都有其自己的邊界框。
因此，我們迭代邊界框的列表。
然后，我們打開邊界框的X和Y坐標。
然后，我們與最后一步中解開包裝的坐標一起繪制矩形。
最后，我們將其修補為當前顯示的圖像。
我們甚至需要在邊界框中添加標簽，以說明邊界框包含什么對象。
最后，我們卸下軸。

運行此代碼并查看圖片，我們看到我們?yōu)槠涮峁┑姆秶鷪D像生成了許多界限框。我們看到該模型已檢測到面包車，窗戶和車輪，并能夠為每個標簽提供正確的坐標。

標題為短語接地

接下來，我們將執(zhí)行一個名為“標題為“短語接地”的任務”，佛羅倫薩-2模型支持。該模型的作用是給定圖像和標題，短語接地的任務是找到給定標題中的名詞短語中提到的每個 /最相關(guān)的實體 /對象。

我們可以使用以下代碼來查看此任務：

提示=“ <catchion_to_phrase_grounding>一輛橙色的貨車停在白色建筑物前”
task_type =“ <catchion_to_phrase_grounding>”
輸入=處理器（text =提示，images = image，return_tensors =“ pt”）。to（“ cuda”）
生成_ids = model.generate（
    input_ids = inputs [“ input_ids”]，
    pixel_values = inputs [“ pixel_values”]，
    max_new_tokens = 512，
    do_sample = false，
）
text_generations = processor.batch_decode（generated_ids， 
skip_special_tokens = false）[0]
結(jié)果= processor.post_process_generation（text_generations， 
任務= task_type，image_size =（image.width，image.height））
</catchion_to_phrase_grounding></catchion_to_phrase_grounding>

在此提示，我們將其提供“ 一輛停在白色建筑物前的橙色面包車”，該任務是“ ”，而短語是“一個停在白色建筑物前面的橙色貨車”。佛羅倫薩模型試圖將邊界框生成可以從此給定短語中獲得的對象/實體。讓我們通過繪制最終輸出來查看最終輸出。

導入matplotlib.pyplot作為PLT
導入matplotlib.patches作為補丁
圖，ax = plt.subplots（）
ax.Imshow（圖像）
對于bbox，在zip中標記（結(jié)果[task_type] ['bboxes']，結(jié)果[task_type] ['labels']）：
    x1，y1，x2，y2 = bbox
    rect_box = patches.trectangle（（x1，y1），x2-x1，y2-y1，lineWidth = 1， 
    edgecolor ='r'，faceColor ='none'）
    ax.add_patch（rect_box）
    plt.text（x1，y1，label，color ='white'，fontsize = 8，bbox = dict（faceColor ='red'，alpha = 0.5））
ax.axis（'off'）
plt.show（）

如何使用Florence -2 -Analytics Vidhya執(zhí)行計算機視覺任務

在這里，我們看到佛羅倫薩-2視覺語言模型能夠從中提取兩個實體。一個是橙色的面包車，另一輛是白色的建筑。然后，佛羅倫薩-2為每個實體生成了邊界框。這樣，給定標題，該模型可以從給定標題中提取相關(guān)實體/對象，并能夠為這些對象生成相應的邊界框。

佛羅倫薩-2分割

分割是一個過程，在其中拍攝圖像，并為圖像的多個部分生成掩模。每個掩碼是一個對象。分割是對象檢測的下一個階段。在對象檢測中，我們僅找到圖像的位置并生成邊界框。但是在分割中，我們沒有生成一個矩形邊界框，而是生成一個將處于對象形狀的掩碼，因此就像為該對象創(chuàng)建掩碼一樣。這很有幫助，因為我們不僅知道對象的位置，而且甚至知道對象的形狀。幸運的是，佛羅倫薩-2視覺語言模型支持細分。

對圖像進行分割

我們將嘗試對我們的面包車形象進行細分。

提示=“ <refering_expression_segentation>兩個黑色輪胎”
task_type =“ <refering_expression_sementation>”
輸入=處理器（text =提示，images = image，return_tensors =“ pt”）。to（“ cuda”）
生成_ids = model.generate（
    input_ids = inputs [“ input_ids”]，
    pixel_values = inputs [“ pixel_values”]，
    max_new_tokens = 512，
    do_sample = false，
）
text_generations = processor.batch_decode（generated_ids， 
skip_special_tokens = false）[0]

結(jié)果= processor.post_process_generation（text_generations， 
任務= task_type，image_size =（image.width，image.height））
</refering_expression_sementation></refering_expression_segentation>

在這里，該過程類似于圖像字幕和對象檢測任務。我們首先提供提示。
這里的提示為“ 兩個黑色輪胎”，其中該任務為分割。
分割將基于提供的文本輸入，在這里是“兩個黑色輪胎”。
因此，F(xiàn)lorence-2模型將嘗試生成與此文本輸入密切相關(guān)的面具和所提供的圖像。

在這里，結(jié)果變量將為格式{：{'polygons'：[[[[[polygon]]，…]，'labels'：[[“”，“”，…]}}}，其中每個對象/掩碼由多邊形列表表示。每個對象/掩碼列表。

創(chuàng)建口罩并覆蓋實際圖像

現(xiàn)在，我們將創(chuàng)建這些蒙版并在實際圖像上疊加它們，以便我們可以更好地可視化。

導入副本
導入numpy作為NP
來自ipython.display導入顯示
從PIL導入圖像，ImageDraw，ImageFont

output_image = copy.deepcopy（圖像）
res =結(jié)果[task_type]
draw = imagedraw.draw（output_image）
比例= 1
對于多邊形，在zip中標記（res ['polygons']，res ['labels']）：
    fill_color =“藍色”
    多邊形中的_polygon：
        _polygon = np.Array（_polygon）.Reshape（-1，2）
        如果Len（_polygon）<p><img  src="/static/imghw/default1.png" data-src="https://img.php.cn/upload/article/000/000/000/174502929770135.png" class="lazy" alt="如何使用Florence -2 -Analytics Vidhya執(zhí)行計算機視覺任務" ></p><h4>解釋</h4>

在這里，我們首先從PIL庫中導入各種工具進行圖像處理。
我們在新變量中創(chuàng)建圖像的深層副本，并將鍵“ ”的值存儲。
接下來，我們通過調(diào)用.draw（）方法創(chuàng)建ImageDraw實例并給出實際映像的副本來加載圖像。
接下來，我們迭代多邊形和標簽值的拉鏈。
對于每個多邊形，我們用名稱_polygon迭代單個多邊形并重塑它。 _polygon現(xiàn)在是一個高維列表。
我們知道_polygon必須至少有3個側(cè)面，以便可以連接。因此，我們檢查了此有效性條件，以查看_polygon列表至少有3個列表項目。
最后，我們通過調(diào)用.polygon（）方法并將其授予_polygon，在實際圖像的副本上繪制此_polygon。除此之外，我們甚至還給它帶有輪廓顏色和填充顏色。
如果Florence-2 Vision語言模型為這些多邊形生成標簽，那么我們甚至可以通過調(diào)用.text（）函數(shù)并將其列為標簽來將此文本繪制在實際圖像的副本上。
最后，在繪制了佛羅倫薩-2模型生成的所有多邊形之后，我們通過調(diào)用ipython庫的顯示函數(shù)來輸出圖像。

Florence-2 Vision語言模型成功地理解了我們對“兩個黑色輪胎”的查詢，并推斷出圖像包含一輛帶有可見黑色輪胎的車輛。該模型生成了這些輪胎的多邊形表示，并用藍色掩蓋。由于Microsoft團隊策劃了強大的培訓數(shù)據(jù)，該模型在各種計算機視覺任務上都表現(xiàn)出色。

結(jié)論

Florence-2是Microsoft團隊從頭開始創(chuàng)建和訓練的視覺語言模型。與其他視覺語言模型不同，F(xiàn)lorence-2執(zhí)行各種計算機視覺任務，包括對象檢測，圖像字幕，短語對象檢測，OCR，細分和這些組合。在本指南中，我們研究了如何下載Florence-2大型模型以及如何使用Florence-2更改提示執(zhí)行不同的計算機視覺任務。

關(guān)鍵要點

Florence-2型號有兩種尺寸。一個是基本變體，它是20億個參數(shù)版本，另一個是大型變體，是7億參數(shù)版本。
Microsoft Team在FLD 5B數(shù)據(jù)集中培訓了Florence-2模型，該模型是一個圖像數(shù)據(jù)集，其中包含Microsoft Team創(chuàng)建的不同圖像任務。
Florence-2接受圖像以及提示輸入。提示定義了佛羅倫薩-2視覺模型應執(zhí)行的任務類型的情況。
每個任務都會生成不同的輸出，所有這些輸出都是以文本格式生成的。
Florence-2是具有MIT許可證的開源模型，因此可以使用商業(yè)應用程序。