成人a大片在线观看,67194成人手机在线,懂色av

首頁

科技週邊

人工智慧

使用MaskFormer用於帶重疊對象的圖像

William Shakespeare

Mar 17, 2025 am 11:26 AM

蒙版：徹底改變圖像分割並註意

圖像分割是計(jì)算機(jī)視覺的基石，從模型設(shè)計(jì)的進(jìn)步中受益。 MaskFormer脫穎而出，是一種革命性的方法，利用面具的注意機(jī)制來應(yīng)對分割重疊對象的挑戰(zhàn)，這是傳統(tǒng)每金素方法的重大障礙。本文探討了MaskFormer的體系結(jié)構(gòu)，實(shí)現(xiàn)和現(xiàn)實(shí)世界應(yīng)用程序。

傳統(tǒng)的圖像分割模型通常會在重疊對像上掙扎。但是，MaskFormer使用變壓器體系結(jié)構(gòu)來克服此限制。儘管R-CNN和DETR等模型具有類似的功能，但MaskFormer的獨(dú)特方法值得仔細(xì)檢查。

學(xué)習(xí)目標(biāo)：

使用MaskFormer了解實(shí)例分割。
探索MaskFormer的操作原理。
分析MaskFormer的模型體系結(jié)構(gòu)。
實(shí)現(xiàn)蒙版推理。
發(fā)現(xiàn)MaskFormer的實(shí)際應(yīng)用。

（本文是數(shù)據(jù)科學(xué)博客馬拉鬆的一部分。）

目錄：

什麼是maskformer？
MaskFormer模型體系結(jié)構(gòu)
運(yùn)行模型
- 導(dǎo)入庫
- 加載預(yù)訓(xùn)練的模型
- 圖像準(zhǔn)備
- 模型推斷
- 結(jié)果可視化
MaskFormer的真實(shí)應(yīng)用程序
結(jié)論
- 資源
- 關(guān)鍵要點(diǎn)
常見問題

什麼是maskformer？

屏蔽器在語義和實(shí)例分段中均出色。語義分割將類標(biāo)籤分配給每個(gè)像素，將類似對象分組在一起。但是，實(shí)例細(xì)分區(qū)分了同一類的個(gè)別實(shí)例。 MaskFormer使用統(tǒng)一的掩碼分類方法唯一地處理兩種類型。此方法可預(yù)測每個(gè)對象實(shí)例的類標(biāo)籤和二進(jìn)制掩碼，從而使掩模重疊。

MaskFormer模型體系結(jié)構(gòu)

MaskFormer採用具有編碼器解碼器結(jié)構(gòu)的變壓器體系結(jié)構(gòu)。

使用MaskFormer用於帶重疊對象的圖像

卷積神經(jīng)網(wǎng)絡(luò)（CNN）骨幹提取圖像特徵（F）。像素解碼器會生成每個(gè)像素嵌入（e），同時(shí)捕獲本地和全局上下文。變壓器解碼器會生成每段嵌入（Q），本地化潛在對象實(shí)例。像素和掩模嵌入的點(diǎn)產(chǎn)物，其次是乙狀結(jié)激活，會產(chǎn)生二進(jìn)制蒙版。對於語義分割，這些蒙版和類標(biāo)籤是通過矩陣乘法組合的。這與傳統(tǒng)的變壓器不同，後者充當(dāng)編碼器。

運(yùn)行模型

本節(jié)詳細(xì)介紹了使用擁抱面孔庫庫運(yùn)行推斷。

導(dǎo)入庫：

從變形金剛導(dǎo)入MaskFormerFeatureExtractor，MaskFormerForinStancesementation
從PIL導(dǎo)入圖像
導(dǎo)入請求

加載預(yù)訓(xùn)練的模型：

 feature_extractor = maskFormerFeatureExtractor.from_pretrate（“ Facebook/maskformer-swin-base-coco”）
型號= maskformerforinStancesegessegention.from_pretrataining（“ Facebook/maskformer-swin-base-coco”）

圖像準(zhǔn)備：

 url =“ https://images.pexels.com/photos/5079180/pexels-photo-5079180.jpeg”
image = image.open（requests.get（url，stream = true）.raw）
輸入= feature_extractor（images = image，return_tensors =“ pt”）

使用MaskFormer用於帶重疊對象的圖像

模型推理：

輸出=模型（**輸入）
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

結(jié)果可視化：

結(jié)果= feature_extractor.post_process_panoptic_segmentation（輸出，target_sizes = [image.size [::--1]]）[0]
predicted_pa??noptic_map =結(jié)果[“分割”]

導(dǎo)入火炬
導(dǎo)入matplotlib.pyplot作為PLT
plt.imshow（predicted_pa??noptic_map）
plt.axis（'off'）
plt.show（）

使用MaskFormer用於帶重疊對象的圖像