Meta的細(xì)分模型(SAM)證明了其在圖像不同區(qū)域中檢測(cè)對(duì)象的能力。該模型的體系結(jié)構(gòu)靈活,用戶可以通過(guò)各種提示進(jìn)行指導(dǎo)。在培訓(xùn)期間,它可以分割其數(shù)據(jù)集中的對(duì)象。
這些功能使該模型成為用於任何目的檢測(cè)和分割對(duì)象的高效工具。正如我們?cè)谧詣?dòng)駕駛汽車(chē)和機(jī)器人技術(shù)等基於行業(yè)的應(yīng)用中所看到的那樣,該工具也可以用於特定的細(xì)分任務(wù)。該模型的另一個(gè)至關(guān)重要的細(xì)節(jié)是如何使用口罩和邊界框分割圖像,這對(duì)於它用於醫(yī)療目的而言至關(guān)重要。
但是,Meta的分段用於醫(yī)學(xué)成像的任何模型在診斷和檢測(cè)掃描圖像中異常情況方面起著巨大作用。 MEDSAM在從不同來(lái)源收集的圖像面罩對(duì)上訓(xùn)練模型。該數(shù)據(jù)集還涵蓋了15多種圖像方式和30多種癌癥類(lèi)型。
我們將討論該模型如何使用邊界框從醫(yī)療圖像中檢測(cè)對(duì)象。
學(xué)習(xí)目標(biāo)
- Meta的細(xì)分模型(SAM)在圖像的各個(gè)區(qū)域的分割對(duì)象方面都表現(xiàn)出色,從而使其高度適應(yīng)各種任務(wù)。
- Sam檢測(cè)到其訓(xùn)練數(shù)據(jù)集超出對(duì)象的能力展示了其靈活性,尤其是與邊界框和麵具結(jié)合使用時(shí)。
- MedSAM是SAM的微調(diào)版本,通過(guò)處理複雜的診斷任務(wù)(例如在15個(gè)成像方式中檢測(cè)癌癥)來(lái)增強(qiáng)醫(yī)學(xué)成像。
- 通過(guò)使用邊界框和有效的計(jì)算技術(shù),MEDSAM可以?xún)?yōu)化醫(yī)療圖像分割,從而突破醫(yī)療保健AI應(yīng)用的邊界。
- 山姆的核心多功能性與Medsam的醫(yī)學(xué)專(zhuān)業(yè)化相結(jié)合,為在機(jī)器人技術(shù),自動(dòng)駕駛汽車(chē)和醫(yī)療保健等領(lǐng)域的圖像分析中徹底改變了巨大的潛力。
本文作為數(shù)據(jù)科學(xué)博客馬拉鬆的一部分發(fā)表。
目錄
- 細(xì)分模型(SAM)如何工作?
- SAM可以直接應(yīng)用於醫(yī)學(xué)成像嗎?
- MEDSAM的模型架構(gòu)
- 如何將MEDSAM用於醫(yī)學(xué)成像
- 該模型的應(yīng)用:未來(lái)有什麼影響?
- 結(jié)論
- 常見(jiàn)問(wèn)題
細(xì)分模型(SAM)如何工作?
SAM是由Meta開(kāi)發(fā)的圖像分割模型,可在圖像的幾乎任何區(qū)域中識(shí)別對(duì)象。該模型的最佳屬性是其多功能性,它可以在檢測(cè)圖像時(shí)概括。
該模型經(jīng)過(guò)了令人著迷的1100萬(wàn)次現(xiàn)實(shí)圖像的培訓(xùn),但更有趣的是,它可以分割其數(shù)據(jù)集中甚至不存在的對(duì)象。
有許多具有不同結(jié)構(gòu)的圖像分割和對(duì)象檢測(cè)模型。像這樣的模型可能是特定於任務(wù)的模型或基本模型,但是SAM是一個(gè)“分段”模型,既可以是一個(gè)良好的基礎(chǔ)背景來(lái)檢測(cè)數(shù)百萬(wàn)張圖像,同時(shí)還為微調(diào)留出了空間。就像Medsam一樣,研究人員會(huì)帶來(lái)各種想法。
山姆能力的亮點(diǎn)是其適應(yīng)能力。它也是一個(gè)基於及時(shí)的細(xì)分模型,這意味著它可以接收有關(guān)如何執(zhí)行細(xì)分任務(wù)的信息。其中包括前景,背景,粗糙的框,邊界框,口罩,文本和其他可以幫助模型分段圖像的信息。
該模型體系結(jié)構(gòu)的基本原理是圖像編碼器,提示編碼器和掩碼編碼器。這三個(gè)組件在執(zhí)行細(xì)分任務(wù)中都起著巨大的作用。圖像和提示編碼器有助於生成圖像和提示嵌入。蒙版編碼器檢測(cè)到使用提示的要分割的圖像生成的掩碼。
SAM可以直接應(yīng)用於醫(yī)學(xué)成像嗎?
將任何模型用於醫(yī)療目的是值得嘗試的。另外,該模型具有大型數(shù)據(jù)集和不同功能,那麼為什麼不醫(yī)學(xué)成像呢?但是,由於醫(yī)學(xué)圖像的性質(zhì)以及模型如何處理圖像中不確定的邊界框的問(wèn)題,在醫(yī)療細(xì)分中的應(yīng)用存在一些局限性。在醫(yī)學(xué)圖像中圖像面具的性質(zhì)中面臨的挑戰(zhàn),對(duì)專(zhuān)業(yè)化的需求變得至關(guān)重要。因此,這帶來(lái)了Medsam的創(chuàng)新,這是一種基於Sam的建築的細(xì)分模型,但是針對(duì)醫(yī)學(xué)圖像量身定制的。
該模型可以在解剖結(jié)構(gòu)和不同的圖像實(shí)例中處理各種任務(wù)。醫(yī)學(xué)成像通過(guò)此模型獲得有效的結(jié)果; 15個(gè)成像方式和30多種癌癥類(lèi)型顯示了MedSAM中涉及的大量醫(yī)學(xué)圖像分割培訓(xùn)。
MEDSAM的模型架構(gòu)
MEDSAM建立在預(yù)先訓(xùn)練的SAM模型上。該框架涉及圖像和提示編碼器生成目標(biāo)圖像上掩碼的嵌入。
段中的圖像編碼器任何模型都會(huì)處理需要大量計(jì)算能力的位置信息。為了提高過(guò)程效率,該模型的研究人員決定“凍結(jié)”圖像編碼器和提示編碼器。這意味著他們?cè)谂嘤?xùn)期間停止更新或更改這些零件。
提示編碼器使用來(lái)自SAM中的邊界框編碼器的數(shù)據(jù)有助於理解對(duì)象的位置,也保持不變。通過(guò)冷凍這些組件,它們降低了所需的計(jì)算能力,並使系統(tǒng)更有效。
研究人員改善了該模型的體系結(jié)構(gòu),以提高其效率。在提示模型之前,他們計(jì)算了訓(xùn)練圖像的圖像嵌入,以避免重複計(jì)算。蒙版編碼器(唯一的一個(gè)微調(diào))現(xiàn)在創(chuàng)建了一個(gè)掩碼編碼器,而不是三個(gè),因?yàn)檫吔缈蛴兄肚宄囟x細(xì)分區(qū)域。這種方法使培訓(xùn)效率更高。
這是該模型如何工作的圖形說(shuō)明:
如何將MEDSAM用於醫(yī)學(xué)成像
該模型將需要一些庫(kù)才能運(yùn)行,我們將深入研究如何在圖像上運(yùn)行醫(yī)學(xué)成像分割任務(wù)。
安裝必要的庫(kù)
我們還需要更多庫(kù)來(lái)運(yùn)行此模型,因?yàn)槲覀冞€必須在提示的一部分上繪製邊界框上的線路。我們將從請(qǐng)求,numpy和metaplot開(kāi)始。
導(dǎo)入請(qǐng)求 導(dǎo)入numpy作為NP 導(dǎo)入matplotlib.pyplot作為PLT 從PIL導(dǎo)入圖像 從變形金剛進(jìn)口Sammodel,Samprocessor 導(dǎo)入火炬
“請(qǐng)求”庫(kù)有助於從其來(lái)源獲取圖像。 “ Numpy”庫(kù)變得有用,因?yàn)槲覀儓?zhí)行涉及邊界框坐標(biāo)的數(shù)值操作。 PIL和METAPLOT分別有助於圖像處理和顯示。除SAM模型外,處理器和火炬(以下代碼中定義的處理計(jì)算)是運(yùn)行此模型的重要軟件包。
設(shè)備=“ cuda”如果torch.cuda.is_available()else“ cpu”
加載預(yù)訓(xùn)練的SAM
型號(hào)= sammodel.from_pretretain(“ flaviagiammarino/medsam-vit-base”)。到(設(shè)備) processor = samprocessor.from_pretaining(“ flaviagiammarino/medsam-vit-base”)
因此,預(yù)訓(xùn)練的模型通常使用最合適的計(jì)算設(shè)備,例如GPU或CPU。此操作發(fā)生在加載模型的處理器並準(zhǔn)備圖像輸入數(shù)據(jù)之前。
圖像輸入
img_url =“ https://huggingface.co/flaviagiammarino/medsam-vit-base/resolve/main/scripts/input.png” raw_image = image.open(requests.get(img_url,stream = true).raw).convert(“ rgb”) input_boxes = [95.,255。,190.,350。]
用URL加載圖像很容易,尤其是在環(huán)境中的庫(kù)。我們還可以打開(kāi)圖像並將其轉(zhuǎn)換為兼容格式以進(jìn)行處理。 “ Input_boxes”列表定義了具有坐標(biāo)的邊界框[95,255,190,350]。該數(shù)字代表了感興趣區(qū)域的圖像最左側(cè)和右下角。使用邊界框,我們可以執(zhí)行針對(duì)特定區(qū)域的分割任務(wù)。
處理圖像輸入
接下來(lái),我們處理圖像輸入,運(yùn)行分割模型並準(zhǔn)備輸出掩碼。模型處理器準(zhǔn)備了原始圖像和輸入框,並將其轉(zhuǎn)換為合適的格式以進(jìn)行處理。之後,運(yùn)行處理後的輸入以預(yù)測(cè)掩模概率。該代碼為分段區(qū)域提供了一個(gè)精緻的,基於概率的掩碼。
inputs =處理器(raw_image,input_boxes = [[input_boxes]],return_tensors =“ pt”)。到(設(shè)備) 輸出=模型(**輸入,Multimask_output = false) probs = processor.image_processor.post_process_masks(outputs.pred_masks.sigmoid()。cpu(),inputs ['oinartion_sizes']。cpu(cpu(cpu(),inputs [“ reshaped_input_sizes sizes”]。
面具
def show_mask(掩碼,ax,andural_color): 如果random_color: color = np.concatenate([[np.random.random(3),np.array([0.6])],軸= 0) 別的: 顏色= np.Array([[251/255,252/255,30/255,0.6]) h,w = mask.shape [-2:] mask_image = mask.Reshape(H,W,1) * color.Reshape(1,1,-1) ax.imshow(mask_image)
在這裡,我們嘗試使用'ax在圖像上顯示彩色面膜。展示。' show_mask函數(shù)在圖上顯示分段蒙版。它可以使用隨機(jī)顏色或默認(rèn)的黃色。調(diào)整面罩以適合圖像,並用選定的顏色覆蓋,並使用“ ax.show”可視化。
之後,該函數(shù)使用坐標(biāo)及其位置繪製矩形。此過(guò)程如下所示。
def show_box(框,ax): x0,y0 = box [0],框[1] w,h = box [2] - 盒[0],框[3] - 盒[1] ax.add_patch(plt.Rectangle(((x0,y0),w,h,edgecolor =“ blue”,faceColor =(0,0,0,0,0,0),lw = 2))
輸出
圖,ax = plt.subplot(1,2,無(wú)花果=(10,5)) ax [0] .imshow(np.array(raw_image)) show_box(input_boxes,ax [0]) ax [0] .set_title(“輸入圖像和邊界框”) ax [0] .axis(“ off”) ax [1] .imshow(np.array(raw_image)) show_mask(mask = probs [0]> 0.5,ax = ax [1],andural_color = false) show_box(input_boxes,ax [1]) ax [1] .set_title(“ Medsam分割”) ax [1] .axis(“ off”) plt.show()
該代碼創(chuàng)建一個(gè)具有兩個(gè)並排子圖的圖形,以顯示帶有邊界框和結(jié)果的輸入圖像。第一個(gè)子圖顯示了帶有邊界框的原始圖像,第二個(gè)子圖顯示了帶有掩蓋和邊界框的圖像。
該模型的應(yīng)用:未來(lái)有什麼影響?
SAM作為基礎(chǔ)模型是多功能工具。憑藉其高的概括功能和來(lái)自現(xiàn)實(shí)世界圖像的數(shù)百萬(wàn)個(gè)數(shù)據(jù)集培訓(xùn),該模型可以做到很多。以下是該模型的一些常見(jiàn)應(yīng)用:
- 該工具最受歡迎的用途之一是圖像和視頻編輯,它簡(jiǎn)化了對(duì)象檢測(cè)和操縱圖像和視頻。
- 自動(dòng)駕駛汽車(chē)可以使用此模型有效地檢測(cè)對(duì)象,同時(shí)也了解每個(gè)場(chǎng)景的上下文。
- 機(jī)器人技術(shù)還需要對(duì)象檢測(cè)與環(huán)境相互作用。
MEDSAM在任何模型的用例中都是巨大的里程碑。醫(yī)學(xué)成像比常規(guī)圖像更複雜。該模型有助於我們理解這種情況。使用不同的診斷方法檢測(cè)醫(yī)學(xué)成像中的癌癥類(lèi)型和其他細(xì)胞可以使該模型更有效地用於特定於任務(wù)。
結(jié)論
Meta的細(xì)分市場(chǎng)的任何模型的多功能性都顯示出很大的潛力。它的醫(yī)學(xué)成像能力是徹底改變醫(yī)療保健行業(yè)的診斷和相關(guān)任務(wù)的重要里程碑。集成邊界框使其更加有效。隨著SAM基本模型的發(fā)展,醫(yī)學(xué)成像只能改善。
資源
- 擁抱臉
- AV Sam介紹
- 中等藥物
關(guān)鍵要點(diǎn)
- SAM基本模型的多功能性是研究人員如何微調(diào)醫(yī)學(xué)成像模型的基礎(chǔ)。另一個(gè)值得注意的屬性是它可以使用提示,邊界框和掩碼適應(yīng)各種任務(wù)的能力。
- MEDSAM接受了各種醫(yī)學(xué)成像數(shù)據(jù)集的培訓(xùn)。它涵蓋了15多種圖像模式和30多種癌癥類(lèi)型,這表明它可以有效地檢測(cè)到醫(yī)療掃描中的異常區(qū)域。
- 該模型的架構(gòu)也採(cǎi)用了正確的方法。將某些零件冷凍以降低計(jì)算成本,並將邊界框用作分段圖像區(qū)域的提示。
常見(jiàn)問(wèn)題
Q1。什麼是Meta的細(xì)分市場(chǎng)模型(SAM)?A. SAM是一種由Meta開(kāi)發(fā)的圖像處理技術(shù),用於檢測(cè)對(duì)象並將它們跨在圖像中的任何區(qū)域中。它還可以分割未在模型數(shù)據(jù)集中訓(xùn)練的對(duì)象。該模型經(jīng)過(guò)培訓(xùn),可以用提示和口罩進(jìn)行操作,並且在各個(gè)領(lǐng)域都具有適應(yīng)性。
Q2。 MEDSAM與原始SAM模型有何不同?A. Medsam是專(zhuān)為醫(yī)學(xué)成像設(shè)計(jì)的SAM的微調(diào)版本。雖然SAM是通用的,但MEDSAM被優(yōu)化以處理醫(yī)學(xué)成像的複雜性,這轉(zhuǎn)化為各種成像方式和癌癥檢測(cè)。
Q3。 SAM可以用於實(shí)時(shí)應(yīng)用嗎?答:該模型的多功能性和實(shí)時(shí)處理功能允許將其用於實(shí)時(shí)應(yīng)用程序,包括自動(dòng)駕駛汽車(chē)和機(jī)器人技術(shù)。它可以快速有效地檢測(cè)和理解圖像中的對(duì)象。
本文所示的媒體不由Analytics Vidhya擁有,並由作者酌情使用。
以上是探索Meta的部分醫(yī)學(xué)成像模型的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

熱AI工具

Undress AI Tool
免費(fèi)脫衣圖片

Undresser.AI Undress
人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門(mén)文章

熱工具

記事本++7.3.1
好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強(qiáng)大的PHP整合開(kāi)發(fā)環(huán)境

Dreamweaver CS6
視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版
神級(jí)程式碼編輯軟體(SublimeText3)

還記得今年早些時(shí)候破壞了Genai行業(yè)的大量開(kāi)源中國(guó)模型嗎??jī)嵐蹹eepSeek佔(zhàn)據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

讓我們來(lái)談?wù)劇? 對(duì)創(chuàng)新AI突破的分析是我正在進(jìn)行的AI中正在進(jìn)行的福布斯列覆蓋的一部分,包括識(shí)別和解釋各種有影響力的AI複雜性(請(qǐng)參閱此處的鏈接)。 前往Agi和

到2025年中期,AI“軍備競(jìng)賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車(chē)型Grok 4和Claude 4。這兩種模型處?kù)对O(shè)計(jì)理念和部署平臺(tái)的相反端,但他們卻在

我們將討論:公司開(kāi)始委派AI的工作職能,以及那些最不可能用人工智能替代的角色AI如何重塑行業(yè)和就業(yè),以及企業(yè)和工人的工作方式。

但是我們可能甚至不必等10年就可以看到一個(gè)。實(shí)際上,可以被認(rèn)為是真正有用的,類(lèi)人類(lèi)機(jī)器的第一波。 近年來(lái),有許多原型和生產(chǎn)模型從T中走出來(lái)

直到上一年,迅速的工程被認(rèn)為是與大語(yǔ)言模型(LLM)互動(dòng)的關(guān)鍵技能。然而,最近,LLM在推理和理解能力方面已經(jīng)顯著提高。自然,我們的期望

許多人充滿熱情地打入健身房,並相信自己正在正確實(shí)現(xiàn)自己的健身目標(biāo)。但是由於飲食計(jì)劃差和缺乏方向,結(jié)果不存在。僱用私人教練AL

我相信您必須了解通用的AI代理Manus。它是幾個(gè)月前推出的,在過(guò)去的幾個(gè)月中,他們?yōu)橄到y(tǒng)添加了幾個(gè)新功能。現(xiàn)在,您可以生成視頻,創(chuàng)建網(wǎng)站並做很多MO
