成年女人永久免费看片,波多野结衣初尝黑人巨大

2。統(tǒng)一變壓器體系結(jié)構(gòu)

3。優(yōu)化的培訓(xùn)策略

步驟5。加載Janus Pro模型

結(jié)論

首頁

科技週邊

人工智慧

使用DeepSeek Janus Pro增強多模式抹布

William Shakespeare

Mar 05, 2025 am 09:47 AM

2025年1月27日啟動的DeepSeek Janus Pro 1B是一種高級多模式模型，該模型構(gòu)建了用於處理和生成文本提示的圖像。該10億個參數(shù)版本（1B）具有理解和創(chuàng)建圖像的能力，可為廣泛的應(yīng)用程序提供有效的性能，包括文本到圖像生成和圖像理解。此外，它擅長從照片中製作詳細的標(biāo)題，使其成為創(chuàng)意和分析任務(wù)的多功能工具。

學(xué)習(xí)目標(biāo)

分析其架構(gòu)和關(guān)鍵功能，以增強其功能。 >

>利用DeepSeek Janus Pro 10億個模型用於現(xiàn)實世界應(yīng)用。
了解DeepSeek Janus Pro如何優(yōu)化AI驅(qū)動的解決方案。
>本文是

> > data Science Blogathon的一部分。內(nèi)容表>學(xué)習(xí)目標(biāo)

>什麼是deepseek janus pro？

> janus pro 1b

步驟4。查詢和從保存的圖像中查詢和檢索步驟5。加載Janus Pro模型
步驟6。

什麼是deepseek janus pro？

> DeepSeek Janus Pro是一種多模式AI模型，它集成了文本和圖像處理，能夠理解和生成文本提示中的圖像。 10億個參數(shù)版本（1B）旨在跨文本到圖像生成和圖像理解任務(wù)等應(yīng)用程序的有效性能。

在DeepSeek的Janus Pro系列下，可用的主要模型是，它們的參數(shù)大小主要不同，7B模型明顯更大，並且在文本到圖像中的性能提高了，兩者都在文本到圖像中提供了改善的性能；兩者都可以認為是基於視覺上下文的多模型模型。Janus Pro 1b

的關(guān)鍵特徵和設(shè)計方面

架構(gòu)：Janus Pro使用統(tǒng)一的變壓器體系結(jié)構(gòu)，但將視覺編碼分解為單獨的途徑，以提高圖像理解和創(chuàng)建任務(wù)中的性能。
：它在與圖像的理解和基於文本提示的新生成有關(guān)的任務(wù)中脫穎而出。它支持384×384圖像輸入。 >
：為了理解任務(wù)，Janus使用siglip編碼圖像。 Siglip是一種使用Clip框架的圖像嵌入模型，但用成對的Sigmoid損失代替了損耗函數(shù)。對於圖像生成，Janus使用了Lamagen的現(xiàn)有編碼器，這是一種自回歸圖像生成模式。 Lallamagen是一個圖像生成模型的家族，將大型語言模型的下一句範(fàn)式應(yīng)用於視覺一代> >
>可在MIT許可下在GitHub上獲得，並由DeepSeek Model許可管理。也請閱讀：如何訪問DeepSeek Janus Pro 7b？

脫鉤體系結(jié)構(gòu)

通過採用單獨的專門途徑進行視覺編碼，而不是依靠單個視覺編碼器來了解圖像理解和生成。

使用DeepSeek Janus Pro增強多模式抹布 >

圖像理解編碼器。

此途徑從圖像中提取語義特徵。

圖像生成編碼。 >這種解耦的架構(gòu)有助於特定於任務(wù)的優(yōu)化，減輕解釋和創(chuàng)造性綜合之間的衝突。獨立編碼器解釋輸入特徵，然後由統(tǒng)一自回歸變壓器處理。這允許多模式理解和生成組件獨立選擇其最合適的編碼方法。
>模型體系結(jié)構(gòu)的關(guān)鍵功能 1。視覺理解和發(fā)電

視覺理解途徑：視覺生成途徑

：對於圖像生成任務(wù)，Janus Pro使用Lamagen令牌以16的下降速率下降速度來生成更詳細的圖像。

2。統(tǒng)一變壓器體系結(jié)構(gòu)

>共享的變壓器主鍊是underfortext和圖像特徵融合。將原始輸入轉(zhuǎn)換為功能的獨立編碼方法由統(tǒng)一自動回歸變壓器處理。

3。優(yōu)化的培訓(xùn)策略

在Janus Pro中得到了改進：

帶有DeepSeek Janus Pro 1b模型的多模式抹布

在以下步驟中，我們將構(gòu)建一個多模式的抹布系統(tǒng)，以根據(jù)DeepSeek Janus Pro 1b模型查詢圖像。

>步驟1。安裝必要的庫

!pip install byaldi ollama pdf2image
!sudo apt-get install -y poppler-utils
!git clone https://github.com/deepseek-ai/Janus.git
!pip install -e ./Janus

我們使用此PDF在接下來的一步中查詢並構(gòu)建一個抹布系統(tǒng)。在上面的代碼中，我們將圖像pdf與向量一起存儲。

>

>步驟4。從保存的圖像中查詢和檢索

import os
from pathlib import Path
from byaldi import RAGMultiModalModel
import ollama
# Initialize RAGMultiModalModel
model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")

根據(jù)查詢，從PDF頁面中的頁面中的相關(guān)頁面被檢索並保存為output_image.png。

步驟5。加載Janus Pro模型

!pip install byaldi ollama pdf2image
!sudo apt-get install -y poppler-utils
!git clone https://github.com/deepseek-ai/Janus.git
!pip install -e ./Janus

> vlchatprocessor.from_pretrated（“ deepseek-ai/janus-pro-1b”）加載用於處理多模式輸入（圖像和文本）的預(yù)處理的處理器。該處理器將為模型處理並準備輸入數(shù)據(jù)（例如文本和圖像）。

> automodelforcausallm.from_pretaining（“ deepseek-ai/janus-pro-1b”）

>加載預(yù)先訓(xùn)練的Janus Pro模型，專門用於因果語言建模。 > >也設(shè)置了一個多模式對話格式

在用戶輸入文本和圖像的位置。

。 > load_pil_images（對話）是一個函數(shù)，它可能會加載對話對像中列出的圖像並將它們轉(zhuǎn)換為pil映像格式，該函數(shù)通常用於python中的圖像處理。

處理器以下是多模式處理器的實例（來自deepseek janus pro模型的

vlchatprocessor

），將文本數(shù)據(jù)和圖像數(shù)據(jù)同時作為輸入。 preeg_inputs_embeds（inputs）是一種採用處理後的輸入（輸入包含文本和圖像）的方法，並準備模型生成響應(yīng)所需的嵌入。

步驟6。輸出生成

>代碼使用準備好的輸入嵌入（文本和圖像）從DeepSeek Janus Pro 1b模型中生成響應(yīng)。它使用多種配置設(shè)置，例如填充，啟動/結(jié)束令牌，最大令牌長度以及是否使用緩存和採樣。生成響應(yīng)後，它使用令牌器將令牌ID解碼為可讀的文本。解碼的輸出存儲在答案變量中。

整個代碼都存在於此COLAB筆記本中。

>

>查詢的輸出

import os
from pathlib import Path
from byaldi import RAGMultiModalModel
import ollama
# Initialize RAGMultiModalModel
model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")

>另一個查詢

的輸出

“法國的收入是多少？使用DeepSeek Janus Pro增強多模式抹布

即使Thecolqwen2檢索器檢索了相關(guān)頁面，DeepSeek Janus Pro 1b模型也無法從頁面中產(chǎn)生準確的答案，

即使相關(guān)頁面已檢索到相關(guān)頁面，上述響應(yīng)也不準確。確切的答案應(yīng)為$ 2B。

>另一個查詢的輸出

“”自FY20開始以來的促銷數(shù)量是多少？使用DeepSeek Janus Pro增強多模式抹布

上述響應(yīng)是正確的，因為它與PDF中提到的文本匹配。

結(jié)論

總之，DeepSeek Janus Pro 1b模型代表了多模式AI的重大進步，其脫鉤體系結(jié)構(gòu)優(yōu)化了圖像理解和生成任務(wù)。通過使用單獨的視覺編碼器來完成這些任務(wù)並完善其培訓(xùn)策略，Janus Pro在文本到圖像生成和圖像分析方面提供了增強的性能。這種創(chuàng)新的方法（帶有DeepSeek Janus Pro的多模式抹布）與其開源可訪問性相結(jié)合，使其成為AI驅(qū)動的視覺理解和創(chuàng)建中各種應(yīng)用的強大工具。

鑰匙要點

帶有雙途徑的多模式AI

脫鉤體系結(jié)構(gòu)：
> >統(tǒng)一變壓器骨幹
改進的培訓(xùn)策略：>
Janus Pro 1b在MIT許可下可在GitHub上獲得，鼓勵在各種AI驅(qū)動的應(yīng)用程序中廣泛使用和適應(yīng)。
常見問題 > Q1。什麼是deepseek janus pro 1b？

ans。 DeepSeek Janus Pro 1b是一種多模式AI模型，旨在集成文本和圖像處理，能夠理解和生成文本描述中的圖像。它具有10億參數(shù)，可在文本到圖像生成和圖像理解等任務(wù)中有效地執(zhí)行。 Janus Pro 1b的架構(gòu)如何工作？ Janus Pro使用帶有脫鉤的視覺編碼的統(tǒng)一變壓器體系結(jié)構(gòu)。這意味著它採用單獨的途徑來理解和生成，從而可以針對每個任務(wù)進行特定於任務(wù)的優(yōu)化。 Janus Pro的訓(xùn)練過程與以前的版本有何不同？ Janus Pro通過提高培訓(xùn)步驟，放棄Imagenet數(shù)據(jù)集而利用專門的文本圖數(shù)據(jù)，並專注於更好的微調(diào)以提高效率和性能。> Q4。使用Janus Pro 1b？

ans，什麼樣的應(yīng)用程序可以受益。 Janus Pro 1b對於涉及文本到圖像生成，圖像理解和多模式AI應(yīng)用程序的任務(wù)特別有用，這些應(yīng)用程序需要圖像和文本處理功能

Q5。 Janus-Pro如何與其他模型（如Dall-E 3？

ans）進行比較。根據(jù)DeepSeek的說法，Janus-Pro-7b在基準（例如Geneval和DPG基礎(chǔ)）的基準中優(yōu)於DALL-E 3。 Janus-Pro將理解/生成分開，縮放數(shù)據(jù)/模型以生成穩(wěn)定的圖像，並保持統(tǒng)一，靈活和具有成本效益的結(jié)構(gòu)。儘管這兩種模型都執(zhí)行文本形像生成，但Janus-Pro還提供圖像字幕，DALL-E 3不。

以上是使用DeepSeek Janus Pro增強多模式抹布的詳細內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本網(wǎng)站聲明

本文內(nèi)容由網(wǎng)友自願投稿，版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容，請聯(lián)絡(luò)admin@php.cn