国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁 科技周邊 人工智能 抹布系統(tǒng)的8種類型的塊 - 分析Vidhya

抹布系統(tǒng)的8種類型的塊 - 分析Vidhya

Mar 06, 2025 pm 12:00 PM

>解鎖在檢索型發(fā)電一代(抹布)中塊的力量:深度潛水

有效地處理大量文本數(shù)據(jù)對于構(gòu)建強大而有效的檢索生成(RAG)系統(tǒng)至關(guān)重要。 本文探討了各種構(gòu)成策略,對于優(yōu)化數(shù)據(jù)處理和改善AI驅(qū)動應(yīng)用程序的性能至關(guān)重要。 我們將深入研究不同的方法,強調(diào)他們的優(yōu)勢和劣勢,并提供實用的例子。 目錄的

抹布中有什么塊?
    >
  • 塊的重要性
  • 了解抹布架構(gòu)和塊狀
  • >抹布系統(tǒng)的共同挑戰(zhàn)
  • 選擇最佳塊策略
  • 基于字符的文本塊
  • 遞歸字符文本用langchain
  • 分裂
  • 文檔特定的塊(html,python,json等)
  • >語義塊與蘭班和Openai
  • 代理分解(LLM驅(qū)動的塊)
  • >
  • 基于截面的塊
  • >上下文塊,用于增強檢索
  • >保存遠距離上下文的后期塊
  • 結(jié)論
抹布中有什么塊?

8 Types of Chunking for RAG Systems - Analytics Vidhya8 Types of Chunking for RAG Systems - Analytics Vidhya 8 Types of Chunking for RAG Systems - Analytics Vidhya分解是將大型文本文檔分為較小,更易于管理的單元的過程。 這對于抹布系統(tǒng)至關(guān)重要,因為語言模型的上下文窗口有限。 塊確保相關(guān)信息保留在這些范圍之內(nèi),從而最大程度地提高信噪比并提高模型性能。 目的不僅是要拆分數(shù)據(jù),而且是要優(yōu)化其向模型的顯示,以增強可檢索性和準確性。

>

>

為什么要塊很重要? 色度聯(lián)合創(chuàng)始人安東·特洛伊尼科夫(Anton Troynikov)強調(diào),在上下文窗口中無關(guān)緊要的數(shù)據(jù)可顯著降低應(yīng)用程序效率。 分塊對于:

至關(guān)重要

克服上下文窗口限制:

確保由于尺寸限制而不會丟失關(guān)鍵信息。

  1. 提高信號噪聲比率:過濾不相關(guān)的內(nèi)容,提高模型精度。
  2. >提高檢索效率:促進相關(guān)信息的更快,更精確的檢索。
  3. 特定于任務(wù)的優(yōu)化:允許根據(jù)特定的應(yīng)用需求量身定制塊策略(例如,摘要與提問)。
  4. 抹布架構(gòu)和塊

    8 Types of Chunking for RAG Systems - Analytics Vidhya

    抹布架構(gòu)涉及三個關(guān)鍵階段:

    1. >塊:原始數(shù)據(jù)分為較小的,有意義的塊。
    2. 嵌入:塊被轉(zhuǎn)換為向量嵌入。
    3. 根據(jù)用戶查詢,檢索相關(guān)的塊
    4. > 檢索和生成:相關(guān)塊,LLM使用檢索到的信息生成響應(yīng)。

    抹布系統(tǒng)中的挑戰(zhàn) 抹布系統(tǒng)面臨幾個挑戰(zhàn):

    >
      檢索問題:
    1. 不準確或不完整地檢索相關(guān)信息。
    2. 生成困難:
    3. 幻覺,無關(guān)或有偏的輸出。
    4. 集成問題:
    5. 難以將檢索到的信息相干地組合。>
    選擇正確的塊策略

    > 理想的塊策略取決于幾個因素:內(nèi)容類型,嵌入模型和預(yù)期的用戶查詢。 考慮內(nèi)容的結(jié)構(gòu)和密度,嵌入模型的令牌限制以及用戶可能會提出的問題的類型。

    1?;谧址奈谋緣K

    這種簡單的方法根據(jù)字符數(shù)將文本分配到固定尺寸的塊中,無論語義含義如何。 雖然簡單明了,但它通常會破壞句子的結(jié)構(gòu)和上下文。 示例使用Python:

    2。遞歸字符文本用langchain
    text = "Clouds come floating into my life..."
    chunks = []
    chunk_size = 35
    chunk_overlap = 5
    # ... (Chunking logic as in the original example)

    分裂 >這種方法使用多個分離器(例如,雙新線,單個新線,空格)遞歸地分配文本,并合并較小的塊以優(yōu)化目標字符大小。 它比基于角色的塊更復(fù)雜,提供更好的上下文保存。 示例使用Langchain:

    3。文檔特定的塊
    # ... (LangChain installation and code as in the original example)

    使用格式特定的分隔符,此方法將塊適應(yīng)不同的文檔格式(HTML,Python,Markdown等)。 這確保了塊尊重文檔的固有結(jié)構(gòu)。 原始響應(yīng)中提供了使用Langchain進行Python和Markdown的示例。

    4。語義塊與蘭班和Openai

    語義塊的語義塊根據(jù)語義含義分開文本,使用句子嵌入等技術(shù)來識別自然斷點。 這種方法確保每個塊代表一個連貫的想法。使用Langchain和OpenAI嵌入式的示例:

    5。代理塊(LLM驅(qū)動的分塊)

    >

    代理塊利用LLM來識別文本中的自然斷點,從而產(chǎn)生了更多相關(guān)的塊。 這種方法利用LLM對語言和上下文的理解來產(chǎn)生更有意義的細分。 示例使用OpenAI API:

    text = "Clouds come floating into my life..."
    chunks = []
    chunk_size = 35
    chunk_overlap = 5
    # ... (Chunking logic as in the original example)
    6?;诮孛娴膲K

    >此方法利用文檔的固有結(jié)構(gòu)(標題,小標題,部分)來定義塊。這對于結(jié)構(gòu)良好的文檔(例如研究論文或報告)特別有效。 使用Pymupdf和潛在的Dirichlet分配(LDA)進行基于主題的塊:

    # ... (LangChain installation and code as in the original example)
    7。上下文塊

    上下文塊的重點是在每個塊中保存語義上下文。 這樣可以確保檢索到的信息連貫且相關(guān)。示例使用Langchain和自定義提示:

    # ... (OpenAI API key setup and code as in the original example)
    8。晚分塊

    >較晚的分塊延遲塊,直到為整個文檔生成嵌入后。這可以保留遠距離上下文依賴性,從而提高了嵌入和檢索的準確性。使用Jina嵌入模型的示例:

    # ... (OpenAI API key setup and code as in the original example)
    結(jié)論

    >有效的塊對于構(gòu)建高性能的抹布系統(tǒng)至關(guān)重要。切塊策略的選擇顯著影響信息檢索的質(zhì)量和產(chǎn)生的響應(yīng)的連貫性。 通過仔細考慮數(shù)據(jù)的特征和應(yīng)用程序的特定要求,開發(fā)人員可以選擇最合適的塊方法來優(yōu)化其抹布系統(tǒng)的性能。 請記住,始終優(yōu)先考慮在每個塊中保持上下文的完整性和相關(guān)性。>

以上是抹布系統(tǒng)的8種類型的塊 - 分析Vidhya的詳細內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻,版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機

Video Face Swap

Video Face Swap

使用我們完全免費的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

AI投資者停滯不前? 3條購買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 AI投資者停滯不前? 3條購買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 Jul 02, 2025 am 11:13 AM

投資蓬勃發(fā)展,但僅資本還不夠。隨著估值的上升和獨特性的衰落,以AI為中心的風(fēng)險投資的投資者必須做出關(guān)鍵決定:購買,建立或合作伙伴才能獲得優(yōu)勢?這是評估每個選項和PR的方法

AGI和AI超級智能將嚴重擊中人類天花板的假設(shè)障礙 AGI和AI超級智能將嚴重擊中人類天花板的假設(shè)障礙 Jul 04, 2025 am 11:10 AM

讓我們來談?wù)劇? 對創(chuàng)新AI突破的分析是我正在進行的AI中正在進行的福布斯列覆蓋的一部分,包括識別和解釋各種有影響力的AI復(fù)雜性(請參閱此處的鏈接)。 前往Agi和

Kimi K2:最強大的開源代理模型 Kimi K2:最強大的開源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時候破壞了Genai行業(yè)的大量開源中國模型嗎?盡管DeepSeek占據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

未來預(yù)測從AI到AGI的道路上的大規(guī)模情報爆炸 未來預(yù)測從AI到AGI的道路上的大規(guī)模情報爆炸 Jul 02, 2025 am 11:19 AM

讓我們來談?wù)劇? 對創(chuàng)新AI突破的分析是我正在進行的AI中正在進行的福布斯列覆蓋的一部分,包括識別和解釋各種有影響力的AI復(fù)雜性(請參閱此處的鏈接)。對于那些讀者

AMD繼續(xù)在AI中建立動力,還有很多工作要做 AMD繼續(xù)在AI中建立動力,還有很多工作要做 Jun 28, 2025 am 11:15 AM

總體而言,我認為該活動對于展示AMD如何向客戶和開發(fā)人員移動球非常重要。在SU下,AMD的M.O.要制定明確,雄心勃勃的計劃并對他們執(zhí)行。她的“說/do”比率很高。公司做

推理模型的思想鏈可能無法長期解決 推理模型的思想鏈可能無法長期解決 Jul 02, 2025 am 11:18 AM

例如,如果您向模型提出一個問題,例如:“(x)人在(x)公司做什么?”您可能會看到一個看起來像這樣的推理鏈,假設(shè)系統(tǒng)知道如何檢索必要的信息:找到有關(guān)CO的詳細信息

Grok 4 vs Claude 4:哪個更好? Grok 4 vs Claude 4:哪個更好? Jul 12, 2025 am 09:37 AM

到2025年中期,AI“軍備競賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車型Grok 4和Claude 4。這兩種模型處于設(shè)計理念和部署平臺的相反端,但他們卻在

人工智能將勒索,小偷,甚至為其隱藏的議程殺死 人工智能將勒索,小偷,甚至為其隱藏的議程殺死 Jun 26, 2025 am 10:36 AM

與AI使用相關(guān)的威脅在數(shù)量和嚴重性上都在增加,因為這種新時代的技術(shù)觸及了人類生活的越來越多?,F(xiàn)在的一份新報告警告說,與廣泛使用有關(guān)的另一個即將發(fā)生的危險

See all articles