国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁 科技週邊 人工智慧 抹布系統(tǒng)的8種類型的塊 - 分析Vidhya

抹布系統(tǒng)的8種類型的塊 - 分析Vidhya

Mar 06, 2025 pm 12:00 PM

>解鎖在檢索型發(fā)電一代(抹布)中塊的力量:深度潛水

有效地處理大量文本數(shù)據(jù)對(duì)於構(gòu)建強(qiáng)大而有效的檢索生成(RAG)系統(tǒng)至關(guān)重要。 本文探討了各種構(gòu)成策略,對(duì)於優(yōu)化數(shù)據(jù)處理和改善AI驅(qū)動(dòng)應(yīng)用程序的性能至關(guān)重要。 我們將深入研究不同的方法,強(qiáng)調(diào)他們的優(yōu)勢(shì)和劣勢(shì),並提供實(shí)用的例子。 目錄的

抹布中有什麼塊?
    >
  • 塊的重要性
  • 了解抹布架構(gòu)和塊狀
  • >抹布系統(tǒng)的共同挑戰(zhàn)
  • 選擇最佳塊策略
  • 基於字符的文本塊
  • 遞歸字符文本用langchain
  • 分裂
  • 文檔特定的塊(html,python,json等)
  • >語義塊與蘭班和Openai
  • 代理分解(LLM驅(qū)動(dòng)的塊)
  • >
  • 基於截面的塊
  • >上下文塊,用於增強(qiáng)檢索
  • >保存遠(yuǎn)距離上下文的後期塊
  • 結(jié)論
抹布中有什麼塊?

8 Types of Chunking for RAG Systems - Analytics Vidhya8 Types of Chunking for RAG Systems - Analytics Vidhya 8 Types of Chunking for RAG Systems - Analytics Vidhya分解是將大型文本文檔分為較小,更易於管理的單元的過程。 這對(duì)於抹布系統(tǒng)至關(guān)重要,因?yàn)檎Z言模型的上下文窗口有限。 塊確保相關(guān)信息保留在這些範(fàn)圍之內(nèi),從而最大程度地提高信噪比並提高模型性能。 目的不僅是要拆分?jǐn)?shù)據(jù),而且是要優(yōu)化其向模型的顯示,以增強(qiáng)可檢索性和準(zhǔn)確性。

>

>

為什麼要塊很重要? 色度聯(lián)合創(chuàng)始人安東·特洛伊尼科夫(Anton Troynikov)強(qiáng)調(diào),在上下文窗口中無關(guān)緊要的數(shù)據(jù)可顯著降低應(yīng)用程序效率。 分塊對(duì)於:

至關(guān)重要

克服上下文窗口限制:

確保由於尺寸限製而不會(huì)丟失關(guān)鍵信息。

  1. 提高信號(hào)噪聲比率:過濾不相關(guān)的內(nèi)容,提高模型精度。
  2. >提高檢索效率:促進(jìn)相關(guān)信息的更快,更精確的檢索。
  3. 特定於任務(wù)的優(yōu)化:允許根據(jù)特定的應(yīng)用需求量身定制塊策略(例如,摘要與提問)。
  4. 抹布架構(gòu)和塊

    8 Types of Chunking for RAG Systems - Analytics Vidhya

    抹布架構(gòu)涉及三個(gè)關(guān)鍵階段:

    1. >塊:原始數(shù)據(jù)分為較小的,有意義的塊。
    2. 嵌入:塊被轉(zhuǎn)換為向量嵌入。
    3. 根據(jù)用戶查詢,檢索相關(guān)的塊
    4. > 檢索和生成:相關(guān)塊,LLM使用檢索到的信息生成響應(yīng)。

    抹布系統(tǒng)中的挑戰(zhàn) 抹布系統(tǒng)面臨幾個(gè)挑戰(zhàn):

    >
      檢索問題:
    1. 不準(zhǔn)確或不完整地檢索相關(guān)信息。
    2. 生成困難:
    3. 幻覺,無關(guān)或有偏的輸出。
    4. 集成問題:
    5. 難以將檢索到的信息相干地組合。 >
    選擇正確的塊策略

    > 理想的塊策略取決於幾個(gè)因素:內(nèi)容類型,嵌入模型和預(yù)期的用戶查詢。 考慮內(nèi)容的結(jié)構(gòu)和密度,嵌入模型的令牌限制以及用戶可能會(huì)提出的問題的類型。

    1。基於字符的文本塊

    這種簡(jiǎn)單的方法根據(jù)字符數(shù)將文本分配到固定尺寸的塊中,無論語義含義如何。 雖然簡(jiǎn)單明了,但它通常會(huì)破壞句子的結(jié)構(gòu)和上下文。 示例使用Python:

    2。遞歸字符文本用langchain
    text = "Clouds come floating into my life..."
    chunks = []
    chunk_size = 35
    chunk_overlap = 5
    # ... (Chunking logic as in the original example)

    分裂 >這種方法使用多個(gè)分離器(例如,雙新線,單個(gè)新線,空格)遞歸地分配文本,並合併較小的塊以優(yōu)化目標(biāo)字符大小。 它比基於角色的塊更複雜,提供更好的上下文保存。 示例使用Langchain:

    3。文檔特定的塊
    # ... (LangChain installation and code as in the original example)

    使用格式特定的分隔符,此方法將塊適應(yīng)不同的文檔格式(HTML,Python,Markdown等)。 這確保了塊尊重文檔的固有結(jié)構(gòu)。 原始響應(yīng)中提供了使用Langchain進(jìn)行Python和Markdown的示例。

    4。語義塊與蘭班和Openai

    語義塊的語義塊根據(jù)語義含義分開文本,使用句子嵌入等技術(shù)來識(shí)別自然斷點(diǎn)。 這種方法確保每個(gè)塊代表一個(gè)連貫的想法。使用Langchain和OpenAI嵌入式的示例:

    5。代理塊(LLM驅(qū)動(dòng)的分塊)

    >

    代理塊利用LLM來識(shí)別文本中的自然斷點(diǎn),從而產(chǎn)生了更多相關(guān)的塊。 這種方法利用LLM對(duì)語言和上下文的理解來產(chǎn)生更有意義的細(xì)分。 示例使用OpenAI API:

    text = "Clouds come floating into my life..."
    chunks = []
    chunk_size = 35
    chunk_overlap = 5
    # ... (Chunking logic as in the original example)
    6?;督孛娴膲K

    >此方法利用文檔的固有結(jié)構(gòu)(標(biāo)題,小標(biāo)題,部分)來定義塊。這對(duì)於結(jié)構(gòu)良好的文檔(例如研究論文或報(bào)告)特別有效。 使用Pymupdf和潛在的Dirichlet分配(LDA)進(jìn)行基於主題的塊:

    # ... (LangChain installation and code as in the original example)
    7。上下文塊

    上下文塊的重點(diǎn)是在每個(gè)塊中保存語義上下文。 這樣可以確保檢索到的信息連貫且相關(guān)。示例使用Langchain和自定義提示:

    # ... (OpenAI API key setup and code as in the original example)
    8。晚分塊

    >較晚的分塊延遲塊,直到為整個(gè)文檔生成嵌入後。這可以保留遠(yuǎn)距離上下文依賴性,從而提高了嵌入和檢索的準(zhǔn)確性。使用Jina嵌入模型的示例:

    # ... (OpenAI API key setup and code as in the original example)
    結(jié)論

    >有效的塊對(duì)於構(gòu)建高性能的抹布系統(tǒng)至關(guān)重要。切塊策略的選擇顯著影響信息檢索的質(zhì)量和產(chǎn)生的響應(yīng)的連貫性。 通過仔細(xì)考慮數(shù)據(jù)的特徵和應(yīng)用程序的特定要求,開發(fā)人員可以選擇最合適的塊方法來優(yōu)化其抹布系統(tǒng)的性能。 請(qǐng)記住,始終優(yōu)先考慮在每個(gè)塊中保持上下文的完整性和相關(guān)性。 >

以上是抹布系統(tǒng)的8種類型的塊 - 分析Vidhya的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

前7個(gè)筆記本替代品 前7個(gè)筆記本替代品 Jun 17, 2025 pm 04:32 PM

Google的NotebookLM是由Gemini 2.5提供動(dòng)力的智能AI筆記工具,它在匯總文檔方面表現(xiàn)出色。但是,它在工具使用方面仍然有局限性,例如源蓋,雲(yún)依賴性和最近的“發(fā)現(xiàn)”功能

從採(cǎi)用到優(yōu)勢(shì):2025年塑造企業(yè)LLM的10個(gè)趨勢(shì) 從採(cǎi)用到優(yōu)勢(shì):2025年塑造企業(yè)LLM的10個(gè)趨勢(shì) Jun 20, 2025 am 11:13 AM

以下是重塑企業(yè)AI景觀的十種引人注目的趨勢(shì)。對(duì)LLMSorganizations的財(cái)務(wù)承諾正在大大增加其在LLMS的投資,其中72%的人預(yù)計(jì)他們的支出今年會(huì)增加。目前,近40%a

AI投資者停滯不前? 3條購(gòu)買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 AI投資者停滯不前? 3條購(gòu)買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 Jul 02, 2025 am 11:13 AM

投資蓬勃發(fā)展,但僅資本還不夠。隨著估值的上升和獨(dú)特性的衰落,以AI為中心的風(fēng)險(xiǎn)投資的投資者必須做出關(guān)鍵決定:購(gòu)買,建立或合作夥伴才能獲得優(yōu)勢(shì)?這是評(píng)估每個(gè)選項(xiàng)和PR的方法

生成AI的不可阻擋的增長(zhǎng)(AI Outlook第1部分) 生成AI的不可阻擋的增長(zhǎng)(AI Outlook第1部分) Jun 21, 2025 am 11:11 AM

披露:我的公司Tirias Research已向IBM,NVIDIA和本文提到的其他公司諮詢。 Growth驅(qū)動(dòng)力的生成AI採(cǎi)用的激增比最樂觀的預(yù)測(cè)更具戲劇性。然後,

新蓋洛普?qǐng)?bào)告:AI文化準(zhǔn)備就緒需要新的心態(tài) 新蓋洛普?qǐng)?bào)告:AI文化準(zhǔn)備就緒需要新的心態(tài) Jun 19, 2025 am 11:16 AM

廣泛採(cǎi)用和情感準(zhǔn)備之間的差距揭示了人類如何與越來越多的數(shù)字伴侶互動(dòng)。我們正在進(jìn)入共存階段,算法編織到我們的日?,F(xiàn)場(chǎng)

這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 Jun 20, 2025 am 11:16 AM

由於AI,那些日子是編號(hào)的。根據(jù)一個(gè)螺柱,搜索企業(yè)諸如Travel網(wǎng)站皮劃艇和Edtech Company Chegg之類的企業(yè)正在下降,部分原因是60%的網(wǎng)站搜索不會(huì)導(dǎo)致用戶單擊任何鏈接。

AGI和AI超級(jí)智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 AGI和AI超級(jí)智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 Jul 04, 2025 am 11:10 AM

讓我們來談?wù)劇? 對(duì)創(chuàng)新AI突破的分析是我正在進(jìn)行的AI中正在進(jìn)行的福布斯列覆蓋的一部分,包括識(shí)別和解釋各種有影響力的AI複雜性(請(qǐng)參閱此處的鏈接)。 前往Agi和

思科在美國(guó)2025 思科在美國(guó)2025 Jun 19, 2025 am 11:10 AM

讓我們仔細(xì)研究一下我發(fā)現(xiàn)的最重要的東西,以及思科如何以其目前的努力來進(jìn)一步實(shí)現(xiàn)其野心。

See all articles