国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁(yè) 科技周邊 人工智能 抹布系統(tǒng)的8種類(lèi)型的塊 - 分析Vidhya

抹布系統(tǒng)的8種類(lèi)型的塊 - 分析Vidhya

Mar 06, 2025 pm 12:00 PM

>解鎖在檢索型發(fā)電一代(抹布)中塊的力量:深度潛水

有效地處理大量文本數(shù)據(jù)對(duì)于構(gòu)建強(qiáng)大而有效的檢索生成(RAG)系統(tǒng)至關(guān)重要。 本文探討了各種構(gòu)成策略,對(duì)于優(yōu)化數(shù)據(jù)處理和改善AI驅(qū)動(dòng)應(yīng)用程序的性能至關(guān)重要。 我們將深入研究不同的方法,強(qiáng)調(diào)他們的優(yōu)勢(shì)和劣勢(shì),并提供實(shí)用的例子。 目錄的

抹布中有什么塊?
    >
  • 塊的重要性
  • 了解抹布架構(gòu)和塊狀
  • >抹布系統(tǒng)的共同挑戰(zhàn)
  • 選擇最佳塊策略
  • 基于字符的文本塊
  • 遞歸字符文本用langchain
  • 分裂
  • 文檔特定的塊(html,python,json等)
  • >語(yǔ)義塊與蘭班和Openai
  • 代理分解(LLM驅(qū)動(dòng)的塊)
  • >
  • 基于截面的塊
  • >上下文塊,用于增強(qiáng)檢索
  • >保存遠(yuǎn)距離上下文的后期塊
  • 結(jié)論
抹布中有什么塊?

8 Types of Chunking for RAG Systems - Analytics Vidhya8 Types of Chunking for RAG Systems - Analytics Vidhya 8 Types of Chunking for RAG Systems - Analytics Vidhya分解是將大型文本文檔分為較小,更易于管理的單元的過(guò)程。 這對(duì)于抹布系統(tǒng)至關(guān)重要,因?yàn)檎Z(yǔ)言模型的上下文窗口有限。 塊確保相關(guān)信息保留在這些范圍之內(nèi),從而最大程度地提高信噪比并提高模型性能。 目的不僅是要拆分?jǐn)?shù)據(jù),而且是要優(yōu)化其向模型的顯示,以增強(qiáng)可檢索性和準(zhǔn)確性。

>

>

為什么要塊很重要? 色度聯(lián)合創(chuàng)始人安東·特洛伊尼科夫(Anton Troynikov)強(qiáng)調(diào),在上下文窗口中無(wú)關(guān)緊要的數(shù)據(jù)可顯著降低應(yīng)用程序效率。 分塊對(duì)于:

至關(guān)重要

克服上下文窗口限制:

確保由于尺寸限制而不會(huì)丟失關(guān)鍵信息。

  1. 提高信號(hào)噪聲比率:過(guò)濾不相關(guān)的內(nèi)容,提高模型精度。
  2. >提高檢索效率:促進(jìn)相關(guān)信息的更快,更精確的檢索。
  3. 特定于任務(wù)的優(yōu)化:允許根據(jù)特定的應(yīng)用需求量身定制塊策略(例如,摘要與提問(wèn))。
  4. 抹布架構(gòu)和塊

    8 Types of Chunking for RAG Systems - Analytics Vidhya

    抹布架構(gòu)涉及三個(gè)關(guān)鍵階段:

    1. >塊:原始數(shù)據(jù)分為較小的,有意義的塊。
    2. 嵌入:塊被轉(zhuǎn)換為向量嵌入。
    3. 根據(jù)用戶查詢,檢索相關(guān)的塊
    4. > 檢索和生成:相關(guān)塊,LLM使用檢索到的信息生成響應(yīng)。

    抹布系統(tǒng)中的挑戰(zhàn) 抹布系統(tǒng)面臨幾個(gè)挑戰(zhàn):

    >
      檢索問(wèn)題:
    1. 不準(zhǔn)確或不完整地檢索相關(guān)信息。
    2. 生成困難:
    3. 幻覺(jué),無(wú)關(guān)或有偏的輸出。
    4. 集成問(wèn)題:
    5. 難以將檢索到的信息相干地組合。>
    選擇正確的塊策略

    > 理想的塊策略取決于幾個(gè)因素:內(nèi)容類(lèi)型,嵌入模型和預(yù)期的用戶查詢。 考慮內(nèi)容的結(jié)構(gòu)和密度,嵌入模型的令牌限制以及用戶可能會(huì)提出的問(wèn)題的類(lèi)型。

    1?;谧址奈谋緣K

    這種簡(jiǎn)單的方法根據(jù)字符數(shù)將文本分配到固定尺寸的塊中,無(wú)論語(yǔ)義含義如何。 雖然簡(jiǎn)單明了,但它通常會(huì)破壞句子的結(jié)構(gòu)和上下文。 示例使用Python:

    2。遞歸字符文本用langchain
    text = "Clouds come floating into my life..."
    chunks = []
    chunk_size = 35
    chunk_overlap = 5
    # ... (Chunking logic as in the original example)

    分裂 >這種方法使用多個(gè)分離器(例如,雙新線,單個(gè)新線,空格)遞歸地分配文本,并合并較小的塊以優(yōu)化目標(biāo)字符大小。 它比基于角色的塊更復(fù)雜,提供更好的上下文保存。 示例使用Langchain:

    3。文檔特定的塊
    # ... (LangChain installation and code as in the original example)

    使用格式特定的分隔符,此方法將塊適應(yīng)不同的文檔格式(HTML,Python,Markdown等)。 這確保了塊尊重文檔的固有結(jié)構(gòu)。 原始響應(yīng)中提供了使用Langchain進(jìn)行Python和Markdown的示例。

    4。語(yǔ)義塊與蘭班和Openai

    語(yǔ)義塊的語(yǔ)義塊根據(jù)語(yǔ)義含義分開(kāi)文本,使用句子嵌入等技術(shù)來(lái)識(shí)別自然斷點(diǎn)。 這種方法確保每個(gè)塊代表一個(gè)連貫的想法。使用Langchain和OpenAI嵌入式的示例:

    5。代理塊(LLM驅(qū)動(dòng)的分塊)

    >

    代理塊利用LLM來(lái)識(shí)別文本中的自然斷點(diǎn),從而產(chǎn)生了更多相關(guān)的塊。 這種方法利用LLM對(duì)語(yǔ)言和上下文的理解來(lái)產(chǎn)生更有意義的細(xì)分。 示例使用OpenAI API:

    text = "Clouds come floating into my life..."
    chunks = []
    chunk_size = 35
    chunk_overlap = 5
    # ... (Chunking logic as in the original example)
    6?;诮孛娴膲K

    >此方法利用文檔的固有結(jié)構(gòu)(標(biāo)題,小標(biāo)題,部分)來(lái)定義塊。這對(duì)于結(jié)構(gòu)良好的文檔(例如研究論文或報(bào)告)特別有效。 使用Pymupdf和潛在的Dirichlet分配(LDA)進(jìn)行基于主題的塊:

    # ... (LangChain installation and code as in the original example)
    7。上下文塊

    上下文塊的重點(diǎn)是在每個(gè)塊中保存語(yǔ)義上下文。 這樣可以確保檢索到的信息連貫且相關(guān)。示例使用Langchain和自定義提示:

    # ... (OpenAI API key setup and code as in the original example)
    8。晚分塊

    >較晚的分塊延遲塊,直到為整個(gè)文檔生成嵌入后。這可以保留遠(yuǎn)距離上下文依賴性,從而提高了嵌入和檢索的準(zhǔn)確性。使用Jina嵌入模型的示例:

    # ... (OpenAI API key setup and code as in the original example)
    結(jié)論

    >有效的塊對(duì)于構(gòu)建高性能的抹布系統(tǒng)至關(guān)重要。切塊策略的選擇顯著影響信息檢索的質(zhì)量和產(chǎn)生的響應(yīng)的連貫性。 通過(guò)仔細(xì)考慮數(shù)據(jù)的特征和應(yīng)用程序的特定要求,開(kāi)發(fā)人員可以選擇最合適的塊方法來(lái)優(yōu)化其抹布系統(tǒng)的性能。 請(qǐng)記住,始終優(yōu)先考慮在每個(gè)塊中保持上下文的完整性和相關(guān)性。>

以上是抹布系統(tǒng)的8種類(lèi)型的塊 - 分析Vidhya的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

AGI和AI超級(jí)智能將嚴(yán)重?fù)糁腥祟?lèi)天花板的假設(shè)障礙 AGI和AI超級(jí)智能將嚴(yán)重?fù)糁腥祟?lèi)天花板的假設(shè)障礙 Jul 04, 2025 am 11:10 AM

讓我們來(lái)談?wù)劇? 對(duì)創(chuàng)新AI突破的分析是我正在進(jìn)行的AI中正在進(jìn)行的福布斯列覆蓋的一部分,包括識(shí)別和解釋各種有影響力的AI復(fù)雜性(請(qǐng)參閱此處的鏈接)。 前往Agi和

Kimi K2:最強(qiáng)大的開(kāi)源代理模型 Kimi K2:最強(qiáng)大的開(kāi)源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時(shí)候破壞了Genai行業(yè)的大量開(kāi)源中國(guó)模型嗎?盡管DeepSeek占據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

Grok 4 vs Claude 4:哪個(gè)更好? Grok 4 vs Claude 4:哪個(gè)更好? Jul 12, 2025 am 09:37 AM

到2025年中期,AI“軍備競(jìng)賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車(chē)型Grok 4和Claude 4。這兩種模型處于設(shè)計(jì)理念和部署平臺(tái)的相反端,但他們卻在

深入探討人工智能如何幫助和危害各行各業(yè) 深入探討人工智能如何幫助和危害各行各業(yè) Jul 04, 2025 am 11:11 AM

我們將討論:公司開(kāi)始委派AI的工作職能,以及那些最不可能用人工智能替代的角色AI如何重塑行業(yè)和就業(yè),以及企業(yè)和工人的工作方式。

英超聯(lián)賽發(fā)揮了AI播放來(lái)增強(qiáng)球迷的體驗(yàn) 英超聯(lián)賽發(fā)揮了AI播放來(lái)增強(qiáng)球迷的體驗(yàn) Jul 03, 2025 am 11:16 AM

7月1日,英格蘭頂級(jí)足球聯(lián)盟(England)與一家主要科技公司揭示了為期五年的合作,以創(chuàng)建比簡(jiǎn)單的亮點(diǎn)卷軸更先進(jìn)的東西:一種由實(shí)時(shí)AI驅(qū)動(dòng)的工具,可為EV提供個(gè)性化的更新和互動(dòng)

今天已經(jīng)在我們中間走了10個(gè)驚人的人形機(jī)器人 今天已經(jīng)在我們中間走了10個(gè)驚人的人形機(jī)器人 Jul 16, 2025 am 11:12 AM

但是我們可能甚至不必等10年就可以看到一個(gè)。實(shí)際上,可以被認(rèn)為是真正有用的,類(lèi)人類(lèi)機(jī)器的第一波。 近年來(lái),有許多原型和生產(chǎn)模型從T中走出來(lái)

上下文工程是' new'及時(shí)的工程 上下文工程是' new'及時(shí)的工程 Jul 12, 2025 am 09:33 AM

直到上一年,迅速的工程被認(rèn)為是與大語(yǔ)言模型(LLM)互動(dòng)的關(guān)鍵技能。然而,最近,LLM在推理和理解能力方面已經(jīng)顯著提高。自然,我們的期望

Chip Ganassi Racing宣布Openai為中俄亥俄州IndyCar贊助商 Chip Ganassi Racing宣布Openai為中俄亥俄州IndyCar贊助商 Jul 03, 2025 am 11:17 AM

Openai是世界上最杰出的人工智能組織之一,將成為由三屆NTT IndyCar系列冠軍和2025 Indianapolis 500冠軍Alex PA驅(qū)動(dòng)的第10號(hào)Chip Ganassi Racing(CGR)本田的主要合作伙伴

See all articles