国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁(yè) 後端開(kāi)發(fā) php教程 有效的中文搜索與Elasticsearch

有效的中文搜索與Elasticsearch

Feb 19, 2025 am 08:28 AM

Elasticsearch 中文搜索:分析器與最佳實(shí)踐

Elasticsearch 的內(nèi)容索引中,分析和詞元化至關(guān)重要,尤其處理非英語(yǔ)語(yǔ)言時(shí)。對(duì)於中文,由於漢字的特性以及詞句之間缺乏空格,這一過(guò)程更為複雜。

本文探討 Elasticsearch 中分析中文內(nèi)容的幾種方案,包括默認(rèn)的中文分析器、paoding 插件、cjk 分析器、smartcn 分析器和 ICU 插件,並分析其優(yōu)缺點(diǎn)及適用場(chǎng)景。

中文搜索的挑戰(zhàn)

漢字是表意文字,代表一個(gè)詞或語(yǔ)素(語(yǔ)言中最小的有意義單位)。組合在一起,其含義會(huì)發(fā)生變化,代表一個(gè)全新的詞。另一個(gè)難點(diǎn)是詞句之間沒(méi)有空格,這使得計(jì)算機(jī)很難知道一個(gè)詞從哪裡開(kāi)始,到哪裡結(jié)束。

即使只考慮普通話(中國(guó)官方語(yǔ)言,也是世界上使用最廣泛的漢語(yǔ)),也有數(shù)萬(wàn)個(gè)漢字,即使實(shí)際書(shū)面漢語(yǔ)只需要認(rèn)識(shí)三千到四千個(gè)漢字。例如,“火山”(火山)實(shí)際上是以下兩個(gè)漢字的組合:

  • 火:火
  • 山:山

我們的分詞器必須足夠聰明,避免將這兩個(gè)漢字分開(kāi),因?yàn)樗鼈兘M合在一起的意義與分開(kāi)時(shí)不同。

另一個(gè)難點(diǎn)是使用的拼寫(xiě)變體:

  • 簡(jiǎn)體中文:書(shū)法
  • 繁體中文,更複雜、更豐富:書(shū)法
  • 拼音,普通話的羅馬化形式:shū fǎ

Elasticsearch 中的中文分析器

目前,Elasticsearch 提供以下幾種中文分析器:

  • 默認(rèn)的 Chinese 分析器,基於 Lucene 4 中已棄用的類;
  • paoding 插件,雖然不再維護(hù),但基於非常好的詞典;
  • cjk 分析器,它對(duì)內(nèi)容進(jìn)行二元組化;
  • smartcn 分析器,一個(gè)官方支持的插件;
  • ICU 插件及其分詞器。

這些分析器的差異很大,我們將通過(guò)一個(gè)簡(jiǎn)單的測(cè)試詞“手機(jī)”來(lái)比較它們的性能。 “手機(jī)”的意思是“手機(jī)”,它由兩個(gè)漢字組成,分別表示“手”和“機(jī)”。 “機(jī)”字還構(gòu)成許多其他詞:

  • 機(jī)票:機(jī)票
  • 機(jī)器人:機(jī)器人
  • 機(jī)槍:機(jī)槍
  • 機(jī)遇:機(jī)遇

我們的分詞不能拆分這些漢字,因?yàn)槿绻宜阉鳌笆謾C(jī)”,我不希望出現(xiàn)關(guān)於 Rambo 擁有機(jī)槍的任何文檔。

我們將使用強(qiáng)大的 _analyze API 測(cè)試這些方案:

curl -XGET 'http://localhost:9200/chinese_test/_analyze?analyzer=paoding_analyzer1' -d '手機(jī)'

Efficient Chinese Search with Elasticsearch

  • 默認(rèn)的 Chinese 分析器: 它只將所有漢字分成詞元。因此,我們得到兩個(gè)詞元:手和機(jī)。 Elasticsearch 的 standard 分析器產(chǎn)生完全相同的輸出。因此,Chinese 已棄用,很快將被 standard 取代,應(yīng)避免使用。

  • paoding 插件: paoding 幾乎是行業(yè)標(biāo)準(zhǔn),被認(rèn)為是一種優(yōu)雅的解決方案。不幸的是,Elasticsearch 的插件沒(méi)有維護(hù),我只能在經(jīng)過(guò)一些修改後才能在 1.0.1 版本上運(yùn)行它。 (安裝步驟略,原文已提供)安裝後,我們得到了一個(gè)新的 paoding 分詞器和兩個(gè)收集器:max_word_lenmost_word。默認(rèn)情況下沒(méi)有公開(kāi)分析器,因此我們必須聲明一個(gè)新的分析器。 (配置步驟略,原文已提供)兩種配置都提供了良好的結(jié)果,具有清晰且唯一的詞元。在處理更複雜的句子時(shí),其行為也非常好。

  • cjk 分析器: 非常簡(jiǎn)單的分析器,它只將任何文本轉(zhuǎn)換成二元組。 “手機(jī)”只索引手機(jī),效果不錯(cuò),但如果我們使用更長(zhǎng)的詞,例如“元宵節(jié)”(元宵節(jié)),則會(huì)生成兩個(gè)詞元:元宵和宵節(jié),分別表示“元宵”和“宵節(jié)”。

  • smartcn 插件: 非常易於安裝。 (安裝步驟略,原文已提供)它公開(kāi)了一個(gè)新的 smartcn 分析器,以及 smartcn_tokenizer 分詞器,使用 Lucene 的 SmartChineseAnalyzer。它使用概率套件來(lái)查找單詞的最佳分割,使用隱馬爾可夫模型和大量的訓(xùn)練文本。因此,已經(jīng)嵌入了一個(gè)相當(dāng)好的訓(xùn)練詞典——我們的示例被正確地分詞了。

  • ICU 插件: 另一個(gè)官方插件。 (安裝步驟略,原文已提供)如果您處理任何非英語(yǔ)語(yǔ)言,建議使用此插件。它公開(kāi)了一個(gè) icu_tokenizer 分詞器,以及許多強(qiáng)大的分析工具,如 icu_normalizer、icu_folding、icu_collation 等。它使用中文和日文字典,其中包含有關(guān)詞頻的信息,以推斷漢字組。在“手機(jī)”上,一切正常,並且按預(yù)期工作,但在“元宵節(jié)”上,會(huì)產(chǎn)生兩個(gè)詞元:元宵和節(jié)——這是因?yàn)椤霸焙汀肮?jié)”比“元宵節(jié)”更常見(jiàn)。

結(jié)果比較 (表格略,原文已提供)

從我的角度來(lái)看,paodingsmartcn 獲得了最佳結(jié)果。 chinese 分詞器非常糟糕,icu_tokenizer 在“元宵節(jié)”上有點(diǎn)令人失望,但在處理繁體中文方面表現(xiàn)非常好。

繁體中文支持

您可能需要處理來(lái)自文檔或用戶搜索請(qǐng)求的繁體中文。您需要一個(gè)規(guī)範(fàn)化步驟將這些繁體輸入轉(zhuǎn)換為現(xiàn)代中文,因?yàn)橄?smartcnpaoding 這樣的插件無(wú)法正確處理它。

您可以通過(guò)您的應(yīng)用程序進(jìn)行處理,或者嘗試使用 elasticsearch-analysis-stconvert 插件直接在 Elasticsearch 中進(jìn)行處理。它可以雙向轉(zhuǎn)換繁體字和簡(jiǎn)體字。 (安裝步驟略,原文已提供)

最後一種解決方案是使用 cjk:如果您無(wú)法正確分詞輸入,您仍然很有可能捕獲所需的文檔,然後使用 icu_tokenizer(也相當(dāng)好)來(lái)提高相關(guān)性。

進(jìn)一步的改進(jìn)

對(duì)於 Elasticsearch 的分析,沒(méi)有完美的萬(wàn)能解決方案,中文也不例外。您必鬚根據(jù)獲得的信息來(lái)組合和構(gòu)建自己的分析器。例如,我在搜索字段上使用 cjksmartcn 分詞,使用多字段和多匹配查詢。

(FAQ 部分略,原文已提供)

以上是有效的中文搜索與Elasticsearch的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門(mén)話題

如何在PHP中實(shí)施身份驗(yàn)證和授權(quán)? 如何在PHP中實(shí)施身份驗(yàn)證和授權(quán)? Jun 20, 2025 am 01:03 AM

tosecurelyhandleauthenticationandationallizationInphp,lofterTheSesteps:1.AlwaysHashPasswordSwithPassword_hash()andverifyusingspasspassword_verify(),usepreparedStatatementStopreventsqlineptions,andStoreSeruserDatain usseruserDatain $ _sessiveferterlogin.2.implementrole-2.imaccessccsccccccccccccccccccccccccc.

如何在PHP中安全地處理文件上傳? 如何在PHP中安全地處理文件上傳? Jun 19, 2025 am 01:05 AM

要安全處理PHP中的文件上傳,核心在於驗(yàn)證文件類型、重命名文件並限制權(quán)限。 1.使用finfo_file()檢查真實(shí)MIME類型,僅允許特定類型如image/jpeg;2.用uniqid()生成隨機(jī)文件名,存儲(chǔ)至非Web根目錄;3.通過(guò)php.ini和HTML表單限製文件大小,設(shè)置目錄權(quán)限為0755;4.使用ClamAV掃描惡意軟件,增強(qiáng)安全性。這些步驟有效防止安全漏洞,確保文件上傳過(guò)程安全可靠。

PHP中==(鬆散比較)和===(嚴(yán)格的比較)之間有什麼區(qū)別? PHP中==(鬆散比較)和===(嚴(yán)格的比較)之間有什麼區(qū)別? Jun 19, 2025 am 01:07 AM

在PHP中,==與===的主要區(qū)別在於類型檢查的嚴(yán)格程度。 ==在比較前會(huì)進(jìn)行類型轉(zhuǎn)換,例如5=="5"返回true,而===要求值和類型都相同才會(huì)返回true,例如5==="5"返回false。使用場(chǎng)景上,===更安全應(yīng)優(yōu)先使用,==僅在需要類型轉(zhuǎn)換時(shí)使用。

如何在PHP( - , *, /,%)中執(zhí)行算術(shù)操作? 如何在PHP( - , *, /,%)中執(zhí)行算術(shù)操作? Jun 19, 2025 pm 05:13 PM

PHP中使用基本數(shù)學(xué)運(yùn)算的方法如下:1.加法用 號(hào),支持整數(shù)和浮點(diǎn)數(shù),也可用於變量,字符串?dāng)?shù)字會(huì)自動(dòng)轉(zhuǎn)換但不推薦依賴;2.減法用-號(hào),變量同理,類型轉(zhuǎn)換同樣適用;3.乘法用*號(hào),適用於數(shù)字及類似字符串;4.除法用/號(hào),需避免除以零,並註意結(jié)果可能是浮點(diǎn)數(shù);5.取模用%號(hào),可用於判斷奇偶數(shù),處理負(fù)數(shù)時(shí)餘數(shù)符號(hào)與被除數(shù)一致。正確使用這些運(yùn)算符的關(guān)鍵在於確保數(shù)據(jù)類型清晰並處理好邊界情況。

如何與PHP的NOSQL數(shù)據(jù)庫(kù)(例如MongoDB,Redis)進(jìn)行交互? 如何與PHP的NOSQL數(shù)據(jù)庫(kù)(例如MongoDB,Redis)進(jìn)行交互? Jun 19, 2025 am 01:07 AM

是的,PHP可以通過(guò)特定擴(kuò)展或庫(kù)與MongoDB和Redis等NoSQL數(shù)據(jù)庫(kù)交互。首先,使用MongoDBPHP驅(qū)動(dòng)(通過(guò)PECL或Composer安裝)創(chuàng)建客戶端實(shí)例並操作數(shù)據(jù)庫(kù)及集合,支持插入、查詢、聚合等操作;其次,使用Predis庫(kù)或phpredis擴(kuò)展連接Redis,執(zhí)行鍵值設(shè)置與獲取,推薦phpredis用於高性能場(chǎng)景,Predis則便於快速部署;兩者均適用於生產(chǎn)環(huán)境且文檔完善。

我如何了解最新的PHP開(kāi)發(fā)和最佳實(shí)踐? 我如何了解最新的PHP開(kāi)發(fā)和最佳實(shí)踐? Jun 23, 2025 am 12:56 AM

TostaycurrentwithPHPdevelopmentsandbestpractices,followkeynewssourceslikePHP.netandPHPWeekly,engagewithcommunitiesonforumsandconferences,keeptoolingupdatedandgraduallyadoptnewfeatures,andreadorcontributetoopensourceprojects.First,followreliablesource

什麼是PHP,為什麼它用於Web開(kāi)發(fā)? 什麼是PHP,為什麼它用於Web開(kāi)發(fā)? Jun 23, 2025 am 12:55 AM

PHPbecamepopularforwebdevelopmentduetoitseaseoflearning,seamlessintegrationwithHTML,widespreadhostingsupport,andalargeecosystemincludingframeworkslikeLaravelandCMSplatformslikeWordPress.Itexcelsinhandlingformsubmissions,managingusersessions,interacti

如何設(shè)置PHP時(shí)區(qū)? 如何設(shè)置PHP時(shí)區(qū)? Jun 25, 2025 am 01:00 AM

tosetTherightTimeZoneInphp,restate_default_timezone_set()functionAtthestArtofyourscriptWithavalIdidentIdentifiersuchas'america/new_york'.1.usedate_default_default_timezone_set_set()

See all articles