Elasticsearch Chinese Search: Analysers and Best Practices
L'analyse et la lexisation sont cruciales dans l'indice de contenu d'Elasticsearch, en particulier lorsqu'ils traitent des langues non anglophones. Pour le chinois, ce processus est encore plus compliqué en raison des caractéristiques des caractères chinois et du manque d'espaces entre les mots et les phrases.
Cet article traite de plusieurs solutions pour analyser le contenu chinois dans Elasticsearch, notamment l'analyseur chinois par défaut, le plug-in PAODing, l'analyseur CJK, l'analyseur SmartCN et le plug-in USI, et analyse leurs avantages et inconvénients et scénarios applicables.
Défis de la recherche chinoise
Les caractères chinois sont des idéogrammes qui représentent un mot ou des morphèmes (la plus petite unité significative de la langue). Lorsqu'il est combiné ensemble, sa signification changera, représentant un tout nouveau mot. Une autre difficulté est qu'il n'y a pas d'espaces entre les mots et les phrases, ce qui rend difficile pour les ordinateurs de savoir où commence et se termine un mot.
Même si vous ne considérez que le mandarin (la langue chinoise officielle et le chinois le plus utilisé au monde), il y a des dizaines de milliers de caractères chinois, même si vous écrivez réellement le chinois, vous n'avez qu'à conna?tre trois à quatre mille Caractères chinois. Par exemple, "Volcano" (volcan) est en fait une combinaison des deux caractères chinois suivants:
- Fire: Fire
- montagne: montagne
Notre Parti de la Parole doit être assez intelligent pour éviter de séparer ces deux caractères chinois, car leur signification est différente de la séparation.
Une autre difficulté est la variante d'orthographe utilisée:
- chinois simplifié: calligraphie
- Chinois traditionnel, plus complexe et plus riche: méthode du livre
- pinyin, forme romanisée de mandarin: shū fǎ
Analyseur chinois dans Elasticsearch
à l'heure actuelle, Elasticsearch fournit les analyseurs chinois suivants:
- Analyseur par défaut
Chinese
, basé sur des classes obsolètes dans Lucene 4; Le plugin - , bien que non maintenu, est basé sur un très bon dictionnaire;
paoding
Analyseur, qui binarrise le contenu;
-
cjk
Analyseur, un plug-in officiellement pris en charge; plug-in de soins intensifs et son dispositif de segmentation de mots. -
smartcn
Ces analyseurs varient considérablement et nous comparerons leurs performances avec un simple mot de test "téléphone mobile". "Téléphone mobile" signifie "téléphone mobile", qui se compose de deux caractères chinois, qui représentent "main" et "mobile". Le mot "ji" constitue également de nombreux autres mots:
robot: robot
- Match Gun: Machine Gun
- Opportunité: Opportunité
- Notre participe ne peut pas diviser ces caractères chinois parce que si je recherche "téléphone mobile", je ne veux pas de documentation sur la possession d'une mitrailleuse.
- Nous testerons ces solutions en utilisant la puissante API
_analyze
-
Default
Chinese
analyseur: Il ne divise que tous les caractères chinois en éléments de mot. Par conséquent, nous obtenons deux éléments lexicaux: le téléphone portable et le téléphone portable. L'analyseurstandard
d'Elasticsearch produit exactement la même sortie. Par conséquent,Chinese
est obsolète et sera bient?t remplacé parstandard
et devrait être évité. -
paoding
Plug-in:paoding
presque une norme de l'industrie et est considéré comme une solution élégante. Malheureusement, le plugin pour Elasticsearch n'est pas maintenu, et je ne peux l'exécuter que sur la version 1.0.1 après quelques modifications. (Les étapes d'installation sont omises, texte d'origine fournis) Après l'installation, nous obtenons un nouveau segmentateur de motspaoding
et deux collectionneurs:max_word_len
etmost_word
. Par défaut, il n'y a pas d'analyseur public, nous devons donc déclarer un nouvel analyseur. (Les étapes de configuration sont omises, le texte original fourni) Les deux configurations fournissent de bons résultats avec des éléments lexicaux clairs et uniques. Il se comporte également très bien lorsqu'il s'agit de phrases plus complexes. -
cjk
Analyseur: Analyseur très simple qui ne convertit que n'importe quel texte en binaires. "Phone Mobile" ne dit que手機
, ce qui est bien, mais si nous utilisons des mots plus longs, tels que "Lantern Festival" (Lantern Festival), deux mots seront générés: Lantern Festival et Xiao Festival, qui signifie "Lantern Festival" et respectivement "Xiao Festival". -
smartcn
Plug-in: Très facile à installer. (Les étapes d'installation sont omises, le texte d'origine fourni) Il expose un nouvel analyseursmartcn
, ainsi que le segmenter de motssmartcn_tokenizer
, en utilisant Lucene'sSmartChineseAnalyzer
. Il utilise une suite de probabilité pour trouver la meilleure segmentation des mots, en utilisant des modèles de Markov cachés et une grande quantité de texte de formation. Par conséquent, un assez bon dictionnaire de formation a été intégré - nos exemples sont correctement participés. -
Plugin USI: Un autre plugin officiel. (Les étapes d'installation sont omises, texte original fourni) Si vous traitez avec une langue non anglaise, il est recommandé d'utiliser ce plugin. Il révèle un segmenter de mots
icu_tokenizer
, ainsi que de nombreux outils d'analyse puissants tels queicu_normalizer
,icu_folding
,icu_collation
, etc. Il utilise des dictionnaires chinois et japonais qui contiennent des informations sur la fréquence des mots pour déduire des groupes de caractères chinois. Sur "Mobile Phone", tout est normal et fonctionne comme prévu, mais sur "Lantern Festival", deux mots seront produits: Lantern Festival and Festival - c'est parce que "Lantern Festival" et "Festival" sont plus importants que "Lantern Festival ". commun.
Comparaison des résultats (le formulaire omis, texte original fourni)
De mon point de vue, paoding
et smartcn
ont obtenu les meilleurs résultats. chinese
Le mot participe est très mauvais, icu_tokenizer
est un peu décevant sur le "Lantern Festival", mais il est très bon pour traiter avec le chinois traditionnel.
Support chinois traditionnel
Vous devrez peut-être traiter les Chinois traditionnels à partir d'un document ou d'une demande de recherche d'utilisateurs. Vous avez besoin d'une étape de normalisation pour convertir ces entrées traditionnelles en chinois modernes parce que des plugins comme smartcn
ou paoding
ne le gérent pas correctement.
Vous pouvez le gérer via votre application ou essayer d'utiliser le plugin elasticsearch-analysis-stconvert
pour le gérer directement dans Elasticsearch. Il peut convertir des caractères traditionnels et simplifiés dans les deux sens. (Les étapes d'installation sont omises, le texte d'origine a été fourni)
La dernière solution consiste à utiliser cjk
: Si vous ne pouvez pas entrer correctement du participe, vous êtes toujours très susceptible de capturer la documentation requise, puis d'utiliser icu_tokenizer
(également assez bon) pour améliorer la pertinence.
Améliorations supplémentaires
Il n'y a pas de solution universelle parfaite pour l'analyse Elasticsearch, et le chinois ne fait pas exception. Vous devez combiner et construire vos propres analyseurs en fonction des informations que vous avez obtenues. Par exemple, j'utilise le participe cjk
et smartcn
sur le champ de recherche, en utilisant une requête multi-champs et multi-matchs.
(partie FAQ omise, texte original fourni)
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Article chaud

Outils chauds

Bloc-notes++7.3.1
éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Les problèmes et les solutions courants pour la portée de la variable PHP incluent: 1. La variable globale ne peut pas être accessible dans la fonction, et elle doit être transmise en utilisant le mot-clé ou le paramètre global; 2. La variable statique est déclarée avec statique, et elle n'est initialisée qu'une seule fois et la valeur est maintenue entre plusieurs appels; 3. Des variables hyperglobales telles que $ _get et $ _post peuvent être utilisées directement dans n'importe quelle portée, mais vous devez faire attention au filtrage s?r; 4. Les fonctions anonymes doivent introduire des variables de portée parents via le mot clé Utiliser, et lorsque vous modifiez les variables externes, vous devez passer une référence. La ma?trise de ces règles peut aider à éviter les erreurs et à améliorer la stabilité du code.

Pour gérer en toute sécurité les téléchargements de fichiers PHP, vous devez vérifier la source et taper, contr?ler le nom et le chemin du fichier, définir les restrictions du serveur et traiter les fichiers multimédias deux fois. 1. Vérifiez la source de téléchargement pour empêcher le CSRF via le jeton et détecter le type de mime réel via FINFO_FILE en utilisant le contr?le de liste blanche; 2. Renommez le fichier à une cha?ne aléatoire et déterminez l'extension pour la stocker dans un répertoire non Web en fonction du type de détection; 3. La configuration PHP limite la taille de téléchargement et le répertoire temporaire Nginx / Apache interdit l'accès au répertoire de téléchargement; 4. La bibliothèque GD résait les images pour effacer des données malveillantes potentielles.

Il existe trois méthodes courantes pour le code de commentaire PHP: 1. Utiliser // ou # pour bloquer une ligne de code, et il est recommandé d'utiliser //; 2. Utiliser /.../ pour envelopper des blocs de code avec plusieurs lignes, qui ne peuvent pas être imbriquées mais peuvent être croisées; 3. Compétences combinées Commentaires tels que l'utilisation / if () {} / pour contr?ler les blocs logiques, ou pour améliorer l'efficacité avec les touches de raccourci de l'éditeur, vous devez prêter attention aux symboles de fermeture et éviter les nidification lorsque vous les utilisez.

AgeneratorInphpisamemory-EfficientwaytoterateOrgedatasetsByyieldingValuesonEatatimeIntedofreturningThemallAtonce.1.GeneratorsUsEtheieldKeywordToproduceValuesondemand, ReducingMemoryUsage.2.TheyAreusefulForHandlingBigloops, ReadingLargeFiles, OR OR.

La clé pour rédiger des commentaires PHP est de clarifier l'objectif et les spécifications. Les commentaires devraient expliquer "pourquoi" plut?t que "ce qui a été fait", en évitant la redondance ou trop de simplicité. 1. Utilisez un format unifié, tel que DocBlock (/ * /) pour les descriptions de classe et de méthode afin d'améliorer la lisibilité et la compatibilité des outils; 2. Soulignez les raisons de la logique, telles que pourquoi les sauts JS doivent être sortis manuellement; 3. Ajoutez une description d'une vue d'ensemble avant le code complexe, décrivez le processus dans les étapes et aidez à comprendre l'idée globale; 4. Utilisez TODO et FIXME Rationalement pour marquer des éléments et des problèmes de taches pour faciliter le suivi et la collaboration ultérieurs. De bonnes annotations peuvent réduire les co?ts de communication et améliorer l'efficacité de la maintenance du code.

Toléarnphpeffective, startBySettingUpAlocalServerERironmentUsingToolsLILYXAMPPANDACODEDITERLIGHILLEVSCODE.1) INSTRUSITIONXAMPFORAPACHE, MYSQL, ANDPHP.2) USACODEDEDITORFORSYNTAXSUPPORT.3)

En PHP, vous pouvez utiliser des crochets ou des accolades bouclées pour obtenir des caractères d'index spécifiques à la cha?ne, mais les crochets sont recommandés; L'index commence à partir de 0 et l'accès à l'extérieur de la plage renvoie une valeur nulle et ne peut pas se voir attribuer une valeur; MB_substr est nécessaire pour gérer les caractères multi-octets. Par exemple: $ str = "Hello"; echo $ str [0]; sortie h; et les caractères chinois tels que MB_substr ($ str, 1,1) doivent obtenir le résultat correct; Dans les applications réelles, la longueur de la cha?ne doit être vérifiée avant le boucle, les cha?nes dynamiques doivent être vérifiées pour la validité et les projets multilingues recommandent d'utiliser des fonctions de sécurité multi-octets uniformément.

Toinstallphpquickly, usexAmpPonWindowsorHomebrewonMacos.1.onwindows, downloadAndInstallxAmppp, selectComponents, startapache et placefilesInhtdocs.2.
