国产sm调教视频在线观看,丰满人妻一区二区三区无码av

コアポイント

単語の頻度分布

結(jié)論

PythonのNLPモデルの精度を改善する方法は？

現(xiàn)実の世界におけるNLPの一般的なアプリケーションは何ですか？

NLPの語彙化はどのように機(jī)能しますか？

NLPにおける停止単語の役割は何ですか？

NLPで複數(shù)の言語を処理する方法は？

ホームページ

テクノロジー周辺機(jī)器

IT業(yè)界

Pythonでの自然言語処理を開始します

Joseph Gordon-Levitt

Feb 10, 2025 am 10:51 AM

Getting Started with Natural Language Processing in Python

今日の世界では、ソーシャルメディアのコメント、閲覧履歴、顧客フィードバックなどのテキストデータなど、大量のデータが構(gòu)造化されていません。大規(guī)模なテキストデータに直面して、どこで分析を開始するかわかりませんか？ PythonのNatural Language Processing（NLP）テクノロジーが役立ちます！

このチュートリアルは、NLPのコアコンセプトを使用し、Pythonのテキストデータを分析するようにガイドするように設(shè)計(jì)されています。テキストを小さなユニット（単語変態(tài)）に分解し、単語をSTEM形式（STEM抽出と形態(tài)學(xué)的回復(fù)）に正規(guī)化する方法と、さらなる分析の準(zhǔn)備のためにドキュメントをクリーンアップする方法を?qū)Wびます。

始めましょう！

コアポイント

PythonのNatural Language Processing（NLP）には、単語要素にテキストを壊し、単語をSTEM形式に正規(guī)化し、さらに分析するためのクリーニングドキュメントが含まれます。 PythonのNLTKライブラリを使用して、これらの操作を?qū)g行します。
単語を幹形式に変換するための2つの手法は、STEM抽出と語彙形式の復(fù)元です。 STEM抽出は、単語の補(bǔ)完原理を削除する?yún)g純なアルゴリズムです。
クラスを使用して単語頻度を見つけることができます。これは、テキストで一般的な用語を見つけるのに非常に便利です。 FreqDist

予防策このチュートリアルでは、PythonのNLTKライブラリを使用して、テキスト上のすべてのNLP操作を?qū)g行します。このチュートリアルを書くとき、NLTKバージョン3.4を使用していました。端末にPIPコマンドを使用してライブラリをインストールできます。

システムにインストールされているNLTKバージョンを確認(rèn)するには、ライブラリをPythonインタープリターにインポートしてバージョンを確認(rèn)できます。

このチュートリアルでは、NLTKで特定の操作を?qū)g行するには、特定のリソースをダウンロードする必要がある場合があります。必要に応じて各リソースについて説明します。

pip install nltk==3.4

ただし、チュートリアルの後期段階でリソースを1つずつダウンロードしないようにしたい場合は、すべてのリソースを一度にダウンロードできます。

import nltk
print(nltk.__version__)

ステップ1：単語変態(tài)

コンピューターシステムは自然言語を理解できません。自然言語を扱う最初のステップは、元のテキストを単語要素に変換することです。単語要素は、何らかの意味を持つ連続文字の組み合わせです。文字の要素に文章を分割するのはあなた次第です。たとえば、簡単な方法は、文をスペースで分割して1つの単語に分解することです。

python -m nltk.downloader all

NLTKライブラリでは、

関數(shù)を使用して文字列を語彙要素に変換できます。ただし、最初にPunktリソースをダウンロードする必要があります。ターミナルで次のコマンドを?qū)g行します：

次に、

から

からインポートする必要があります。

word_tokenize()コードの出力は次のとおりです。

pip install nltk==3.4

は、スペースに基づいて文字列を分割するだけでなく、句読點(diǎn)を単語要素に分離することに気付くでしょう。句読點(diǎn)を維持または削除することは、分析のニーズに依存します。 word_tokenize

ステップ2：単語をSTEMフォームに変換します

自然言語を扱うとき、あなたはしばしば同じ言葉のさまざまな文法形式があることに気付くことがよくあります。たとえば、「go」、「going」、「gone」はすべて、同じ動(dòng)詞「go」の異なる形式です。

プロジェクトはさまざまな文法形式の単語を保存する必要があるかもしれませんが、同じ単語のさまざまな文法形式をその莖形式に変換する方法を議論しましょう。単語をSTEMフォームに変換するために使用できる2つの手法があります。

最初の手法は、抽出を発生させることです。 STEM抽出は、単語の接辭を削除する?yún)g純なアルゴリズムです。 NLTKで利用可能なさまざまなステム抽出アルゴリズムがあります。このチュートリアルでは、Porter Algorithmを使用します。

最初に

からnltk.stem.porterをインポートします。次に、ステムを初期化してPorterStemmer変數(shù)に抽出し、次にstemmerメソッドを使用して、次の単語の莖の形を見つけます。 .stem()

上記のコードの出力はGOです。上記の他の形態(tài)の「GO」のステム抽出器を?qū)g行すると、ステム抽出器が同じ幹形式「GO」を返していることがわかります。ただし、ステムの抽出は、単語の接辭の削除に基づく単純なアルゴリズムであるため、単語が言語で使用される頻度が低い場合に失敗します。

import nltk
print(nltk.__version__)

たとえば、「構(gòu)成」という単語に莖の抽出器を使用しようとすると、直感的ではありません。

出力が「構(gòu)成」であることに気付くでしょう。

python -m nltk.downloader all

この問題は、特定のコンテキストで単語の幹形式を検索するより複雑なアプローチをとることで解決できます。このプロセスは、単語形式の削減と呼ばれます。単語の形狀の復(fù)元は、テキストのコンテキストと語彙に基づいて単語を正常にします。 nltkでは、

クラスを使用して、文の形態(tài)學(xué)的回復(fù)を?qū)g行できます。

最初に、PythonターミナルのNLTKダウンローダーからWordNetリソースをダウンロードする必要があります。 WordNetLemmatizer

ダウンロードが完了したら、

クラスをインポートして初期化する必要があります。

nltk.download('punkt')

形態(tài)修復(fù)者を使用するには、

メソッドを使用します。単語とコンテキストの2つのパラメーターを受け入れます。この例では、「V」をコンテキストとして使用します。 WordNetLemmatizerメソッドの出力を表示した後、コンテキストをさらに検討します。

from nltk.tokenize import word_tokenize
print(word_tokenize("Hi, this is a nice hotel."))

メソッドは、「構(gòu)成」という単語をその莖形式「構(gòu)成」に正しく変換することに気付くでしょう。また、アルゴリズムがより複雑であるため、単語の形狀の復(fù)元がステミング抽出よりも時(shí)間がかかることに気付くでしょう。 .lemmatize()

.lemmatize()メソッドの2番目のパラメーターをプログラム的に決定する方法を確認(rèn)しましょう。 nltkには、文の単語のコンテキストを決定するのに役立つpos_tag()関數(shù)があります。ただし、最初にaveraged_perceptron_taggerリソースをダウンロードする必要があります：

pip install nltk==3.4

次に、pos_tag()関數(shù)をインポートして、文で実行します：

import nltk
print(nltk.__version__)

出力がペアリストであることに気付くでしょう。各ペアには、テキスト全體の単語要素のコンテキストを表す単語要素とそのタグが含まれています。句読點(diǎn)のラベル自體は次のとおりです。

python -m nltk.downloader all

各単語のコンテキストをデコードする方法は？以下は、Web上のすべてのタグの完全なリストとそれらに対応する意味です。すべての名詞には「N」から始まるラベルがあり、すべての動(dòng)詞には「V」から始まるラベルがあります。この情報(bào)は、

メソッドの2番目のパラメーターで使用できます。 .lemmatize()

上記のコードの出力は次のとおりです。

nltk.download('punkt')

この出力は予想通りであり、「構(gòu)成」と「治安判事」はそれぞれ「構(gòu)成」と「治安判事」に変換されます。

from nltk.tokenize import word_tokenize
print(word_tokenize("Hi, this is a nice hotel."))

ステップ3：データのクリーニング

データを準(zhǔn)備する次のステップは、データをクリーンアップし、分析に意味を追加しないものを削除することです。全體として、句読點(diǎn)と停止単語を分析から削除する方法について説明します。

句読點(diǎn)を削除することはかなり単純な作業(yè)です。

ライブラリの

オブジェクトには、英語のすべての句読點(diǎn)が含まれています。

stringこのコードスニペットの出力は次のとおりです。 punctuation

単語要素から句読點(diǎn)を削除するには、次のコードを単純に実行できます。

<code>['Hi', ',', 'this', 'is', 'a', 'nice', 'hotel', '.']</code>

次に、停止単語を削除する方法に焦點(diǎn)を當(dāng)てます。停止単語は、「i」、「a」、「the」などの言語で一般的に使用される?yún)g語であり、テキストを分析するとき、これらの単語はほとんど意味を與えません。したがって、分析から停止単語を削除します。まず、NLTKダウンローダーからStopwordsリソースをダウンロード：

from nltk.stem.porter import PorterStemmer
stemmer = PorterStemmer()
print(stemmer.stem("going"))

ダウンロードが完了した後、から

からインポートし、「英語」をパラメーターとして使用します。これが英語の179のストップワードのリストです：

print(stemmer.stem("constitutes"))

単語の形狀復(fù)元例とこのセクションで説明した概念を組み合わせて、次の関數(shù)

nltk.download('wordnet')

を作成できます。さらに、ストップワードリストの一部であるかどうかを比較する前に、単語を小文字に変換します。このように、文の先頭に停止単語が表示されて大文字になった場合、私たちはそれをキャプチャすることができます：

nltk.corpus この例の出力は次のとおりです stopwords words()ご覧のとおり、句読點(diǎn)と停止単語は削除されています。

単語の頻度分布

NLPの基本的なクリーニング技術(shù)に精通しているので、テキストの単語の頻度を見つけてみましょう。この演習(xí)では、グーテンベルクプロジェクトで無料で利用できるおとぎ話「ネズミ、鳥、ソーセージ」のテキストを使用します。このおとぎ話のテキストをひもtextに保存します。

最初に、textを掛けてから、上記のclean_data：

を使用してクリーンアップします。

pip install nltk==3.4

テキスト內(nèi)の単語の頻度分布を見つけるには、nltkのFreqDistクラスを使用できます。単語要素をパラメーターとして使用してクラスを初期化します。次に、一般的な用語を見つけるために.most_common()メソッドを使用します。この場合、トップ10の用語を見つけてみましょう：

import nltk
print(nltk.__version__)

以下は、このおとぎ話で最も頻繁に見られる10の用語です：

python -m nltk.downloader all

期待によると、最も一般的な3つの用語は、おとぎ話の3つの主人公です。

テキストを分析する場合、単語の頻度は重要ではない場合があります。一般的に、NLPの次のステップは、ドキュメントのセットにおける?yún)g語の重要性を示す統(tǒng)計(jì)（Word Frequency-inverse Document頻度）を生成することです。

結(jié)論

このチュートリアルでは、Pythonでの自然言語処理についての予備的な理解があります。テキストを語彙要素に変換し、単語を莖の形に変換し、最後にテキストをクリーニングして、分析に意味を追加しない部分を削除します。

このチュートリアルでは、単純なNLPタスクを見ている間、探索すべき他の多くの手法があります。たとえば、テキストが議論する可能性のある一般的なトピックを見つけることを目的として、テキストデータのトピックモデリングを?qū)g行することをお?jiǎng)幛幛筏蓼埂?NLPのより複雑なタスクは、センチメント分析モデルを?qū)g裝して、テキストの背後にある感情を決定することです。

コメントや質(zhì)問はありますか？ Twitterでお?dú)葺Xにご連絡(luò)ください。

Python（FAQ）を使用した自然言語処理に関するよくある質(zhì)問自然言語処理（NLP）と自然言語理解（NLU）の主な違いは何ですか？自然言語処理（NLP）および自然言語理解（NLU）は、しばしば混亂する人工知能の2つのサブフィールドです。 NLPは、自然言語を使用してコンピューターと対話するためのすべての方法を含むより広範(fàn)な概念です。これには、人間の言語の理解と生成が含まれます。一方、NLUは、側(cè)面を理解することを?qū)熼TとするNLPのサブセットです。アルゴリズムを使用して、貴重な方法で人間の言語を理解して解釈することが含まれます。

PythonのNLPモデルの精度を改善する方法は？

NLPモデルの精度を改善するには、さまざまな戦略が含まれます。まず、より多くのトレーニングデータを使用できます。モデルの學(xué)習(xí)データが多いほど、パフォーマンスが向上します。次に、異なるNLP技術(shù)の使用を検討します。たとえば、単語の袋（弓）を使用している場合、WordFrequency-inverse Document頻度（TF-IDF）またはWord2Vecを試してみてください。最後に、モデルのパラメーターを微調(diào)整すると、大幅な改善につながる可能性があります。

現(xiàn)実の世界におけるNLPの一般的なアプリケーションは何ですか？

NLPには、現(xiàn)実の世界で幅広いアプリケーションがあります。これらには、言語翻訳、センチメント分析、チャットボット、SiriやAlexaなどの音聲アシスタント、テキストサマリー、電子メールスパム検出が含まれます。

NLPの語彙化はどのように機(jī)能しますか？

単語変態(tài)は、テキストを単一の単語または単語要素に分解するプロセスです。これは、モデルがテキストを理解して分析できるため、NLPの重要なステップです。 Pythonでは、nltkライブラリのword_tokenize関數(shù)を使用して語彙化を?qū)g行できます。

NLPにおける停止単語の役割は何ですか？

停止単語は、NLPの前処理段階で多くの場合除外される一般的な単語です。例には、「IS」、「「」、「」などが含まれます。これらの単語を削除すると、NLPモデルのパフォーマンスの向上に役立ちます。

NLPで複數(shù)の言語を処理する方法は？

NLPで複數(shù)の言語を処分することは、文法、構(gòu)文、語彙の違いにより困難な場合があります。ただし、PythonのNLTKライブラリは複數(shù)の言語をサポートしています。また、

などの言語検出ライブラリを使用して、テキストの言語を識(shí)別して処理することもできます。 langdetect

NLPの幹抽出と語彙回復(fù)とは何ですか？

莖の抽出と形態(tài)學(xué)的修復(fù)は、単語を幹または根の形に単純化するために使用される手法です。それらの主な違いは、ステム抽出がしばしば存在しない単語を作成することが多く、単語の復(fù)元原理は単語をその言語的に正しいルート形式に減らすことです。

センチメント分析にNLPを使用する方法は？

感情分析には、テキストで表現(xiàn)された感情を決定することが含まれます。これは、さまざまなNLP技術(shù)を使用して実行できます。たとえば、PythonのTextBlobライブラリを使用してセンチメント分析を簡単に実行できます。

NLPのN-Meta構(gòu)文は何ですか？

n Metagramは、特定のテキストまたは音聲サンプルのN連続アイテムの連続シーケンスです。 NLPに使用されて、シーケンス內(nèi)の次のアイテムを予測します。たとえば、バイナリ文法（n = 2）では、分析または予測のための単語ペアを検討します。

テキスト分類にNLPを使用する方法は？

テキスト分類には、テキストを事前定義されたカテゴリに分類することが含まれます。これは、さまざまなNLP技術(shù)と機(jī)械學(xué)習(xí)アルゴリズムを使用して実行できます。たとえば、機(jī)能抽出には単語の袋またはTF-IDFを使用して、これらの機(jī)能を分類のために機(jī)械學(xué)習(xí)モデルに入力できます。

以上がPythonでの自然言語処理を開始しますの詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國語 Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明

この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

脫衣畫像を無料で

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中國語版

中國語版、とても使いやすい

ゼンドスタジオ 13.0.1

強(qiáng)力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

8638

Java チュートリアル

1783

CakePHP チュートリアル

1728

Laravel チュートリアル

1579

PHP チュートリアル

1444

Related knowledge

Udemyのようなプラットフォームへの開発者のショートカット Jun 17, 2025 pm 04:43 PM

Udemyと同様の學(xué)習(xí)プラットフォームを開発する場合、コンテンツの品質(zhì)だけに焦點(diǎn)を當(dāng)てるだけではありません。同様に重要なのは、そのコンテンツがどのように配信されるかです。これは、最新の教育プラットフォームがアクセスしやすく、速く、消化しやすいメディアに依存しているためです。

SSL証明書を購入するための費(fèi)用対効果の高い再販業(yè)者プラットフォーム Jun 25, 2025 am 08:28 AM

オンラインの信頼が交渉不可能な世界では、SSL証明書がすべてのWebサイトに不可欠になっています。 SSL認(rèn)定の市場規(guī)模は2024年に56億米ドルと評(píng)価されており、電子商取引事業(yè)の急増により促進(jìn)されていることで、まだ強(qiáng)く成長しています。