国产av国片精品有毛,波多野结衣av一区二区全免费观看

テキストの統(tǒng)計分析は、テキストの前処理の重要なステップの1つです。テキストデータを深く數(shù)學的な方法で理解するのに役立ちます。このタイプの分析は、隠されたパターンを理解し、文の特定の単語の重みを理解するのに役立ち、全體的には良い言語モデルの構(gòu)築に役立ちます。 Pynlplまたは私たちがPineappleライブラリと呼ぶとき、テキスト統(tǒng)計分析に最適なPythonライブラリの1つです。このライブラリは、テキストのクリーニングや分析などの他のタスクにも役立ちます。また、テキストの前処理関數(shù)、N-Gram抽出器などを提供します。さらに、PYNLPLを使用して、単純な言語モデルを構(gòu)築できます。

このブログでは、Pynlplを使用してテキスト分析を?qū)g行する方法を理解できます。まず、このライブラリをシステムにインストールするすべての方法を理解します。次に、Pynlplライブラリを使用して、共起マトリックスという用語とその実裝を理解します。その後、最も繰り返される?yún)g語を識別するための周波數(shù)リストを作成する方法を?qū)Wびます。次に、テキスト配布分析を?qū)g行して、2つのテキストドキュメントまたは文字列の類似性を測定します。最後に、このライブラリを使用してLeveshteinの距離を理解して計算します。自分でフォローしてコーディングするか、このリンクの[コピー＆編集]ボタンをクリックして、すべてのプログラムを?qū)g行することもできます。

學習目標

利用可能なすべての方法を使用して、このライブラリを詳細にインストールする方法を理解してください。
単語の関係を分析するために、用語共起マトリックスを作成する方法を?qū)Wびます。
周波數(shù)リストの生成やLevenshtein距離の計算などの一般的なタスクを?qū)g行することを?qū)Wびます。
テキスト配布分析の実施やドキュメントの類似性の測定など、高度なタスクを?qū)g行することを?qū)Wびます。

この記事は、データサイエンスブログソンの一部として公開されました。

pynlplをインストールする方法は？

このライブラリは2つの方法でインストールできます。最初にPypiを使用し、2番目はGitHubを使用します。

Pypi経由

Pypiを使用してインストールするには、端末に以下のコマンドを貼り付けます。

 PIPインストールpynlpl

Jupyter Notebook、Kaggle Notebook、Google Colabなどのノートブックを使用している場合は、「！」を追加してください。上記のコマンドの前。

Github経由

GitHubを使用してこのライブラリをインストールするには、以下のコマンドを使用して公式のPynlplリポジトリをシステムにクローンします。

 git clone https://github.com/proycon/pynlpl.git

次に、「CD」を使用して端末のディレクトリをこのフォルダーに変更し、次のコマンドを貼り付けてライブラリをインストールします。

 python3 setup.pyインストール

テキスト分析にPYNLPLを使用する方法は？

次に、テキスト分析にPYNLPLを使用する方法について調(diào)べてみましょう。

用語共起マトリックス

用語共起マトリックス（TCM）は、単語がテキスト內(nèi)の別の特定の単語と共生する頻度を識別する統(tǒng)計的方法です。このマトリックスは、単語の関係を理解し??、有用な隠されたパターンを明らかにするのに役立ちます。これは、簡潔な要約を生成するのに役立つ単語間の関係を提供するため、テキストの要約を作成する際に一般的に使用されます。それでは、Pynlplライブラリを使用してこのマトリックスを構(gòu)築する方法を見てみましょう。

まず、Pynlpl.StatisticsからFrequencyList関數(shù)をインポートします。これは、テキストで単語が繰り返された回數(shù)を數(shù)えるために使用されます。これについては、後のセクションで詳しく説明します。さらに、コレクションモジュールからdefaultdictメソッドをインポートします。次に、Text入力とウィンドウサイズを取得し、マトリックスを返すcreate_cooccurrence_matrixという名前の関數(shù)を作成します。この関數(shù)では、最初にテキストを個々の単語に分割し、defaultDictを使用して共起マトリックスを作成します。テキスト內(nèi)のすべての単語について、指定されたウィンドウサイズ內(nèi)のコンテキストワードを特定し、共起マトリックスを更新します。最後に、マトリックスを印刷し、各用語の頻度を表示します。

 Pynlpl.Statisticsからfree彼らのインポートから
コレクションからImport defaultdictから

def create_cooccurrence_matrix（text、window_size = 2）：
    words = text.split（）
    cooccurrence_matrix = defaultdict（freookeList）
    
    私の場合、単語の列挙（単語）：
        start = max（i -window_size、0）
        end = min（i window_size 1、len（words））
        context = words [start：i] words [i 1：end]
        
        コンテキストのContext_Wordの場合：
            coccurrence_matrix [word.lower（）]。count（context_word.lower（）））
    
    COOCCURRENCE_MATRIXを返します

Text = "こんにちはこれは分析vidhyaであり、これまでのところデータサイエンスのトピックを探求しています。分析Vidhyaは、データサイエンスと機械學習を?qū)Wぶための素晴らしいプラットフォームです?！?
＃用語共起マトリックスの作成
cooccurrence_matrix = create_cooccurrence_matrix（テキスト）

＃協(xié)同組合マトリックスという用語の印刷
print（ "Term Co-ccurrence Matrix："）
用語の場合、COOCCURRENCE_MATRIX.ITEMS（）のContext_FREQ_LIST：
    print（f "{Term}：{dict（context_freq_list）}"）

出力：

PYNLPLライブラリを使用したテキスト統(tǒng)計分析

周波數(shù)リスト

周波數(shù)リストには、特定の単語がドキュメントまたは段落で繰り返された回數(shù)が含まれます。これは、ドキュメント全體の主なテーマとコンテキストを理解するための有用な機能です。通常、言語學、情報検索、テキストマイニングなどのフィールドで周波數(shù)リストを使用します。たとえば、検索エンジンは周波數(shù)リストを使用してWebページをランク付けします。また、これをマーケティング戦略として使用して、製品のレビューを分析し、製品の主要な一般的な感情を理解することもできます。

次に、PYNLPLライブラリを使用してこの周波數(shù)リストを作成する方法を見てみましょう。まず、Pynlpl.StatisticsからFrequencyList関數(shù)をインポートします。次に、サンプルテキストを変數(shù)に持ち込み、テキスト全體を個々の単語に分割します。次に、この「単語」変數(shù)をFrequencyList関數(shù)に渡します。最後に、頻度リストのアイテムを繰り返し、各単語とそれに対応する頻度を印刷します。

 Pynlpl.Statisticsからfree彼らのインポートから

Text = "こんにちはこれは分析vidhyaであり、これまでのところデータサイエンスのトピックを探求しています。分析Vidhyaは、データサイエンスと機械學習を?qū)Wぶための素晴らしいプラットフォームです?！?
words = text.lower（）。split（）

freq_list = frequencylist（words）

言葉として、freq_list.items（）のfreq：
    print（f "{word}：{freq}"）

出力：

PYNLPLライブラリを使用したテキスト統(tǒng)計分析

テキスト分布分析

テキスト分布分析では、文の単語の頻度と確率分布を計算して、どの単語が文のコンテキストを構(gòu)成するかを理解します。この単語頻度の分布を計算することにより、エントロピー、困惑、モード、最大エントロピーなどの最も一般的な単語とその統(tǒng)計的特性を識別できます。これらのプロパティを1つずつ理解しましょう。

エントロピー：エントロピーは、分布のランダム性の尺度です。テキストデータに関しては、より高いエントロピーは、テキストの語彙の幅が広く、単語の繰り返しがあまりないことを意味します。
困惑：困惑は、言語モデルがサンプルデータでどれだけうまく予測するかを測定することです。困惑が低い場合、テキストは予測可能なパターンに従います。
モード：私たち全員が子供の頃からこの用語を?qū)Wんだように、それは私たちにテキストで最も繰り返される言葉を教えてくれます。
最大エントロピー：このプロパティは、テキストが持つことができる最大エントロピーを教えてくれます。つまり、分布の実際のエントロピーを比較するための參照ポイントを提供します。

また、特定の単語の情報コンテンツを計算することもできます。つまり、単語で提供される情報の量を計算できます。

pynlplを使用して実裝します

次に、pynlplを使用してこれらすべてを?qū)g裝する方法を見てみましょう。

Pynlpl.StatisticsモジュールとMATHモジュールから、分布と頻度リスト機能をインポートします。次に、サンプルテキストを作成し、そのテキスト內(nèi)の各単語の頻度をカウントします。これを行うには、上記と同じ手順に従います。次に、周波數(shù)リストを渡すことにより、分布関數(shù)のオブジェクトを作成します。次に、分布変數(shù)のアイテムをループすることにより、各単語の分布を表示します。エントロピーを計算するには、分布（）関數(shù)を呼び出します。

困惑を計算するには、distribution.perplexity（）を呼び出します。モードの場合、distribution.mode（）を呼び出します。最大エントロピーを計算するには、分布を呼び出します。maxentropy（）。最後に、特定の単語の情報コンテンツを取得するために、distribution.information（word）を呼び出します。以下の例では、この関數(shù)のパラメーターとしてモードワードを渡します。

數(shù)學をインポートします
Pynlpl.Statisticsのインポート分布、頻度リストから

Text = "こんにちはこれは分析vidhyaであり、これまでのところデータサイエンスのトピックを探求しています。分析Vidhyaは、データサイエンスと機械學習を?qū)Wぶための素晴らしいプラットフォームです?！?
＃単語周波數(shù)のカウント
words = text.lower（）。split（）

freq_list = frequencylist（words）
word_counts = dict（freq_list.items（））

＃単語周波數(shù)から分布オブジェクトを作成します
配布=配布（word_counts）

＃分布の表示
print（ "Distribution："）
Wordの場合、distribution.items（）のprob：
    print（f "{word}：{prob：.4f}"）

＃さまざまな統(tǒng)計
print（ "\ nstatistics："）
print（f "entropy：{distribution.entropy（）：。4f}"）
print（f "Perplexity：{distribution.perplexity（）：。4f}"）
print（f "mode：{distribution.mode（）}"）
print（f "max entropy：{distribution.maxentropy（）：。4f}"）

＃「モード」ワードの情報コンテンツ
word = distribution.mode（）
information_content = distribution.information（word）
印刷（f "{word} 'の情報コンテンツ：{information_content：.4f}"）

出力：

PYNLPLライブラリを使用したテキスト統(tǒng)計分析

levenshtein距離

Levenshtein距離は、2つの単語の違いの尺度です。 2つの単語が同じようになるには、単一のキャラクターの変更がいくつ必要かを計算します。単語の文字の挿入、削除、または置換に基づいて計算されます。この距離メトリックは通常、スペル、DNAシーケンス分析、次のセクションで実裝するテキストの類似性などの自然言語処理タスクのチェックに使用され、盜作検出器の構(gòu)築に使用できます。 Levenshteinの距離を計算することで、2つの単語間の関係を理解できます。2つの単語が似ているかどうかを知ることができます。 Levenshteinの距離が非常に少ない場合、それらの単語が同じ意味や文脈を持つ可能性があり、それが非常に高い場合、それは完全に異なる?yún)g語であることを意味します。

この距離を計算するために、最初にPynlpl.StatisticsモジュールからLevenshtein関數(shù)をインポートします。次に、「分析」と「分析」という2つの単語を定義します。次に、これらの単語をLevenshtein関數(shù)に渡し、距離値を返します。出力でわかるように、これら2つの単語間のレベルシュタイン距離は2です。つまり、「分析」を「分析」に変換するには2つのシングルキャラクター編集のみが必要です。最初の編集は、「分析」の「 s 」で文字「 t 」を置き換えることであり、2番目の編集は、「分析」のインデックス8で文字「 C 」を削除することです。

 Pynlpl.StatisticsからLevenshteinのインポートから

word1 = "Analytics"
word2 = "分析"
距離= levenshtein（word1、word2）
    
印刷（f "{word1} 'と' {word2} 'の間のlevenshtein距離：{距離}"）

出力：

PYNLPLライブラリを使用したテキスト統(tǒng)計分析

ドキュメントの類似性の測定

多くのアプリケーションでは、2つのドキュメントまたは文がどれほど類似しているかを測定することが役立ちます。これにより、2つのドキュメントがどれほど密接に関連しているかを理解できます。この手法は、盜作チェッカー、コード差チェッカーなど、多くのアプリケーションで使用されます。 2つのドキュメントがどれほど類似しているかを分析することにより、重複したドキュメントを識別できます。これは、ユーザーAに表示される検索結(jié)果が同じクエリを入力したユーザーBに表示できるようにすることもできます。

これを?qū)g裝するために、コサインの類似性メトリックを使用します。まず、PYNLPLライブラリからの頻度リストとMathモジュールからのSQRTの2つの関數(shù)をインポートします。次に、2つの変數(shù)に2つの文字列を追加します。文字列だけの代わりに、2つのテキストドキュメントも開くことができます。次に、これらの文字列の周波數(shù)リストを作成して、以前にインポートしたFrequencyList関數(shù)に渡すことで作成します。次に、COSINE_SIMILARITYという名前の関數(shù)を書き込み、これらの2つの周波數(shù)リストを入力として渡します。この関數(shù)では、最初に周波數(shù)リストからベクトルを作成し、次にこれらのベクトル間の角度のコサインを計算し、それらの類似性の尺度を提供します。最後に、関數(shù)を呼び出して結(jié)果を印刷します。

 Pynlpl.Statisticsからfree彼らのインポートから
Math Import Sqrtから

doc1 = "Analytics vidhyaは、データサイエンスと機械學習に関する貴重な洞察とチュートリアルを提供します?！?doc2 = "データサイエンスと機械學習に関するチュートリアルが必要な場合は、分析Vidhyaをチェックしてください?！?
＃両方のドキュメントのFrequencyListオブジェクトを作成します
freq_list1 = frequencylist（doc1.lower（）。split（））
freq_list2 = frequencylist（doc2.lower（）。split（））

defosine_similarity（freq_list1、freq_list2）：
    vec1 = {word：freq_list1 [word] for word、_ in freq_list1}
    vec2 = {word：freq_list2 [word] for word、_ in freq_list2}

    交差= set（vec1.keys（））＆set（vec2.keys（））
    nulerator = sum（vec1 [word] * vec2 [word]交差點の単語のためのvec2 [word]）

    sum1 = sum（vec1 [word] ** 2 for vec1.keys（））
    sum2 = sum（vec2 [word] ** 2 for vec2.keys（））
    分母= sqrt（sum1） * sqrt（sum2）

    分母ではない場合：
        0.0を返します
    Return Float（分子） /分母

＃calculatinngコサインの類似性
類似性= cosine_similarity（freq_list1、freq_list2）
print（f "cosineの類似性：{類似性：.4f}"）

出力：

PYNLPLライブラリを使用したテキスト統(tǒng)計分析

結(jié)論

Pynlplは、テキスト統(tǒng)計分析を?qū)g行できる強力なライブラリです。テキスト分析だけでなく、このライブラリを使用して、トークン化、ステム、Nグラム抽出、さらにはいくつかの単純な言語モデルの構(gòu)築などのテキストの前処理技術(shù)にも使用できます。このブログでは、まずこのライブラリをインストールするすべての方法を理解し、次にこのライブラリを使用して、共起マトリックスという用語を?qū)g裝し、一般的な単語を識別し、テキスト分布分析を?qū)g行し、レベンシュテイン距離を計算する方法を理解し、文書の類似性を計算する方法を理解するなど、さまざまなタスクを?qū)g行しました。これらの各手法は、テキストデータから貴重な洞察を抽出するために使用でき、貴重なライブラリになります。次回テキスト分析を行うときは、Pynlpl（Pineapple）ライブラリを試すことを検討してください。