国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

ホームページ バックエンド開発 Python チュートリアル [PYTHON チュートリアル] 記事の要約を抽出する

[PYTHON チュートリアル] 記事の要約を抽出する

Feb 07, 2017 pm 04:11 PM
python

ブログシステムの記事リストでは、記事の內(nèi)容をより効果的に提示し、読者がよりターゲットを絞った読みを選択できるようにするために、通常、記事のタイトルと要約が同時(shí)に提供されます。

記事のコンテンツはプレーンテキスト形式でも構(gòu)いませんが、インターネットの普及に伴い、現(xiàn)在では HTML 形式が多くなっています。形式に関係なく、要約は通常、記事の冒頭の內(nèi)容であり、指定された文字?jǐn)?shù)に従って抽出できます。

プレーンテキストの概要

まず、プレーンテキストの概要を抽出します。プレーンテキストのドキュメントは長(zhǎng)い文字列ですが、その概要を抽出するのは簡(jiǎn)単です:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""Get a summary of the TEXT-format document"""

def get_summary(text, count):
u"""Get the first `count` characters from `text`

>>> text = u'Welcome 這是一篇關(guān)于Python的文章'
>>> get_summary(text, 12) == u'Welcome 這是一篇'
True
"""
assert(isinstance(text, unicode))
return text[0:count]

if __name__ == '__main__':
import doctest
doctest.testmod()

HTMLの概要

HTMLドキュメントには、多數(shù)のタグが含まれています(

、 など)、これらの文字はマーク命令であり、通常、単純なテキストのインターセプトによって HTML の文書構(gòu)造が破壊され、要約が表示されます。ブラウザが不適切に表示されました。

HTML ドキュメントの構(gòu)造に従いながらコンテンツをインターセプトするには、HTML ドキュメントを解析する必要があります。 Python では、これは標(biāo)準(zhǔn)ライブラリ HTMLParser を使用して実行できます。

最も単純な概要抽出関數(shù)の 1 つは、HTML タグを無視し、タグ內(nèi)のネイティブ テキストのみを抽出することです。以下は、この関數(shù)と同様の Python 実裝です:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""Get a raw summary of the HTML-format document"""

from HTMLParser import HTMLParser

class SummaryHTMLParser(HTMLParser):
"""Parse HTML text to get a summary

>>> text = u&#39;<p>Hi guys:</p><p>This is a example using SummaryHTMLParser.</p>&#39;
>>> parser = SummaryHTMLParser(10)
>>> parser.feed(text)
>>> parser.get_summary(u&#39;...&#39;)
u&#39;<p>Higuys:Thi...</p>&#39;
"""
def __init__(self, count):
HTMLParser.__init__(self)
self.count = count
self.summary = u&#39;&#39;

def feed(self, data):
"""Only accept unicode `data`"""
assert(isinstance(data, unicode))
HTMLParser.feed(self, data)

def handle_data(self, data):
more = self.count - len(self.summary)
if more > 0:
# Remove possible whitespaces in `data`
data_without_whitespace = u&#39;&#39;.join(data.split())

self.summary += data_without_whitespace[0:more]

def get_summary(self, suffix=u&#39;&#39;, wrapper=u&#39;p&#39;):
return u&#39;<{0}>{1}{2}</{0}>&#39;.format(wrapper, self.summary, suffix)

if __name__ == &#39;__main__&#39;:
import doctest
doctest.testmod()

上記は、記事の要約を抽出するための [PYTHON チュートリアル] の內(nèi)容です。その他の関連コンテンツについては、PHP 中國語 Web サイト (m.miracleart.cn) に注目してください。


このウェブサイトの聲明
この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見つけた場(chǎng)合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脫衣畫像を無料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡(jiǎn)単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中國語版

SublimeText3 中國語版

中國語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強(qiáng)力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

AIと組み合わせてPHPを使用してテキストエラー修正PHP構(gòu)文検出と最適化を?qū)g現(xiàn)する方法 AIと組み合わせてPHPを使用してテキストエラー修正PHP構(gòu)文検出と最適化を?qū)g現(xiàn)する方法 Jul 25, 2025 pm 08:57 PM

AIによるテキストエラーの修正と構(gòu)文最適化を?qū)g現(xiàn)するには、次の手順に従う必要があります。1。Baidu、Tencent API、またはオープンソースNLPライブラリなどの適切なAIモデルまたはAPIを選択します。 2。PHPのカールまたはガズルを介してAPIを呼び出し、返品結(jié)果を処理します。 3.アプリケーションにエラー修正情報(bào)を表示し、ユーザーが採用するかどうかを選択できるようにします。 4.構(gòu)文の検出とコードの最適化には、PHP-LとPHP_CODESNIFFERを使用します。 5.フィードバックを継続的に収集し、モデルまたはルールを更新して効果を改善します。 AIAPIを選択するときは、PHPの精度、応答速度、価格、サポートの評(píng)価に焦點(diǎn)を當(dāng)てます。コードの最適化は、PSR仕様に従い、キャッシュを合理的に使用し、円形クエリを避け、定期的にコードを確認(rèn)し、Xを使用する必要があります。

Python Seabornジョイントプロットの例 Python Seabornジョイントプロットの例 Jul 26, 2025 am 08:11 AM

Seabornのジョイントプロットを使用して、2つの変數(shù)間の関係と分布をすばやく視覚化します。 2?;镜膜噬⒉紘恧稀ns.jointplot(data = tips、x = "total_bill"、y = "tip"、dind = "scatter")によって実裝され、中心は散布図であり、ヒストグラムは上部と右側(cè)と右側(cè)に表示されます。 3.回帰線と密度情報(bào)をdind = "reg"に追加し、marminal_kwsを組み合わせてエッジプロットスタイルを設(shè)定します。 4。データ量が大きい場(chǎng)合は、「ヘックス」を使用することをお?jiǎng)幛幛筏蓼埂?/p>

パイソンリストへの変換の例 パイソンリストへの変換の例 Jul 26, 2025 am 08:00 AM

文字列リストは、 '' .join(words)などのJoIn()メソッドとマージして、「Helloworldfrompython」を取得できます。 2。NUMBERリストは、參加する前にMAP(STR、數(shù)字)または[STR(x)forxinNumbers]を備えた文字列に変換する必要があります。 3.任意のタイプリストは、デバッグに適したブラケットと引用符のある文字列に直接変換できます。 4。カスタム形式は、 '|' .join(f "[{item}]" foriteminitems)output "[a] | [などのjoin()と組み合わせたジェネレーター式によって実裝できます。

PythonはSQL Server Pyodbcの例に接続します PythonはSQL Server Pyodbcの例に接続します Jul 30, 2025 am 02:53 AM

Pyodbcのインストール:Pipinstallpyodbcコマンドを使用してライブラリをインストールします。 2.接続sqlserver:pyodbc.connect()メソッドを介して、ドライバー、サーバー、データベース、uid/pwdまたはtrusted_connectionを含む接続文字列を使用し、それぞれSQL認(rèn)証またはWindows認(rèn)証をサポートします。 3.インストールされているドライバーを確認(rèn)します:pyodbc.drivers()を?qū)g行し、「sqlserver」を含むドライバー名をフィルタリングして、「sqlserverのodbcdriver17」などの正しいドライバー名が使用されるようにします。 4.接続文字列の重要なパラメーター

Python Pandas Meltの例 Python Pandas Meltの例 Jul 27, 2025 am 02:48 AM

pandas.melt()は、幅広い形式データを長(zhǎng)い形式に変換するために使用されます。答えは、ID_VARSを識(shí)別列を保持し、value_varsを溶かしてvar_nameおよびvalue_nameを選択する列を選択して、新しい列名を定義することです。列は1.id_vars = 'name'を意味します。 4.Value_Name = 'スコア'元の値の新しい列名を設(shè)定し、最後に名前、件名、スコアを含む3つの列を生成します。

メモリバウンド操作のためのPythonの最適化 メモリバウンド操作のためのPythonの最適化 Jul 28, 2025 am 03:22 AM

Pythoncanbeoptimizedformemory-boundoperationsは、ヘッドゲネレーター、EfficientDataStructures、およびManagingObjectlifetimes.first、Usegeneratoratoratoratoratoratoraturatussを使用していることを確認(rèn)してください

Python Djangoが例を形成します Python Djangoが例を形成します Jul 27, 2025 am 02:50 AM

まず、名前、メールボックス、メッセージフィールドを含む連絡(luò)先フォームを定義します。 2。ビューでは、フォームの送信はPOSTリクエストを?qū)彇摔工毪长趣摔瑜陝I理され、検証が渡された後、Cleaned_Dataが取得され、応答が返されます。 3。テンプレートでは、{{form.as_p}}を使用してフィールドをレンダリングし、{%csrf_token%}を追加してCSRF攻撃を防ぎます。 4. contact_viewビューにポイント /連絡(luò)先 /にURLルーティングを構(gòu)成します。 Modelformを使用してモデルを直接関連付けてデータストレージを?qū)g現(xiàn)します。 Djangoformsは、データ検証、HTMLレンダリング、エラープロンプトの統(tǒng)合処理を?qū)g裝します。これは、安全な形式機(jī)能の迅速な発展に適しています。

暗號(hào)通貨の統(tǒng)計(jì)的裁定とは何ですか?統(tǒng)計(jì)的な裁定はどのように機(jī)能しますか? 暗號(hào)通貨の統(tǒng)計(jì)的裁定とは何ですか?統(tǒng)計(jì)的な裁定はどのように機(jī)能しますか? Jul 30, 2025 pm 09:12 PM

統(tǒng)計(jì)アービトラージの紹介統(tǒng)計(jì)的arbitrageは、數(shù)學(xué)モデルに基づいて金融市場(chǎng)で価格の不一致を捉える取引方法です。その核となる哲學(xué)は、平均回帰に由來する、つまり、資産価格は短期的には長(zhǎng)期的な傾向から逸脫する可能性がありますが、最終的には歴史的平均に戻ります。トレーダーは統(tǒng)計(jì)的方法を使用して、資産間の相関を分析し、通常は同期して変更されるポートフォリオを探す。これらの資産の価格関係が異常に逸脫すると、裁定取引の機(jī)會(huì)が生じます。暗號(hào)通貨市場(chǎng)では、主に市場(chǎng)自體の非効率性と劇的な変動(dòng)のために、統(tǒng)計(jì)的な裁定が特に一般的です。従來の金融市場(chǎng)とは異なり、暗號(hào)通貨は24時(shí)間體制で動(dòng)作し、その価格はニュース速報(bào)、ソーシャルメディアの感情、テクノロジーのアップグレードに非常に敏感です。この一定の価格の変動(dòng)は、頻繁に価格設(shè)定バイアスを作成し、仲裁人を提供します

See all articles