国产,日韩,欧美,久久,大地资源免费更新在线视频下载 ,成人欧美一区二区三区在线观看

Rumah

pembangunan bahagian belakang

Tutorial Python

Python使用正則表達式過濾或替換HTML標簽方法介紹

巴扎黑

Sep 26, 2017 am 10:36 AM

python ungkapan penapis

這篇文章主要介紹了Python使用正則表達式過濾或替換HTML標簽的方法,簡單介紹了Python正則相關語法并結合具體實例形式分析了Python基于正則表達式的HTML標簽過濾與替換相關操作技巧,需要的朋友可以參考下

本文實例講述了Python使用正則表達式過濾或替換HTML標簽的方法。分享給大家供大家參考，具體如下：

python正則表達式關鍵內容:

python正則表達式轉義符:

. 匹配除換行符以外的任意字符
\w 匹配字母或數(shù)字或下劃線或漢字
\s 匹配任意的空白符
\d 匹配數(shù)字
\b 匹配單詞的開始或結束
^ 匹配字符串的開始
$ 匹配字符串的結束
\W 匹配任意不是字母，數(shù)字，下劃線，漢字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非數(shù)字的字符
\B 匹配不是單詞開頭或結束的位置
[^x] 匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou這幾個字母以外的任意字符

常用的python正則表達式限定符代碼/語法說明:

*重復零次或更多次
+重復一次或更多次
?重復零次或一次
{n}重復n次
{n,}重復n次或更多次
{n,m}重復n到m次
關于python正則表達式命名組:
命名組:(?P.....)
這篇文章里面還提到了界定( 問號開頭,前向則有個'<'號,非則有個'!' 號 ):
前向界定 (?<=…)
后向界定 (?=…)
前向非界定 (?后向非界定 (?!.....)

Python通過正則表達式去除(過濾)HTML標簽示例代碼

#-*- coding:utf-8 -*-
import re
##過濾HTML中的標簽
# 將HTML中標簽等信息去掉
# @param htmlstr HTML字符串.
def filter_tags(htmlstr):
  # 先過濾CDATA
  re_cdata = re.compile("//<!
CDATA\[[>]?//
\]>", re.I) #匹配CDATA
  re_script = re.compile(&#39;<\s*script[^>]*>[^<]*<\s*/\s*script\s*>&#39;, re.I) # Script
  re_style = re.compile(&#39;<\s*style[^>]*>[^<]*<\s*/\s*style\s*>&#39;, re.I) # style
  re_br = re.compile(&#39;<br\s*?/?>&#39;) # 處理換行
  re_h = re.compile(&#39;</?\w+[^>]*>&#39;) # HTML標簽
  re_comment = re.compile(&#39;<!--[^>]*-->&#39;) # HTML注釋
  s = re_cdata.sub(&#39;&#39;, htmlstr) # 去掉CDATA
  s = re_script.sub(&#39;&#39;, s) # 去掉SCRIPT
  s = re_style.sub(&#39;&#39;, s) # 去掉style
  s = re_br.sub(&#39;\n&#39;, s) # 將br轉換為換行
  s = re_h.sub(&#39;&#39;, s) # 去掉HTML 標簽
  s = re_comment.sub(&#39;&#39;, s) # 去掉HTML注釋
  # 去掉多余的空行
  blank_line = re.compile(&#39;\n+&#39;)
  s = blank_line.sub(&#39;\n&#39;, s)
  s = replaceCharEntity(s) # 替換實體
  return s
##替換常用HTML字符實體.
# 使用正常的字符替換HTML中特殊的字符實體.
# 你可以添加新的實體字符到CHAR_ENTITIES中,處理更多HTML字符實體.
# @param htmlstr HTML字符串.
def replaceCharEntity(htmlstr):
  CHAR_ENTITIES = {&#39;nbsp&#39;: &#39; &#39;, &#39;160&#39;: &#39; &#39;,
           &#39;lt&#39;: &#39;<&#39;, &#39;60&#39;: &#39;<&#39;,
           &#39;gt&#39;: &#39;>&#39;, &#39;62&#39;: &#39;>&#39;,
           &#39;amp&#39;: &#39;&&#39;, &#39;38&#39;: &#39;&&#39;,
           &#39;quot&#39;: &#39;"&#39;&#39;"&#39;, &#39;34&#39;: &#39;"&#39;, }
  re_charEntity = re.compile(r&#39;?(?P<name>\w+);&#39;)
  sz = re_charEntity.search(htmlstr)
  while sz:
    entity = sz.group() # entity全稱，如>
    key = sz.group(&#39;name&#39;) # 去除&;后entity,如>為gt
    try:
      htmlstr = re_charEntity.sub(CHAR_ENTITIES[key], htmlstr, 1)
      sz = re_charEntity.search(htmlstr)
    except KeyError:
      # 以空串代替
      htmlstr = re_charEntity.sub(&#39;&#39;, htmlstr, 1)
      sz = re_charEntity.search(htmlstr)
  return htmlstr
def repalce(s, re_exp, repl_string):
  return re_exp.sub(repl_string, s)
if __name__ == &#39;__main__&#39;:
  s = file(&#39;test.html&#39;).read()
  news = filter_tags(s)
  print news

Atas ialah kandungan terperinci Python使用正則表達式過濾或替換HTML標簽方法介紹. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undress AI Tool

Gambar buka pakaian secara percuma

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Panduan Membina Rumput Wonder | Uma Musume Pretty Derby

1 bulan yang lalu By Jack chen

<??>: 99 Malam di Hutan - Semua Lencana Dan Cara Membuka Kunci Mereka

4 minggu yang lalu By DDD

Panduan Suhu Rimworld Odyssey untuk Kapal dan Gravtech

3 minggu yang lalu By Jack chen

Mejiro Ryan Build Guide | Uma Musume Pretty Derby

3 minggu yang lalu By Jack chen

Rimworld Odyssey Cara Ikan

3 minggu yang lalu By Jack chen

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Tutorial Laravel

1601

Tutorial PHP

1502

276

Tunjukkan Lagi

Related knowledge

Cara Menggunakan PHP Digabungkan dengan AI Untuk Mencapai Ralat Pembetulan Ralat PHP Pengesanan dan Pengoptimuman Sintaks PHP Jul 25, 2025 pm 08:57 PM

Untuk merealisasikan pembetulan ralat teks dan pengoptimuman sintaks dengan AI, anda perlu mengikuti langkah -langkah berikut: 1. Pilih model AI atau API yang sesuai, seperti Baidu, Tencent API atau perpustakaan NLP sumber terbuka; 2. Panggil API melalui curl atau Guzzle PHP dan memproses hasil pulangan; 3. Maklumat pembetulan ralat paparan dalam aplikasi dan membenarkan pengguna memilih sama ada untuk mengadopsinya; 4. Gunakan php-l dan php_codesniffer untuk pengesanan sintaks dan pengoptimuman kod; 5. Secara berterusan mengumpul maklum balas dan mengemas kini model atau peraturan untuk meningkatkan kesannya. Apabila memilih AIAPI, fokus pada menilai ketepatan, kelajuan tindak balas, harga dan sokongan untuk PHP. Pengoptimuman kod harus mengikuti spesifikasi PSR, gunakan cache yang munasabah, elakkan pertanyaan bulat, mengkaji semula kod secara berkala, dan gunakan x

Contoh Bersama Seaborn Python Jul 26, 2025 am 08:11 AM

Gunakan sendi Seaborn untuk dengan cepat menggambarkan hubungan dan pengedaran antara dua pembolehubah; 2. 3. Tambah garis regresi dan maklumat ketumpatan kepada jenis = "reg", dan gabungkan marginal_kws untuk menetapkan gaya plot tepi; 4. Apabila jumlah data besar, disarankan untuk menggunakan "hex"

senarai python ke contoh penukaran rentetan Jul 26, 2025 am 08:00 AM

Senarai rentetan boleh digabungkan dengan kaedah Join (), seperti '' .join (kata) untuk mendapatkan "HelloWorldFrompython"; 2. Senarai nombor mesti ditukar kepada rentetan dengan peta (str, nombor) atau [str (x) forxinnumbers] sebelum menyertai; 3. Mana -mana senarai jenis boleh ditukar secara langsung kepada rentetan dengan kurungan dan petikan, sesuai untuk debugging; 4. Format tersuai boleh dilaksanakan oleh ekspresi penjana yang digabungkan dengan gabungan (), seperti '|' .join (f "[{item}]" foriteminitems) output "[a] | [a]

Python Sambung ke SQL Server PyoDBC Contoh Jul 30, 2025 am 02:53 AM

Pasang PYODBC: Gunakan perintah PipinstallPyoDBC untuk memasang perpustakaan; 2. Sambungkan SQLServer: Gunakan rentetan sambungan yang mengandungi pemacu, pelayan, pangkalan data, uid/pwd atau aman 3. Semak pemacu yang dipasang: Jalankan pyodbc.drivers () dan tapis nama pemacu yang mengandungi 'SQLServer' untuk memastikan nama pemacu yang betul digunakan seperti 'ODBCDriver17 untuk SQLServer'; 4. Parameter utama rentetan sambungan

Contoh Python Pandas Cair Jul 27, 2025 am 02:48 AM

pandas.melt () digunakan untuk menukar data format yang luas ke dalam format yang panjang. Jawapannya adalah untuk menentukan nama lajur baru dengan menentukan id_vars mengekalkan lajur pengenalan, nilai -nilai pilihan lajur untuk dicairkan, var_name dan value_name, 1.id_vars = 'nama' bermaksud bahawa lajur nama tetap tidak berubah, 2.value_vars = ['math', 'bahasa Inggeris' Nama, 4.value_name = 'Score' menetapkan nama lajur baru nilai asal, dan akhirnya menghasilkan tiga lajur termasuk nama, subjek dan skor.

Mengoptimumkan python untuk operasi terikat memori Jul 28, 2025 am 03:22 AM

Pythoncanbeoptimizedformemory-boundoperationsbyreducingoverheadthroughgenerators, efisiendataStructures, danManagingObjectlifetimes.first, useGeneratorsInsteadofListStoprocesslargedataSetSoneiteMatime, mengelakkan muat turun muat turun, coose

Python Django membentuk contoh Jul 27, 2025 am 02:50 AM

Pertama, tentukan borang hubungan yang mengandungi nama, peti mel dan medan mesej; 2. Dalam pandangan, penyerahan borang diproses dengan menilai permintaan pos, dan selepas pengesahan diluluskan, dibersihkan_data diperoleh dan respons dikembalikan, jika tidak, borang kosong akan diberikan; 3. Dalam templat, gunakan {{form.as_p}} untuk menjadikan medan dan tambah {%csrf_token%} untuk mencegah serangan CSRF; 4. Konfigurasi penghalaan URL ke titik / kenalan / ke paparan contac_view; Gunakan ModelForm untuk mengaitkan model secara langsung untuk mencapai storan data. Djangoforms melaksanakan pemprosesan bersepadu pengesahan data, rendering dan ralat HTML, yang sesuai untuk perkembangan cepat fungsi bentuk selamat.

Apakah arbitraj statistik dalam kriptografi? Bagaimana arbitraj statistik berfungsi? Jul 30, 2025 pm 09:12 PM

Pengenalan kepada arbitraj statistik statistik adalah kaedah perdagangan yang menangkap ketidakcocokan harga dalam pasaran kewangan berdasarkan model matematik. Falsafah terasnya berasal dari regresi min, iaitu, harga aset boleh menyimpang dari trend jangka panjang dalam jangka pendek, tetapi akhirnya akan kembali ke purata sejarah mereka. Peniaga menggunakan kaedah statistik untuk menganalisis korelasi antara aset dan mencari portfolio yang biasanya berubah serentak. Apabila hubungan harga aset -aset ini tidak dapat disimpulkan, peluang arbitraj timbul. Dalam pasaran cryptocurrency, arbitraj statistik terutamanya lazim, terutamanya disebabkan oleh ketidakcekapan dan turun naik drastik pasaran itu sendiri. Tidak seperti pasaran kewangan tradisional, kriptografi beroperasi sepanjang masa dan harga mereka sangat terdedah kepada berita, sentimen media sosial dan peningkatan teknologi. Turun naik harga yang berterusan ini kerap mencipta kecenderungan harga dan memberikan arbitrageurs dengan

See all articles

国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

Python使用正則表達式過濾或替換HTML標簽方法介紹

Alat AI Hot

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

Clothoff.io

Video Face Swap

Artikel Panas

Alat panas

Notepad++7.3.1

SublimeText3 versi Cina

Hantar Studio 13.0.1

Dreamweaver CS6

SublimeText3 versi Mac

Topik panas