国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
;元素,通常包含新聞網(wǎng)站上的文章標(biāo)題。
首頁 后端開發(fā) Python教程 簡(jiǎn)化網(wǎng)頁抓取:使用 BeautifulSoup 提取文章標(biāo)題

簡(jiǎn)化網(wǎng)頁抓?。菏褂?BeautifulSoup 提取文章標(biāo)題

Dec 20, 2024 pm 01:23 PM

Web Scraping Simplified: Extracting Article Titles with BeautifulSoup

簡(jiǎn)化網(wǎng)頁抓?。菏褂?BeautifulSoup 提取文章標(biāo)題

介紹

網(wǎng)絡(luò)抓取對(duì)于需要高效地從網(wǎng)絡(luò)收集數(shù)據(jù)的開發(fā)人員來說是一項(xiàng)基本技能。在本教程中,我們將演練一個(gè)簡(jiǎn)單的 Python 腳本,使用 BeautifulSoup(一個(gè)用于解析 HTML 和 XML 的強(qiáng)大庫)從新聞網(wǎng)站中抓取文章標(biāo)題。

在本教程結(jié)束時(shí),您將擁有一個(gè)腳本,只需幾行代碼即可從網(wǎng)頁中提取并顯示文章標(biāo)題!


先決條件

在深入研究代碼之前,請(qǐng)確保您的系統(tǒng)上安裝了 Python。您還需要以下庫:

  1. 請(qǐng)求:發(fā)出 HTTP 請(qǐng)求并獲取網(wǎng)頁內(nèi)容。
  2. BeautifulSoup (bs4):從 HTML 中解析和提取數(shù)據(jù)。

您可以使用 pip 安裝這些庫:

pip install requests beautifulsoup4

?問題

假設(shè)您想跟蹤 BBC 新聞等網(wǎng)站的最新新聞。您可以使用 Python 自動(dòng)執(zhí)行此任務(wù)并抓取文章標(biāo)題以進(jìn)行分析或顯示,而不是手動(dòng)訪問該網(wǎng)站。


守則

這是用于抓取文章標(biāo)題的完整 Python 腳本:

import requests
from bs4 import BeautifulSoup

def fetch_article_titles(url):
    try:
        # Step 1: Send an HTTP GET request to fetch the webpage
        response = requests.get(url)
        response.raise_for_status()  # Ensure the request was successful

        # Step 2: Parse the webpage content with BeautifulSoup
        soup = BeautifulSoup(response.text, "html.parser")

        # Step 3: Use a CSS selector to find all article titles
        titles = []
        for heading in soup.select("h3"):  # Most news sites use <h3> tags for article titles
            titles.append(heading.get_text(strip=True))  # Extract and clean the text

        return titles
    except requests.exceptions.RequestException as e:
        print(f"Error fetching the webpage: {e}")
        return []
    except Exception as e:
        print(f"Error during parsing: {e}")
        return []

# Example usage: Fetching titles from BBC News
url = "https://www.bbc.com/news"
titles = fetch_article_titles(url)

# Print the article titles
print("Latest Article Titles:")
for i, title in enumerate(titles, 1):
    print(f"{i}. {title}")


它是如何運(yùn)作的

  1. 提出請(qǐng)求

    • 我們使用requests.get方法來獲取目標(biāo)網(wǎng)頁的內(nèi)容。
    • raise_for_status 方法可確保盡早捕獲任何 HTTP 錯(cuò)誤(如 404 或 500)。
  2. 解析內(nèi)容:

    • BeautifulSoup 庫解析 HTML 內(nèi)容,使使用 CSS 選擇器輕松導(dǎo)航和提取元素。
  3. 提取標(biāo)題

    • soup.select 方法獲取所有

      ;元素,通常包含新聞網(wǎng)站上的文章標(biāo)題。

    • get_text 方法從每個(gè)元素中提取干凈的文本。

示例輸出

運(yùn)行腳本時(shí),您將獲得一個(gè)干凈的文章標(biāo)題列表:

Latest Article Titles:
1. Israel-Gaza conflict: Latest updates
2. Global markets fall amid economic uncertainty
3. AI advancements raise ethical questions
4. Football: Premier League results
...

自定義腳本

您可以修改此腳本以抓取其他類型的內(nèi)容或定位不同的網(wǎng)站。您可以嘗試以下一些調(diào)整:

  • 更改 CSS 選擇器:
    如果目標(biāo)網(wǎng)站具有不同的結(jié)構(gòu),請(qǐng)將“h3”替換為更具體的選擇器(例如“div.article-title”)。

  • 抓取額外數(shù)據(jù):
    通過選擇相關(guān)的 HTML 元素和屬性來提取 URL、發(fā)布日期或摘要。


道德抓取的技巧

  1. 尊重網(wǎng)站的服務(wù)條款
    請(qǐng)務(wù)必檢查網(wǎng)站的 robots.txt 文件或使用條款,以確保允許抓取。

  2. 限制您的請(qǐng)求
    通過使用 time.sleep 方法在請(qǐng)求之間添加延遲來避免服務(wù)器過載。

  3. 優(yōu)雅地處理變化
    網(wǎng)站可以改變其結(jié)構(gòu),從而破壞您的腳本。始終準(zhǔn)備好調(diào)試和更新您的代碼。


結(jié)論

僅用幾行 Python 代碼,我們就構(gòu)建了一個(gè)簡(jiǎn)單但功能強(qiáng)大的腳本來從新聞網(wǎng)站抓取文章標(biāo)題。 BeautifulSoup 可以輕松導(dǎo)航和提取所需的數(shù)據(jù),而 requests 則處理 HTTP 交互。

網(wǎng)絡(luò)抓取可以釋放大量機(jī)會(huì),從監(jiān)控趨勢(shì)到自動(dòng)化數(shù)據(jù)收集。請(qǐng)記住負(fù)責(zé)任地刮擦!

以上是簡(jiǎn)化網(wǎng)頁抓?。菏褂?BeautifulSoup 提取文章標(biāo)題的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

Python類中的多態(tài)性 Python類中的多態(tài)性 Jul 05, 2025 am 02:58 AM

多態(tài)是Python面向?qū)ο缶幊讨械暮诵母拍?,指“一種接口,多種實(shí)現(xiàn)”,允許統(tǒng)一處理不同類型的對(duì)象。1.多態(tài)通過方法重寫實(shí)現(xiàn),子類可重新定義父類方法,如Animal類的speak()方法在Dog和Cat子類中有不同實(shí)現(xiàn)。2.多態(tài)的實(shí)際用途包括簡(jiǎn)化代碼結(jié)構(gòu)、增強(qiáng)可擴(kuò)展性,例如圖形繪制程序中統(tǒng)一調(diào)用draw()方法,或游戲開發(fā)中處理不同角色的共同行為。3.Python實(shí)現(xiàn)多態(tài)需滿足:父類定義方法,子類重寫該方法,但不要求繼承同一父類,只要對(duì)象實(shí)現(xiàn)相同方法即可,這稱為“鴨子類型”。4.注意事項(xiàng)包括保持方

我如何寫一個(gè)簡(jiǎn)單的'你好,世界!” Python的程序? 我如何寫一個(gè)簡(jiǎn)單的'你好,世界!” Python的程序? Jun 24, 2025 am 12:45 AM

"Hello,World!"程序是用Python編寫的最基礎(chǔ)示例,用于展示基本語法并驗(yàn)證開發(fā)環(huán)境是否正確配置。1.它通過一行代碼print("Hello,World!")實(shí)現(xiàn),運(yùn)行后會(huì)在控制臺(tái)輸出指定文本;2.運(yùn)行步驟包括安裝Python、使用文本編輯器編寫代碼、保存為.py文件、在終端執(zhí)行該文件;3.常見錯(cuò)誤有遺漏括號(hào)或引號(hào)、誤用大寫Print、未保存為.py格式以及運(yùn)行環(huán)境錯(cuò)誤;4.可選工具包括本地文本編輯器 終端、在線編輯器(如replit.com)

Python中的算法是什么?為什么它們很重要? Python中的算法是什么?為什么它們很重要? Jun 24, 2025 am 12:43 AM

AlgorithmsinPythonareessentialforefficientproblem-solvinginprogramming.Theyarestep-by-stepproceduresusedtosolvetaskslikesorting,searching,anddatamanipulation.Commontypesincludesortingalgorithmslikequicksort,searchingalgorithmslikebinarysearch,andgrap

什么是python的列表切片? 什么是python的列表切片? Jun 29, 2025 am 02:15 AM

ListslicinginPythonextractsaportionofalistusingindices.1.Itusesthesyntaxlist[start:end:step],wherestartisinclusive,endisexclusive,andstepdefinestheinterval.2.Ifstartorendareomitted,Pythondefaultstothebeginningorendofthelist.3.Commonusesincludegetting

python`@classmethod'裝飾師解釋了 python`@classmethod'裝飾師解釋了 Jul 04, 2025 am 03:26 AM

類方法是Python中通過@classmethod裝飾器定義的方法,其第一個(gè)參數(shù)為類本身(cls),用于訪問或修改類狀態(tài)。它可通過類或?qū)嵗{(diào)用,影響的是整個(gè)類而非特定實(shí)例;例如在Person類中,show_count()方法統(tǒng)計(jì)創(chuàng)建的對(duì)象數(shù)量;定義類方法時(shí)需使用@classmethod裝飾器并將首參命名為cls,如change_var(new_value)方法可修改類變量;類方法與實(shí)例方法(self參數(shù))、靜態(tài)方法(無自動(dòng)參數(shù))不同,適用于工廠方法、替代構(gòu)造函數(shù)及管理類變量等場(chǎng)景;常見用途包括從

如何使用CSV模塊在Python中使用CSV文件? 如何使用CSV模塊在Python中使用CSV文件? Jun 25, 2025 am 01:03 AM

Python的csv模塊提供了讀寫CSV文件的簡(jiǎn)單方法。1.讀取CSV文件時(shí),可使用csv.reader()逐行讀取,并將每行數(shù)據(jù)作為字符串列表返回;若需通過列名訪問數(shù)據(jù),則可用csv.DictReader(),它將每行映射為字典。2.寫入CSV文件時(shí),使用csv.writer()并調(diào)用writerow()或writerows()方法寫入單行或多行數(shù)據(jù);若要寫入字典數(shù)據(jù),則使用csv.DictWriter(),需先定義列名并通過writeheader()寫入表頭。3.處理邊緣情況時(shí),模塊自動(dòng)處理

Python函數(shù)參數(shù)和參數(shù) Python函數(shù)參數(shù)和參數(shù) Jul 04, 2025 am 03:26 AM

參數(shù)(parameters)是定義函數(shù)時(shí)的占位符,而傳參(arguments)是調(diào)用時(shí)傳入的具體值。1.位置參數(shù)需按順序傳遞,順序錯(cuò)誤會(huì)導(dǎo)致結(jié)果錯(cuò)誤;2.關(guān)鍵字參數(shù)通過參數(shù)名指定,可改變順序且提高可讀性;3.默認(rèn)參數(shù)值在定義時(shí)賦值,避免重復(fù)代碼,但應(yīng)避免使用可變對(duì)象作為默認(rèn)值;4.args和*kwargs可處理不定數(shù)量的參數(shù),適用于通用接口或裝飾器,但應(yīng)謹(jǐn)慎使用以保持可讀性。

解釋Python發(fā)電機(jī)和迭代器。 解釋Python發(fā)電機(jī)和迭代器。 Jul 05, 2025 am 02:55 AM

迭代器是實(shí)現(xiàn)__iter__()和__next__()方法的對(duì)象,生成器是簡(jiǎn)化版的迭代器,通過yield關(guān)鍵字自動(dòng)實(shí)現(xiàn)這些方法。1.迭代器每次調(diào)用next()返回一個(gè)元素,無更多元素時(shí)拋出StopIteration異常。2.生成器通過函數(shù)定義,使用yield按需生成數(shù)據(jù),節(jié)省內(nèi)存且支持無限序列。3.處理已有集合時(shí)用迭代器,動(dòng)態(tài)生成大數(shù)據(jù)或需惰性求值時(shí)用生成器,如讀取大文件時(shí)逐行加載。注意:列表等可迭代對(duì)象不是迭代器,迭代器到盡頭后需重新創(chuàng)建,生成器只能遍歷一次。

See all articles