国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁(yè) web前端 js教程 如何使用 Puppeteer 進(jìn)行網(wǎng)頁(yè)抓?。撼鯇W(xué)者友好指南

如何使用 Puppeteer 進(jìn)行網(wǎng)頁(yè)抓取:初學(xué)者友好指南

Jan 08, 2025 am 12:46 AM

How to Web Scrape with Puppeteer: A Beginner-Friendly Guide

網(wǎng)絡(luò)抓取是從網(wǎng)站收集數(shù)據(jù)的極其強(qiáng)大的工具。借助 Puppeteer(Google 的 Node.js 無(wú)頭瀏覽器庫(kù)),您可以自動(dòng)執(zhí)行頁(yè)面導(dǎo)航、單擊按鈕和提取信息的過(guò)程,同時(shí)模仿人類(lèi)瀏覽行為。本指南將以簡(jiǎn)單、清晰且可操作的方式引導(dǎo)您了解使用 Puppeteer 進(jìn)行網(wǎng)頁(yè)抓取的基本知識(shí)。

什么是傀儡師?

Puppeteer 是一個(gè) Node.js 庫(kù),可讓您控制 Google Chrome(或 Chromium)的無(wú)頭版本。無(wú)頭瀏覽器在沒(méi)有圖形用戶(hù)界面 (GUI) 的情況下運(yùn)行,使其速度更快,非常適合抓取等自動(dòng)化任務(wù)。但是,如果您需要直觀地查看正在發(fā)生的情況,Puppeteer 也可以在完整瀏覽器模式下運(yùn)行。

為什么選擇 Puppeteer 進(jìn)行網(wǎng)頁(yè)抓取?

靈活性:Puppeteer 可以輕松處理動(dòng)態(tài)網(wǎng)站和單頁(yè)應(yīng)用程序 (SPA)。
JavaScript 支持:它在頁(yè)面上執(zhí)行 JavaScript,這對(duì)于抓取現(xiàn)代網(wǎng)絡(luò)應(yīng)用程序至關(guān)重要。
自動(dòng)化能力:您可以執(zhí)行填寫(xiě)表格、單擊按鈕甚至截屏等任務(wù)。

將代理與 Puppeteer 一起使用

抓取網(wǎng)站時(shí),代理對(duì)于避免 IP 禁令和訪(fǎng)問(wèn)地理限制內(nèi)容至關(guān)重要。代理充當(dāng)您的抓取工具和目標(biāo)網(wǎng)站之間的中介,掩蓋您的真實(shí) IP 地址。對(duì)于 Puppeteer,您可以通過(guò)將代理作為啟動(dòng)參數(shù)傳遞來(lái)輕松集成代理:

javascript
復(fù)制代碼
const browser = wait puppeteer.launch({
args: ['--proxy-server=your-proxy-server:port']
});
代理對(duì)于擴(kuò)展抓取工作特別有用。輪換代理可確保每個(gè)請(qǐng)求都來(lái)自不同的 IP,從而減少檢測(cè)到的機(jī)會(huì)。住宅代理以其真實(shí)性而聞名,非常適合繞過(guò)機(jī)器人防御,而數(shù)據(jù)中心代理速度更快、價(jià)格更便宜。選擇符合您的抓取需求的類(lèi)型,并始終測(cè)試性能以確??煽啃浴?/p>

設(shè)置 Puppeteer

開(kāi)始抓取之前,您需要設(shè)置 Puppeteer。讓我們深入了解分步過(guò)程:
第 1 步:安裝 Node.js 和 Puppeteer
安裝Node.js:從官網(wǎng)下載并安裝Node.js。
設(shè)置 Puppeteer:打開(kāi)終端并運(yùn)行以下命令:
重?fù)?br> 復(fù)制代碼
npm install puppeteer

這將安裝 Puppeteer 和 Chromium,它控制的瀏覽器。
第 2 步:編寫(xiě)你的第一個(gè) Puppeteer 腳本
創(chuàng)建一個(gè)新的 JavaScript 文件 scraper.js。這將容納您的抓取邏輯。讓我們編寫(xiě)一個(gè)簡(jiǎn)單的腳本來(lái)打開(kāi)網(wǎng)頁(yè)并提取其標(biāo)題:
javascript
復(fù)制代碼
const puppeteer = require('puppeteer');

(async () => {
const browser = wait puppeteer.launch();
const page = wait browser.newPage();

// 導(dǎo)航到網(wǎng)站
等待 page.goto('https://example.com');

// 提取標(biāo)題
const title = wait page.title();
console.log(頁(yè)面標(biāo)題: ${title});

等待 browser.close();
})();

使用以下命令運(yùn)行腳本:
重?fù)?br> 復(fù)制代碼
節(jié)點(diǎn) scraper.js

您剛剛編寫(xiě)了第一個(gè) Puppeteer scraper!

用于抓取的核心 Puppeteer 功能

現(xiàn)在您已經(jīng)掌握了基礎(chǔ)知識(shí),讓我們來(lái)探索一些用于抓取的關(guān)鍵 Puppeteer 功能。

  1. 導(dǎo)航至頁(yè)面
    page.goto(url) 方法允許您打開(kāi)任何 URL。如果需要,添加超時(shí)設(shè)置等選項(xiàng):
    javascript
    復(fù)制代碼
    wait page.goto('https://example.com', { timeout: 60000 });

  2. 選擇元素
    使用 CSS 選擇器來(lái)精確定位頁(yè)面上的元素。 Puppeteer 提供了如下方法:
    第一個(gè)匹配的 page.$(selector)
    page.$$(選擇器) 適用于所有匹配
    示例:
    javascript
    復(fù)制代碼
    const 元素=await page.$('h1');
    const text = wait page.evaluate(el => el.textContent, element);
    console.log(標(biāo)題: ${text});

  3. 與元素互動(dòng)
    模擬用戶(hù)交互,例如點(diǎn)擊和鍵入:
    javascript
    復(fù)制代碼
    等待 page.click('#submit-button');
    wait page.type('#search-box', 'Puppeteer scraping');

  4. 等待元素
    網(wǎng)頁(yè)以不同的速度加載。 Puppeteer 允許您在繼續(xù)操作之前等待元素:
    javascript
    復(fù)制代碼
    等待 page.waitForSelector('#dynamic-content');

  5. 截圖
    可視化調(diào)試或?qū)?shù)據(jù)保存為圖像很容易:
    javascript
    復(fù)制代碼
    wait page.screenshot({ path: 'screenshot.png', fullPage: true });

處理動(dòng)態(tài)內(nèi)容

當(dāng)今許多網(wǎng)站使用 JavaScript 動(dòng)態(tài)加載內(nèi)容。 Puppeteer 在這里大放異彩,因?yàn)樗鼒?zhí)行 JavaScript,允許您抓取頁(yè)面源代碼中可能不可見(jiàn)的內(nèi)容。
示例:提取動(dòng)態(tài)數(shù)據(jù)
javascript
復(fù)制代碼
等待 page.goto('https://news.ycombinator.com');
等待 page.waitForSelector('.storylink');

const headers = wait page.$$eval('.storylink', links => links.map(link => link.textContent));
console.log('頭條新聞:', 頭條新聞);

處理驗(yàn)證碼和機(jī)器人檢測(cè)

一些網(wǎng)站采取了阻止機(jī)器人的措施。 Puppeteer 可以幫助繞過(guò)簡(jiǎn)單的檢查:
使用隱身模式:安裝 puppeteer-extra 插件:
重?fù)?br> 復(fù)制代碼
npm install puppeteer-extra puppeteer-extra-plugin-stealth
將其添加到您的腳本中:
javascript
復(fù)制代碼
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());

模仿人類(lèi)行為:隨機(jī)化鼠標(biāo)移動(dòng)和打字速度等動(dòng)作,以顯得更加人性化。
輪換用戶(hù)代理:根據(jù)每個(gè)請(qǐng)求更改瀏覽器的用戶(hù)代理:
javascript
復(fù)制代碼
wait page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64)');

保存抓取的數(shù)據(jù)

提取數(shù)據(jù)后,您可能想要保存它。以下是一些常見(jiàn)的格式:
JSON:
javascript
復(fù)制代碼
const fs = require('fs');
const data = { name: 'Puppeteer', type: 'library' };
fs.writeFileSync('data.json', JSON.stringify(data, null, 2));

CSV:使用像 csv-writer 這樣的庫(kù):
重?fù)?br> 復(fù)制代碼
npm 安裝 csv-writer
javascript
復(fù)制代碼
const createCsvWriter = require('csv-writer').createObjectCsvWriter;

const csvWriter = createCsvWriter({
路徑: 'data.csv',
標(biāo)題:[
{ id: '姓名', title: '姓名' },
{ id: '類(lèi)型', title: '類(lèi)型' }
]
});

const 記錄 = [{ name: 'Puppeteer', type: 'library' }];
csvWriter.writeRecords(records).then(() => console.log('CSV 文件已寫(xiě)入。'));
道德網(wǎng)絡(luò)抓取實(shí)踐
在抓取網(wǎng)站之前,請(qǐng)記住這些道德準(zhǔn)則:
檢查服務(wù)條款:始終確保網(wǎng)站允許抓取。
尊重速率限制:避免在短時(shí)間內(nèi)發(fā)送太多請(qǐng)求。使用 setTimeout 或 Puppeteer 的 page.waitForTimeout() 來(lái)間隔請(qǐng)求:
javascript
復(fù)制代碼
等待頁(yè)面.waitForTimeout(2000); // 等待2秒

避免敏感數(shù)據(jù):切勿抓取個(gè)人或私人信息。

常見(jiàn)問(wèn)題故障排除

頁(yè)面無(wú)法正確加載:嘗試添加更長(zhǎng)的超時(shí)或啟用完整瀏覽器模式:
javascript
復(fù)制代碼
const browser = wait puppeteer.launch({ headless: false });

選擇器不起作用:使用瀏覽器開(kāi)發(fā)人員工具(Ctrl Shift C)檢查網(wǎng)站以確認(rèn)選擇器。
被驗(yàn)證碼阻止:使用隱身插件并模仿人類(lèi)行為。

常見(jiàn)問(wèn)題 (FAQ)

  1. Puppeteer 免費(fèi)嗎? 是的,Puppeteer 是開(kāi)源的并且可以免費(fèi)使用。
  2. Puppeteer 可以抓取大量 JavaScript 的網(wǎng)站嗎? 絕對(duì)地! Puppeteer 執(zhí)行 JavaScript,非常適合抓取動(dòng)態(tài)網(wǎng)站。
  3. 網(wǎng)頁(yè)抓取合法嗎? 這取決于。在抓取之前請(qǐng)務(wù)必檢查網(wǎng)站的服務(wù)條款。
  4. Puppeteer 可以繞過(guò)驗(yàn)證碼嗎? Puppeteer 可以處理基本的驗(yàn)證碼挑戰(zhàn),但高級(jí)挑戰(zhàn)可能需要第三方工具。

以上是如何使用 Puppeteer 進(jìn)行網(wǎng)頁(yè)抓?。撼鯇W(xué)者友好指南的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線(xiàn)人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

熱門(mén)話(huà)題

Java vs. JavaScript:清除混亂 Java vs. JavaScript:清除混亂 Jun 20, 2025 am 12:27 AM

Java和JavaScript是不同的編程語(yǔ)言,各自適用于不同的應(yīng)用場(chǎng)景。Java用于大型企業(yè)和移動(dòng)應(yīng)用開(kāi)發(fā),而JavaScript主要用于網(wǎng)頁(yè)開(kāi)發(fā)。

JavaScript評(píng)論:簡(jiǎn)短說(shuō)明 JavaScript評(píng)論:簡(jiǎn)短說(shuō)明 Jun 19, 2025 am 12:40 AM

JavascriptconcommentsenceenceEncorenceEnterential gransimenting,reading and guidingCodeeXecution.1)單inecommentsareusedforquickexplanations.2)多l(xiāng)inecommentsexplaincomplexlogicorprovideDocumentation.3)

如何在JS中與日期和時(shí)間合作? 如何在JS中與日期和時(shí)間合作? Jul 01, 2025 am 01:27 AM

JavaScript中的日期和時(shí)間處理需注意以下幾點(diǎn):1.創(chuàng)建Date對(duì)象有多種方式,推薦使用ISO格式字符串以保證兼容性;2.獲取和設(shè)置時(shí)間信息可用get和set方法,注意月份從0開(kāi)始;3.手動(dòng)格式化日期需拼接字符串,也可使用第三方庫(kù);4.處理時(shí)區(qū)問(wèn)題建議使用支持時(shí)區(qū)的庫(kù),如Luxon。掌握這些要點(diǎn)能有效避免常見(jiàn)錯(cuò)誤。

為什么要將標(biāo)簽放在的底部? 為什么要將標(biāo)簽放在的底部? Jul 02, 2025 am 01:22 AM

PlacingtagsatthebottomofablogpostorwebpageservespracticalpurposesforSEO,userexperience,anddesign.1.IthelpswithSEObyallowingsearchenginestoaccesskeyword-relevanttagswithoutclutteringthemaincontent.2.Itimprovesuserexperiencebykeepingthefocusonthearticl

JavaScript與Java:開(kāi)發(fā)人員的全面比較 JavaScript與Java:開(kāi)發(fā)人員的全面比較 Jun 20, 2025 am 12:21 AM

JavaScriptIspreferredforredforwebdevelverment,而Javaisbetterforlarge-ScalebackendsystystemsandSandAndRoidApps.1)JavascriptexcelcelsincreatingInteractiveWebexperienceswebexperienceswithitswithitsdynamicnnamicnnamicnnamicnnamicnemicnemicnemicnemicnemicnemicnemicnemicnddommanipulation.2)

JavaScript:探索用于高效編碼的數(shù)據(jù)類(lèi)型 JavaScript:探索用于高效編碼的數(shù)據(jù)類(lèi)型 Jun 20, 2025 am 12:46 AM

javascripthassevenfundaMentalDatatypes:數(shù)字,弦,布爾值,未定義,null,object和symbol.1)numberSeadUble-eaduble-ecisionFormat,forwidevaluerangesbutbecautious.2)

什么是在DOM中冒泡和捕獲的事件? 什么是在DOM中冒泡和捕獲的事件? Jul 02, 2025 am 01:19 AM

事件捕獲和冒泡是DOM中事件傳播的兩個(gè)階段,捕獲是從頂層向下到目標(biāo)元素,冒泡是從目標(biāo)元素向上傳播到頂層。1.事件捕獲通過(guò)addEventListener的useCapture參數(shù)設(shè)為true實(shí)現(xiàn);2.事件冒泡是默認(rèn)行為,useCapture設(shè)為false或省略;3.可使用event.stopPropagation()阻止事件傳播;4.冒泡支持事件委托,提高動(dòng)態(tài)內(nèi)容處理效率;5.捕獲可用于提前攔截事件,如日志記錄或錯(cuò)誤處理。了解這兩個(gè)階段有助于精確控制JavaScript響應(yīng)用戶(hù)操作的時(shí)機(jī)和方式。

Java和JavaScript有什么區(qū)別? Java和JavaScript有什么區(qū)別? Jun 17, 2025 am 09:17 AM

Java和JavaScript是不同的編程語(yǔ)言。1.Java是靜態(tài)類(lèi)型、編譯型語(yǔ)言,適用于企業(yè)應(yīng)用和大型系統(tǒng)。2.JavaScript是動(dòng)態(tài)類(lèi)型、解釋型語(yǔ)言,主要用于網(wǎng)頁(yè)交互和前端開(kāi)發(fā)。

See all articles