国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁 科技週邊 人工智慧 網(wǎng)絡(luò)用LLMS刮擦

網(wǎng)絡(luò)用LLMS刮擦

Mar 14, 2025 am 10:29 AM

利用LLM的力量來增強(qiáng)網(wǎng)絡(luò)刮擦

網(wǎng)絡(luò)刮擦仍然是一種提取在線信息的關(guān)鍵技術(shù),賦予開發(fā)人員能夠收集跨不同領(lǐng)域的數(shù)據(jù)。大型語言模型(LLM)等大型語言模型(例如Chatgroq)顯著放大了網(wǎng)絡(luò)刮擦功能,從而提高了靈活性和準(zhǔn)確性。本文演示瞭如何與Web刮擦工具一起有效利用LLM,以從網(wǎng)頁獲得結(jié)構(gòu)化數(shù)據(jù)。

網(wǎng)絡(luò)用LLMS刮擦

關(guān)鍵學(xué)習(xí)目標(biāo):

  • 將LLMS(例如Chatgroq)與Web刮擦工具集成在一起。
  • 使用Playwright和LLM從網(wǎng)頁中提取結(jié)構(gòu)化數(shù)據(jù)。
  • 為LLM驅(qū)動(dòng)的Web刮擦配置環(huán)境。
  • 處理並將Web內(nèi)容轉(zhuǎn)換為結(jié)構(gòu)化格式(例如,Markdown)。
  • 自動(dòng)化和縮放網(wǎng)絡(luò)刮擦以進(jìn)行有效的數(shù)據(jù)提取。

目錄:

  • 建立您的開發(fā)環(huán)境
  • 提取Web內(nèi)容作為Markdown
  • 配置大型語言模型(LLM)
  • 刮擦著陸頁
  • 刮車清單
  • 結(jié)論
  • 常見問題

設(shè)置您的開發(fā)環(huán)境:

在開始之前,請確保正確配置您的環(huán)境。安裝必要的庫:

 !
!
!
!
!劇作家安裝鉻

此代碼段更新PIP,安裝用於瀏覽器自動(dòng)化的劇作家,HTML2Text用於HTML-TO-TO-MARKDOWN轉(zhuǎn)換,Langchain-Groq用於LLM集成,並為劇作家下載Chromium。

導(dǎo)入基本模塊:

導(dǎo)入所需的模塊:

導(dǎo)入
來自Pprint Import Pprint
從輸入導(dǎo)入列表,可選

導(dǎo)入html2Text
導(dǎo)入NEST_ASYNCIO
導(dǎo)入大熊貓作為pd
從Google.Colab導(dǎo)入U(xiǎn)serData
來自langchain_groq導(dǎo)入changroq
來自playwright.async_api導(dǎo)入async_playwright
來自Pydantic Import Basemodel,field
從TQDM導(dǎo)入TQDM

nest_asyncio.apply()

獲取Web內(nèi)容作為Markdown:

最初的刮擦步驟涉及檢索Web內(nèi)容。劇作家有助於加載網(wǎng)頁並提取其HTML:

 USER_AGENT =“ Mozilla/5.0(Macintosh; Intel Mac OS X 10_15_7)AppleWebkit/537.36(Khtml,像Gecko)Chrome/128.0.0.0.0.0 Safari/537.36
playwright =等待async_playwright()。start()
瀏覽器=等待playwright.chromium.launch()

context =等待瀏覽器.new_context(user_agent = user_agent)

page =等待context.new_page()
等待page.goto(“ https://playwright.dev/”)
content =等待頁面.content()

等待瀏覽器。close()
等待playwright.stop()
打?。▋?nèi)容) 

網(wǎng)絡(luò)用LLMS刮擦

該代碼使用劇作家獲取網(wǎng)頁的HTML內(nèi)容。設(shè)置自定義用戶代理,瀏覽器導(dǎo)航到URL,並提取HTML。然後將瀏覽器關(guān)閉以免費(fèi)資源。

要簡化處理,請使用HTML2Text將HTML轉(zhuǎn)換為Markdown:

 markdown_converter = html2text.html2text()
markdown_converter.ignore_links = false
markdown_content = markdown_converter.handle(content)
打?。╩arkdown_content) 

網(wǎng)絡(luò)用LLMS刮擦

設(shè)置大型語言模型(LLMS):

為結(jié)構(gòu)化數(shù)據(jù)提取配置LLM。我們將使用Chatgroq:

型號(hào)=“ Llama-3.1-70B反相”

llm = chatgroq(溫度= 0,model_name = model,api_key = userdata.get(“ groq_api_key”))

system_prompt =“”“”
您是專家文字提取器。您從網(wǎng)頁內(nèi)容中提取信息。
始終提取數(shù)據(jù)而無需更改數(shù)據(jù)和任何其他輸出。
”“”

def create_scrape_prompt(page_content:str) - > str:
    返回f“”
從下面的網(wǎng)頁中提取信息:

{page_content}

 <code>""".strip()</code>

這為Chatgroq設(shè)置了特定模型,系統(tǒng)提示指導(dǎo)LLM準(zhǔn)確提取信息。

(其餘部分,刮擦著陸頁,刮擦汽車清單,結(jié)論和常見問題,遵循與上述部分相似的代碼解釋和圖像包容性的模式。由於長度,我在這裡省略了它們。但是,我在這裡省略了它們。但是,結(jié)構(gòu)和樣式將與已經(jīng)提供的示例保持一致。

完整的代碼(包括省略的部分)將非常廣泛。這種響應(yīng)提供了對初始設(shè)置和第一個(gè)主要步驟的詳細(xì)說明,以證明整體方法和樣式。如果您需要詳細(xì)闡述的特定部分,請告訴我。

以上是網(wǎng)絡(luò)用LLMS刮擦的詳細(xì)內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

AGI和AI超級(jí)智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 AGI和AI超級(jí)智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 Jul 04, 2025 am 11:10 AM

讓我們來談?wù)劇? 對創(chuàng)新AI突破的分析是我正在進(jìn)行的AI中正在進(jìn)行的福布斯列覆蓋的一部分,包括識(shí)別和解釋各種有影響力的AI複雜性(請參閱此處的鏈接)。 前往Agi和

Kimi K2:最強(qiáng)大的開源代理模型 Kimi K2:最強(qiáng)大的開源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時(shí)候破壞了Genai行業(yè)的大量開源中國模型嗎?儘管DeepSeek佔(zhàn)據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

Grok 4 vs Claude 4:哪個(gè)更好? Grok 4 vs Claude 4:哪個(gè)更好? Jul 12, 2025 am 09:37 AM

到2025年中期,AI“軍備競賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車型Grok 4和Claude 4。這兩種模型處於設(shè)計(jì)理念和部署平臺(tái)的相反端,但他們卻在

深入探討人工智能如何幫助和危害各行各業(yè) 深入探討人工智能如何幫助和危害各行各業(yè) Jul 04, 2025 am 11:11 AM

我們將討論:公司開始委派AI的工作職能,以及那些最不可能用人工智能替代的角色AI如何重塑行業(yè)和就業(yè),以及企業(yè)和工人的工作方式。

英超聯(lián)賽發(fā)揮了AI播放來增強(qiáng)球迷的體驗(yàn) 英超聯(lián)賽發(fā)揮了AI播放來增強(qiáng)球迷的體驗(yàn) Jul 03, 2025 am 11:16 AM

7月1日,英格蘭頂級(jí)足球聯(lián)盟(England)與一家主要科技公司揭示了為期五年的合作,以創(chuàng)建比簡單的亮點(diǎn)捲軸更先進(jìn)的東西:一種由實(shí)時(shí)AI驅(qū)動(dòng)的工具,可為EV提供個(gè)性化的更新和互動(dòng)

今天已經(jīng)在我們中間走了10個(gè)驚人的人形機(jī)器人 今天已經(jīng)在我們中間走了10個(gè)驚人的人形機(jī)器人 Jul 16, 2025 am 11:12 AM

但是我們可能甚至不必等10年就可以看到一個(gè)。實(shí)際上,可以被認(rèn)為是真正有用的,類人類機(jī)器的第一波。 近年來,有許多原型和生產(chǎn)模型從T中走出來

上下文工程是&#039; new&#039;及時(shí)的工程 上下文工程是&#039; new&#039;及時(shí)的工程 Jul 12, 2025 am 09:33 AM

直到上一年,迅速的工程被認(rèn)為是與大語言模型(LLM)互動(dòng)的關(guān)鍵技能。然而,最近,LLM在推理和理解能力方面已經(jīng)顯著提高。自然,我們的期望

Chip Ganassi Racing宣布Openai為中俄亥俄州IndyCar贊助商 Chip Ganassi Racing宣布Openai為中俄亥俄州IndyCar贊助商 Jul 03, 2025 am 11:17 AM

Openai是世界上最傑出的人工智能組織之一,將成為由三屆NTT IndyCar系列冠軍和2025 Indianapolis 500冠軍Alex PA驅(qū)動(dòng)的第10號(hào)Chip Ganassi Racing(CGR)本田的主要合作夥伴

See all articles