国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁 專題 SEO 什麼是robots.txt?

什麼是robots.txt?

May 23, 2019 am 11:01 AM

robots.txt是搜尋引擎造訪網(wǎng)站時要查看的第一個文件,是用來規(guī)定搜尋引擎對網(wǎng)站內(nèi)容抓取範(fàn)圍的文字檔案。當(dāng)一個搜尋蜘蛛造訪一個網(wǎng)站時,它會先檢查該網(wǎng)站根目錄下是否存在robots.txt,如果存在,則會依照檔案中的內(nèi)容來決定造訪的範(fàn)圍。

什麼是robots.txt?

在網(wǎng)站建置過程中我們會有一部分內(nèi)容不希望被搜尋引擎抓取到或不希望其在網(wǎng)路中出現(xiàn),那麼該怎麼辦呢?我要怎麼跟搜尋引擎說你不要抓取我的xx內(nèi)容呢?這時候robots就派上用場了。

robots.txt是搜尋引擎中造訪網(wǎng)站的時候要查看的第一個檔案。 Robots.txt檔案告訴蜘蛛程式在伺服器上什麼檔案是可以被檢視的。

當(dāng)一個搜尋蜘蛛造訪一個網(wǎng)站時,它會先檢查該網(wǎng)站根目錄下是否存在robots.txt,如果存在,搜尋機器人就會按照該檔案中的內(nèi)容來確定存取的範(fàn)圍;如果該文件不存在,所有的搜尋蜘蛛將能夠存取網(wǎng)站上所有沒有被口令保護的頁面。

語法:最簡單的robots.txt 檔案使用兩個規(guī)則:

? User-Agent: 適用下列規(guī)則的漫遊器

? Disallow: 要攔截的網(wǎng)頁

但是我們需要注意的幾點:

1.robots.txt必須存放在網(wǎng)站的根目錄下,

2.其命名必須為robots.txt,且檔案名稱必須全部小寫。

3.Robots.txt是搜尋引擎存取網(wǎng)站的第一個頁面

4.Robots.txt中必須指明user-agent

robots.txt使用迷思

?迷思一:我的網(wǎng)站上的所有檔案都需要蜘蛛抓取,那我就沒必要在新增robots.txt檔案了。反正如果該檔案不存在,所有的搜尋蜘蛛將預(yù)設(shè)能夠存取網(wǎng)站上所有沒有被口令保護的頁面。

?每當(dāng)使用者試圖存取某個不存在的URL時,伺服器都會在日誌中記錄404錯誤(無法找到檔案)。每當(dāng)搜尋蜘蛛來尋找不存在的robots.txt檔案時,伺服器也會在日誌中記錄一條404錯誤,所以你應(yīng)該做網(wǎng)站中新增一個robots.txt。

?迷思二:在robots.txt檔案中設(shè)定所有的檔案都可以被搜尋蜘蛛抓取,這樣可以增加網(wǎng)站的收錄率。

?網(wǎng)站中的程式腳本、樣式表等檔案即使被蜘蛛收錄,也不會增加網(wǎng)站的收錄率,只會浪費伺服器資源。因此必須在robots.txt檔案中設(shè)定不要讓搜尋蜘蛛索引這些檔案。

?具體哪些檔案需要排除, 在robots.txt使用技巧一文中有詳細介紹。

?迷思三:搜尋蜘蛛抓取網(wǎng)頁太浪費伺服器資源,在robots.txt檔案設(shè)定所有的搜尋蜘蛛都不能抓取全部的網(wǎng)頁。

?如果這樣的話,會導(dǎo)致整個網(wǎng)站無法被搜尋引擎收錄。

robots.txt使用技巧

?1. 每當(dāng)使用者試圖存取某個不存在的URL時,伺服器都會在日誌中記錄404錯誤(無法找到文件)。每當(dāng)搜尋蜘蛛來尋找不存在的robots.txt檔案時,伺服器也會在日誌中記錄一個404錯誤,所以你應(yīng)該在網(wǎng)站中新增一個robots.txt。

?2. 網(wǎng)站管理員必須將蜘蛛程式遠離某些伺服器上的目錄-保證伺服器效能。例如:大多數(shù)網(wǎng)站伺服器都有程式儲存在「cgi-bin」目錄下,因此在robots.txt檔案中加入「Disallow: /cgi-bin」是個好主意,這樣就能夠避免將所有程式檔案被蜘蛛索引,可以節(jié)省伺服器資源。一般網(wǎng)站中不需要蜘蛛抓取的文件有:後臺管理文件、程式腳本、附件、資料庫文件、編碼文件、樣式表文件、範(fàn)本文件、導(dǎo)覽圖片和背景圖片等等。

?下面是VeryCMS裡的robots.txt檔案:

?User-agent: *

?Disallow: /admin/ 後臺管理檔案

?Disallow: / require/ 程式檔案

?Disallow: /attachment/ 附件

?Disallow: /images/ 圖片

?Disallow: /data/ 資料庫檔案

?Disallow: / template/ 範(fàn)本檔案

?Disallow: /css/ 樣式表檔案

?Disallow: /lang/ 編碼檔案

?Disallow: /script/ 腳本檔案

3. 如果你的網(wǎng)站是動態(tài)網(wǎng)頁,並且你為這些動態(tài)網(wǎng)頁創(chuàng)建了靜態(tài)副本,以供搜尋蜘蛛更容易抓取。那你需要在robots.txt檔案中設(shè)定避免動態(tài)網(wǎng)頁被蜘蛛索引,以確保這些網(wǎng)頁不會被視為含重複內(nèi)容。

?4. robots.txt檔案裡也可以直接包含在sitemap檔案的連結(jié)。就像這樣:

?Sitemap: http://www.***.com/sitemap.xml

##

?目前對此表示支援的搜尋引擎公司有Google, Yahoo, Ask and MSN。而中文搜尋引擎公司,顯然不在這個圈子內(nèi)。這樣做的好處就是,站長不用到每個搜尋引擎的站長工具或相似的站長部分,去提交自己的sitemap文件,搜尋引擎的蜘蛛自己就會抓取robots.txt文件,讀取其中的sitemap路徑,接著抓取其中相連結(jié)的網(wǎng)頁。

?5. 合理使用robots.txt檔案還能避免存取時發(fā)生錯誤。例如,不能讓搜尋者直接進入購物車頁面。因為沒有理由讓購物車被收錄,所以你可以在robots.txt檔案中設(shè)定來阻止搜尋者直接進入購物車頁面

以上是什麼是robots.txt?的詳細內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

如何保護深厚的工作時間並保持重點為SEO 如何保護深厚的工作時間並保持重點為SEO Jun 19, 2025 am 10:07 AM

對於任何SEO專業(yè)人士,保持專注和富有成效的挑戰(zhàn)可能是一個挑戰(zhàn)。持續(xù)算法更新,趨勢變化以及電子郵件和通知的彈跳,感覺就像您總是在玩追趕。

Google AI概述,點擊和流量影響:揭開謎團 Google AI概述,點擊和流量影響:揭開謎團 Jun 22, 2025 am 09:42 AM

Google於5月14日在美國搜索結(jié)果中開始包括AI概述(AIO)。雖然Google對AIO內(nèi)的鏈接可能會遇到較高的點擊率(CTRS)的事實,但仍不清楚直接質(zhì)疑有關(guān)

WordPress 6.5獲得站點封面文件的LastMod日期 WordPress 6.5獲得站點封面文件的LastMod日期 Jun 23, 2025 am 09:42 AM

WordPress版本6.5現(xiàn)在包括對SiteMap文件中LastMod元素的支持,可以幫助搜索引擎識別新的或更新的內(nèi)容。這種增強可能會提高爬網(wǎng)效率並降低服務(wù)器負(fù)載。 lastMod。 LastMod元素可以

重新思考關(guān)鍵字策略:為什麼優(yōu)化搜索意圖很重要 重新思考關(guān)鍵字策略:為什麼優(yōu)化搜索意圖很重要 Jun 20, 2025 am 10:20 AM

搜索引擎繼續(xù)發(fā)展,但是SEO策略未能跟上。 多年來,我們一直依靠關(guān)鍵字研究來選擇特定的搜索來定位。但是,關(guān)鍵字研究通常優(yōu)先考慮錯誤的目標(biāo)。 執(zhí)行良好,鑰匙

提醒:新的Google搜索聲譽濫用政策即將開始 提醒:新的Google搜索聲譽濫用政策即將開始 Jun 28, 2025 am 10:22 AM

Google的新搜索垃圾郵件政策圍繞著聲譽濫用 - SEO專業(yè)人員通常稱為“寄生蟲SEO”的策略 - 將“ 5月5日之後”生效,如Google確認(rèn)。 5月5日在這個星期天跌落。這並不意外。三月份,去

掃描者以更好的SEO和內(nèi)容營銷想法 掃描者以更好的SEO和內(nèi)容營銷想法 Jun 18, 2025 am 09:47 AM

那裡有很多內(nèi)容。猜猜是什麼?其中99%的可怕。 然後,有1%的內(nèi)容 - 絕對是絕對出色的東西。 有時,這是熱門消息,例如最近的Google搜索洩漏,但是有ALS

Hubspot與WordPress與WebFlow的SEO優(yōu)缺點 Hubspot與WordPress與WebFlow的SEO優(yōu)缺點 Jun 17, 2025 am 11:58 AM

我一直都在詢問某人應(yīng)該使用哪個網(wǎng)絡(luò)平臺。主要選項是HubSpot,WordPress和WebFlow。幾次回答相同的問題,可能值得注意的是群眾。

前首席執(zhí)行官埃里克·施密特(Eric Sc????hmidt)說,Google與藍色鏈接無關(guān) 前首席執(zhí)行官埃里克·施密特(Eric Sc????hmidt)說,Google與藍色鏈接無關(guān) Jun 27, 2025 am 09:25 AM

Google Eric Sc????hmidt的前執(zhí)行董事長兼首席執(zhí)行官在最近在CNBC上露面時說:“ Google與組織世界信息無關(guān)。這是關(guān)於組織世界信息的?!?/p>

See all articles