国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁 專題 SEO 什么是robots.txt?

什么是robots.txt?

May 23, 2019 am 11:01 AM

robots.txt是搜索引擎訪問網(wǎng)站時(shí)要查看的第一個(gè)文件,是用于規(guī)定搜索引擎對網(wǎng)站內(nèi)容抓取范圍的文本文件。當(dāng)一個(gè)搜索蜘蛛訪問一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,則會(huì)按照文件中的內(nèi)容來確定訪問的范圍。

什么是robots.txt?

在網(wǎng)站建設(shè)過程中我們會(huì)有一部分內(nèi)容不希望被搜索引擎抓取到或者不希望其在互聯(lián)網(wǎng)中出現(xiàn),那么要怎么辦呢?我要怎么跟搜索引擎說你不要抓取我的xx內(nèi)容呢?這時(shí)候robots就派上用場了。

robots.txt是搜索引擎中訪問網(wǎng)站的時(shí)候要查看的第一個(gè)文件。Robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。

當(dāng)一個(gè)搜索蜘蛛訪問一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。

語法:最簡單的 robots.txt 文件使用兩條規(guī)則:

? User-Agent: 適用下列規(guī)則的漫游器

? Disallow: 要攔截的網(wǎng)頁

但是我們需要注意的幾點(diǎn):

1.robots.txt必須存放在網(wǎng)站的根目錄下,

2.其命名必須為robots.txt,且文件名必須全部小寫。

3.Robots.txt是搜索引擎訪問網(wǎng)站的第一個(gè)頁面

4.Robots.txt中必須指明user-agent

robots.txt使用誤區(qū)

?誤區(qū)一:我的網(wǎng)站上的所有文件都需要蜘蛛抓取,那我就沒必要在添加robots.txt文件了。反正如果該文件不存在,所有的搜索蜘蛛將默認(rèn)能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。

?每當(dāng)用戶試圖訪問某個(gè)不存在的URL時(shí),服務(wù)器都會(huì)在日志中記錄404錯(cuò)誤(無法找到文件)。每當(dāng)搜索蜘蛛來尋找并不存在的robots.txt文件時(shí),服務(wù)器也將在日志中記錄一條404錯(cuò)誤,所以你應(yīng)該做網(wǎng)站中添加一個(gè)robots.txt。

?誤區(qū)二:在robots.txt文件中設(shè)置所有的文件都可以被搜索蜘蛛抓取,這樣可以增加網(wǎng)站的收錄率。

?網(wǎng)站中的程序腳本、樣式表等文件即使被蜘蛛收錄,也不會(huì)增加網(wǎng)站的收錄率,還只會(huì)浪費(fèi)服務(wù)器資源。因此必須在robots.txt文件里設(shè)置不要讓搜索蜘蛛索引這些文件。

?具體哪些文件需要排除, 在robots.txt使用技巧一文中有詳細(xì)介紹。

?誤區(qū)三:搜索蜘蛛抓取網(wǎng)頁太浪費(fèi)服務(wù)器資源,在robots.txt文件設(shè)置所有的搜索蜘蛛都不能抓取全部的網(wǎng)頁。

?如果這樣的話,會(huì)導(dǎo)致整個(gè)網(wǎng)站不能被搜索引擎收錄。

robots.txt使用技巧

?1. 每當(dāng)用戶試圖訪問某個(gè)不存在的URL時(shí),服務(wù)器都會(huì)在日志中記錄404錯(cuò)誤(無法找到文件)。每當(dāng)搜索蜘蛛來尋找并不存在的robots.txt文件時(shí),服務(wù)器也將在日志中記錄一條404錯(cuò)誤,所以你應(yīng)該在網(wǎng)站中添加一個(gè)robots.txt。

?2. 網(wǎng)站管理員必須使蜘蛛程序遠(yuǎn)離某些服務(wù)器上的目錄——保證服務(wù)器性能。比如:大多數(shù)網(wǎng)站服務(wù)器都有程序儲(chǔ)存在“cgi-bin”目錄下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是個(gè)好主意,這樣能夠避免將所有程序文件被蜘蛛索引,可以節(jié)省服務(wù)器資源。一般網(wǎng)站中不需要蜘蛛抓取的文件有:后臺(tái)管理文件、程序腳本、附件、數(shù)據(jù)庫文件、編碼文件、樣式表文件、模板文件、導(dǎo)航圖片和背景圖片等等。

?下面是VeryCMS里的robots.txt文件:

?User-agent: *

?Disallow: /admin/ 后臺(tái)管理文件

?Disallow: /require/ 程序文件

?Disallow: /attachment/ 附件

?Disallow: /images/ 圖片

?Disallow: /data/ 數(shù)據(jù)庫文件

?Disallow: /template/ 模板文件

?Disallow: /css/ 樣式表文件

?Disallow: /lang/ 編碼文件

?Disallow: /script/ 腳本文件

?3. 如果你的網(wǎng)站是動(dòng)態(tài)網(wǎng)頁,并且你為這些動(dòng)態(tài)網(wǎng)頁創(chuàng)建了靜態(tài)副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里設(shè)置避免動(dòng)態(tài)網(wǎng)頁被蜘蛛索引,以保證這些網(wǎng)頁不會(huì)被視為含重復(fù)內(nèi)容。

?4. robots.txt文件里還可以直接包括在sitemap文件的鏈接。就像這樣:

?Sitemap: http://www.***.com/sitemap.xml

?目前對此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,顯然不在這個(gè)圈子內(nèi)。這樣做的好處就是,站長不用到每個(gè)搜索引擎的站長工具或者相似的站長部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就會(huì)抓取robots.txt文件,讀取其中的sitemap路徑,接著抓取其中相鏈接的網(wǎng)頁。

?5. 合理使用robots.txt文件還能避免訪問時(shí)出錯(cuò)。比如,不能讓搜索者直接進(jìn)入購物車頁面。因?yàn)闆]有理由使購物車被收錄,所以你可以在robots.txt文件里設(shè)置來阻止搜索者直接進(jìn)入購物車頁面

以上是什么是robots.txt?的詳細(xì)內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

如何保護(hù)深厚的工作時(shí)間并保持重點(diǎn)為SEO 如何保護(hù)深厚的工作時(shí)間并保持重點(diǎn)為SEO Jun 19, 2025 am 10:07 AM

對于任何SEO專業(yè)人士,保持專注和富有成效的挑戰(zhàn)可能是一個(gè)挑戰(zhàn)。持續(xù)算法更新,趨勢變化以及電子郵件和通知的彈跳,感覺就像您總是在玩追趕。

Google AI概述,點(diǎn)擊和流量影響:揭開謎團(tuán) Google AI概述,點(diǎn)擊和流量影響:揭開謎團(tuán) Jun 22, 2025 am 09:42 AM

Google于5月14日在美國搜索結(jié)果中開始包括AI概述(AIO)。雖然Google對AIO內(nèi)的鏈接可能會(huì)遇到較高的點(diǎn)擊率(CTRS)的事實(shí),但仍不清楚直接質(zhì)疑有關(guān)

WordPress 6.5獲得站點(diǎn)封面文件的LastMod日期 WordPress 6.5獲得站點(diǎn)封面文件的LastMod日期 Jun 23, 2025 am 09:42 AM

WordPress版本6.5現(xiàn)在包括對SiteMap文件中LastMod元素的支持,可以幫助搜索引擎識(shí)別新的或更新的內(nèi)容。這種增強(qiáng)可能會(huì)提高爬網(wǎng)效率并降低服務(wù)器負(fù)載。lastMod。 LastMod元素可以

重新思考關(guān)鍵字策略:為什么優(yōu)化搜索意圖很重要 重新思考關(guān)鍵字策略:為什么優(yōu)化搜索意圖很重要 Jun 20, 2025 am 10:20 AM

搜索引擎繼續(xù)發(fā)展,但是SEO策略未能跟上。 多年來,我們一直依靠關(guān)鍵字研究來選擇特定的搜索來定位。但是,關(guān)鍵字研究通常優(yōu)先考慮錯(cuò)誤的目標(biāo)。 執(zhí)行良好,鑰匙

提醒:新的Google搜索聲譽(yù)濫用政策即將開始 提醒:新的Google搜索聲譽(yù)濫用政策即將開始 Jun 28, 2025 am 10:22 AM

Google的新搜索垃圾郵件政策圍繞著聲譽(yù)濫用 - SEO專業(yè)人員通常稱為“寄生蟲SEO”的策略 - 將“ 5月5日之后”生效,如Google確認(rèn)。 5月5日在這個(gè)星期天跌落。這并不意外。三月份,去

掃描者以更好的SEO和內(nèi)容營銷想法 掃描者以更好的SEO和內(nèi)容營銷想法 Jun 18, 2025 am 09:47 AM

那里有很多內(nèi)容。猜猜是什么?其中99%的可怕。 然后,有1%的內(nèi)容 - 絕對是絕對出色的東西。 有時(shí),這是熱門消息,例如最近的Google搜索泄漏,但是有ALS

前首席執(zhí)行官埃里克·施密特(Eric Sc??hmidt)說,Google與藍(lán)色鏈接無關(guān) 前首席執(zhí)行官埃里克·施密特(Eric Sc??hmidt)說,Google與藍(lán)色鏈接無關(guān) Jun 27, 2025 am 09:25 AM

Google Eric Sc??hmidt的前執(zhí)行董事長兼首席執(zhí)行官在最近在CNBC上露面時(shí)說:“ Google與組織世界信息無關(guān)。這是關(guān)于組織世界信息的?!?/p>

Hubspot與WordPress與WebFlow的SEO優(yōu)缺點(diǎn) Hubspot與WordPress與WebFlow的SEO優(yōu)缺點(diǎn) Jun 17, 2025 am 11:58 AM

我一直都在詢問某人應(yīng)該使用哪個(gè)網(wǎng)絡(luò)平臺(tái)。主要選項(xiàng)是HubSpot,WordPress和WebFlow。幾次回答相同的問題,可能值得注意的是群眾。

See all articles