97精品一区二区视频在线观看,91精品国产自产在线观看,亚洲精品A在线观看

你要找的是肇慶網(wǎng)站推廣哪家好？中外商貿(mào)為你提供服務(wù)：肇慶網(wǎng)站推廣價(jià)格、肇慶網(wǎng)站推廣公司，歡迎瀏覽:肇慶網(wǎng)站推廣

蜘蛛爬行、抓取網(wǎng)頁(yè)

搜索引擎的基礎(chǔ)是有大量網(wǎng)頁(yè)的信息數(shù)據(jù)庫(kù)，這是決定搜索引擎整體質(zhì)量的一個(gè)重要指標(biāo)。如果搜索引擎的網(wǎng)頁(yè)信息量小，那么供用戶(hù)選擇的搜索結(jié)果就會(huì)少，而大量的網(wǎng)頁(yè)信息能更好地滿(mǎn)足用戶(hù)的搜索需求。

要獲得大量網(wǎng)頁(yè)信息的數(shù)據(jù)庫(kù)，搜索引擎就必須收集網(wǎng)絡(luò)資源，可以通過(guò)搜索引擎的網(wǎng)絡(luò)漫游器(Crawler)在互聯(lián)網(wǎng)中各個(gè)網(wǎng)頁(yè)爬行并抓取信息。這是一種爬行并收集信息的

程序，通常搜索引擎稱(chēng)為蜘蛛(Spider)或者機(jī)器人(Bot)。

每個(gè)搜索引擎的蜘蛛或者機(jī)器人都有不同的IP，并有自己的代理名稱(chēng)。通常在網(wǎng)絡(luò)日志中可以看到不同IP及代理名稱(chēng)的搜索引擎蜘蛛。在如下代碼中，220.181.108.89就是搜索引擎蜘蛛的IP,BaiduSpider、Sogou+Web+Spider、Googlebot、SosoSpider、bingbot分別表示百度蜘蛛、搜狗蜘蛛、谷歌機(jī)器人、搜搜蜘蛛、Bing機(jī)器人。這些都是各個(gè)搜索引擎蜘蛛的代理名稱(chēng)，是區(qū)分搜索引擎的重要標(biāo)志。

220.181.108.89

Mozilla/5.0+(compatible;+BaiduSpider/2.0;++http://www.baidu.com/search/Spider.html)

220.181.89.182

Sogou+Web+Spider/4.0(+http://www,sogou.com/docs/help/Webmasters.htm#07)

66.249.73.103

Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.Google.com/bot.html)

124.115.0.108

Mozilla/5.0(compatible;+SosoSpider/2.0;++http://help.soso.com/WebSpider

.htm)

65.55.52.97

Mozilla/5.0+(compatible;+bingbot/2.0;++http://www.bing.com/bingbot.htm)

110.75.172.113 Yahoo!+Slurp+China

搜索引擎蜘蛛雖然名稱(chēng)不同，但是其爬行和抓取的規(guī)則大致相同。

（1）搜索引擎在抓取網(wǎng)頁(yè)時(shí)會(huì)同時(shí)運(yùn)行很多蜘蛛程序，根據(jù)搜索引擎地址庫(kù)中的網(wǎng)址對(duì)網(wǎng)站進(jìn)行瀏覽抓取。地址庫(kù)中的網(wǎng)址包含用戶(hù)提交的網(wǎng)址、大型導(dǎo)航站的網(wǎng)址、人工收錄的網(wǎng)址、蜘蛛爬行到的新網(wǎng)址等。

(2)搜索引擎蜘蛛爬行到網(wǎng)站，首先會(huì)檢查網(wǎng)站的根目錄下是否有Robots.txt文件，若有Robots文件，則根據(jù)其中的約定不抓取被禁止的網(wǎng)頁(yè)。如果網(wǎng)站整體禁止某搜索引象

抓取，那么該搜索引擎將不再抓取網(wǎng)站內(nèi)容，如果不小心把Robots文件設(shè)置錯(cuò)誤，就可會(huì)造成網(wǎng)站內(nèi)容不能被收錄。（3）進(jìn)入允許抓取的網(wǎng)站，搜索引整蜘蛛一般會(huì)采取深度優(yōu)先、寬度優(yōu)先和最佳優(yōu)先

三種策略進(jìn)行爬行遍歷，以有序地抓取到網(wǎng)站的更多內(nèi)容。

深度優(yōu)先的爬行策略是搜索引擎蜘蛛在一個(gè)網(wǎng)頁(yè)發(fā)現(xiàn)一個(gè)鏈接，順著這個(gè)鏈接爬到下一個(gè)網(wǎng)頁(yè)，在這個(gè)網(wǎng)頁(yè)中又沿一個(gè)鏈接爬下去，直到?jīng)]有未爬行的鏈接，然后回到第一個(gè)網(wǎng)頁(yè)，沿另一個(gè)鏈接一直爬下去。深度優(yōu)先的爬行策略，搜索引擎蜘蛛進(jìn)入網(wǎng)站首頁(yè)，沿著鏈接爬行到網(wǎng)頁(yè)A1，在A1中找到鏈接爬行到網(wǎng)頁(yè)A2，再沿著A2中的鏈接爬行到A3，然后依次爬行到A4、A5……直到?jīng)]有滿(mǎn)足爬行條件的網(wǎng)頁(yè)時(shí)，搜索引擎蜘蛛再回到首頁(yè)。回到首頁(yè)的蜘蛛按照同樣的方式繼續(xù)爬行網(wǎng)頁(yè)B1及更深層的網(wǎng)頁(yè)，爬行完同樣再回到首頁(yè)爬行下一個(gè)鏈接，最后爬行完所有的頁(yè)面。

寬度優(yōu)先的爬行策略是搜索引擎蜘蛛來(lái)到一個(gè)網(wǎng)頁(yè)后不會(huì)沿著一個(gè)鏈接一直爬行下去，而是每層的鏈接爬行完后再爬行下一層網(wǎng)頁(yè)的鏈接。寬度優(yōu)先的爬行策略。搜索引擎蜘蛛來(lái)到網(wǎng)站首頁(yè)，在首頁(yè)中發(fā)現(xiàn)第一層網(wǎng)頁(yè)A、B、C的鏈接并爬行完，再依次爬行網(wǎng)頁(yè)A、B、C的下一層網(wǎng)頁(yè)A1、A2、A3、B1、B2、B3……爬行完第二層的網(wǎng)頁(yè)后，再爬行第三層網(wǎng)頁(yè)A4、A5、A6……，最后爬行完所有的網(wǎng)頁(yè)層。最佳優(yōu)先爬行策略是按照一定的算法劃分網(wǎng)頁(yè)的重要等級(jí)，主要通過(guò)PageRank、網(wǎng)站規(guī)模、反應(yīng)速度等來(lái)判斷網(wǎng)頁(yè)重要等級(jí)，搜索引擎對(duì)等級(jí)較高的進(jìn)行優(yōu)先爬行和抓取。PageRank 等級(jí)達(dá)到一定程度時(shí)才能被爬行和抓取。實(shí)際蜘蛛在爬行網(wǎng)頁(yè)時(shí)會(huì)將頁(yè)面所有的鏈接收集到地址庫(kù)中，并對(duì)其進(jìn)行分析，篩選出PR較高的鏈接進(jìn)行爬行抓取。在網(wǎng)站規(guī)模方面，通常大網(wǎng)站能獲得搜索引擎更多的信任，而且大網(wǎng)站更新頻率快，蜘蛛會(huì)優(yōu)先爬行。網(wǎng)站的反應(yīng)速度也是影響蜘蛛爬行的重要因素，在最佳優(yōu)先爬行策略中，網(wǎng)站的反應(yīng)速度快，能提高蜘蛛的工作效率，因此蜘蛛也會(huì)優(yōu)先爬行反應(yīng)快的網(wǎng)站。

這三種爬行策略都有優(yōu)點(diǎn)，也有一定的缺點(diǎn)。例如，深度優(yōu)先一般會(huì)選擇一個(gè)合適的深度，以避免陷入巨大數(shù)據(jù)量中，也就使得抓取的網(wǎng)頁(yè)量受到了限制；寬度優(yōu)先隨著抓取網(wǎng)頁(yè)的增多，搜索引擎要排除大量的無(wú)關(guān)網(wǎng)頁(yè)鏈接，爬行的效率將變低；最佳優(yōu)先會(huì)忽視很多小網(wǎng)站的網(wǎng)頁(yè)，影響了互聯(lián)網(wǎng)信息差異化的發(fā)展，流量幾乎進(jìn)入大網(wǎng)站，小網(wǎng)站難以發(fā)展。

在搜索引擎蜘蛛的實(shí)際爬行中，一般同時(shí)利用這三種爬行策略，經(jīng)過(guò)一段時(shí)間的爬行，搜索引擎蜘蛛能爬行完互聯(lián)網(wǎng)的所有網(wǎng)頁(yè)。但是由于互聯(lián)網(wǎng)資源龐大，搜索引擎的資源有限，通常只爬行抓取互聯(lián)網(wǎng)中的一部分網(wǎng)頁(yè)。

(4)蜘蛛爬行了網(wǎng)頁(yè)后，會(huì)進(jìn)行一個(gè)檢測(cè)，以判斷網(wǎng)頁(yè)的價(jià)值是否達(dá)到抓取標(biāo)準(zhǔn)。搜索引擎爬行到網(wǎng)頁(yè)后，會(huì)判斷網(wǎng)頁(yè)中的信息是否是垃圾信息，如大量重復(fù)文字的內(nèi)容、亂碼、與已收錄內(nèi)容高度重復(fù)等。這些垃圾信息蜘蛛不會(huì)抓取，僅僅是爬行而已。

（5)搜索引擎判斷完網(wǎng)頁(yè)的價(jià)值后，會(huì)對(duì)有價(jià)值的網(wǎng)頁(yè)進(jìn)行收錄。這個(gè)收錄過(guò)程就是將網(wǎng)頁(yè)的抓取信息存入到信息數(shù)據(jù)庫(kù)中，并按一定的特征對(duì)網(wǎng)頁(yè)信息分類(lèi)，以URL為單位存儲(chǔ)。搜索引擎的爬行和抓取是提供搜索服務(wù)的基礎(chǔ)條件，有了大量的網(wǎng)頁(yè)數(shù)據(jù)，搜索引擎才能更好地滿(mǎn)足用戶(hù)的查詢(xún)需求。

用戶(hù)登陸

其它地區(qū)

常見(jiàn)問(wèn)題

本地區(qū)其它服務(wù)

你要找的是肇慶網(wǎng)站推廣哪家好？中外商貿(mào)為你提供服務(wù)：肇慶網(wǎng)站推廣價(jià)格、肇慶網(wǎng)站推廣公司，歡迎瀏覽:肇慶網(wǎng)站推廣

熱門(mén)城市