你要找的是肇慶網(wǎng)站推廣哪家好?中外商貿(mào)為你提供服務(wù):肇慶網(wǎng)站推廣價(jià)格、肇慶網(wǎng)站推廣公司,歡迎瀏覽:肇慶網(wǎng)站推廣
肇慶網(wǎng)站推廣 |
蜘蛛爬行、抓取網(wǎng)頁(yè) 搜索引擎的基礎(chǔ)是有大量網(wǎng)頁(yè)的信息數(shù)據(jù)庫(kù),這是決定搜索引擎整體質(zhì)量的一個(gè)重要指標(biāo)。如果搜索引擎的網(wǎng)頁(yè)信息量小,那么供用戶(hù)選擇的搜索結(jié)果就會(huì)少,而大量的網(wǎng)頁(yè)信息能更好地滿(mǎn)足用戶(hù)的搜索需求。 要獲得大量網(wǎng)頁(yè)信息的數(shù)據(jù)庫(kù),搜索引擎就必須收集網(wǎng)絡(luò)資源,可以通過(guò)搜索引擎的網(wǎng)絡(luò)漫游器(Crawler)在互聯(lián)網(wǎng)中各個(gè)網(wǎng)頁(yè)爬行并抓取信息。這是一種爬行并收集信息的 程序,通常搜索引擎稱(chēng)為蜘蛛(Spider)或者機(jī)器人(Bot)。
每個(gè)搜索引擎的蜘蛛或者機(jī)器人都有不同的IP,并有自己的代理名稱(chēng)。通常在網(wǎng)絡(luò)日志中可以看到不同IP及代理名稱(chēng)的搜索引擎蜘蛛。在如下代碼中,220.181.108.89就是搜索引擎蜘蛛的IP,BaiduSpider、Sogou+Web+Spider、Googlebot、SosoSpider、bingbot分別表示百度蜘蛛、搜狗蜘蛛、谷歌機(jī)器人、搜搜蜘蛛、Bing機(jī)器人。這些都是各個(gè)搜索引擎蜘蛛的代理名稱(chēng),是區(qū)分搜索引擎的重要標(biāo)志。 220.181.108.89 Mozilla/5.0+(compatible;+BaiduSpider/2.0;++http://www.baidu.com/search/Spider.html) 220.181.89.182 Sogou+Web+Spider/4.0(+http://www,sogou.com/docs/help/Webmasters.htm#07) 66.249.73.103 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.Google.com/bot.html) 124.115.0.108 Mozilla/5.0(compatible;+SosoSpider/2.0;++http://help.soso.com/WebSpider .htm) 65.55.52.97 Mozilla/5.0+(compatible;+bingbot/2.0;++http://www.bing.com/bingbot.htm) 110.75.172.113 Yahoo!+Slurp+China 搜索引擎蜘蛛雖然名稱(chēng)不同,但是其爬行和抓取的規(guī)則大致相同。 (1)搜索引擎在抓取網(wǎng)頁(yè)時(shí)會(huì)同時(shí)運(yùn)行很多蜘蛛程序,根據(jù)搜索引擎地址庫(kù)中的網(wǎng)址對(duì)網(wǎng)站進(jìn)行瀏覽抓取。地址庫(kù)中的網(wǎng)址包含用戶(hù)提交的網(wǎng)址、大型導(dǎo)航站的網(wǎng)址、人工收錄的網(wǎng)址、蜘蛛爬行到的新網(wǎng)址等。
(2)搜索引擎蜘蛛爬行到網(wǎng)站,首先會(huì)檢查網(wǎng)站的根目錄下是否有Robots.txt文件,若有Robots文件,則根據(jù)其中的約定不抓取被禁止的網(wǎng)頁(yè)。如果網(wǎng)站整體禁止某搜索引象 抓取,那么該搜索引擎將不再抓取網(wǎng)站內(nèi)容,如果不小心把Robots文件設(shè)置錯(cuò)誤,就可會(huì)造成網(wǎng)站內(nèi)容不能被收錄。(3)進(jìn)入允許抓取的網(wǎng)站,搜索引整蜘蛛一般會(huì)采取深度優(yōu)先、寬度優(yōu)先和最佳優(yōu)先 三種策略進(jìn)行爬行遍歷,以有序地抓取到網(wǎng)站的更多內(nèi)容。 深度優(yōu)先的爬行策略是搜索引擎蜘蛛在一個(gè)網(wǎng)頁(yè)發(fā)現(xiàn)一個(gè)鏈接,順著這個(gè)鏈接爬到下一個(gè)網(wǎng)頁(yè),在這個(gè)網(wǎng)頁(yè)中又沿一個(gè)鏈接爬下去,直到?jīng)]有未爬行的鏈接,然后回到第一個(gè)網(wǎng)頁(yè),沿另一個(gè)鏈接一直爬下去。深度優(yōu)先的爬行策略,搜索引擎蜘蛛進(jìn)入網(wǎng)站首頁(yè),沿著鏈接爬行到網(wǎng)頁(yè)A1,在A1中找到鏈接爬行到網(wǎng)頁(yè)A2,再沿著A2中的鏈接爬行到A3,然后依次爬行到A4、A5……直到?jīng)]有滿(mǎn)足爬行條件的網(wǎng)頁(yè)時(shí),搜索引擎蜘蛛再回到首頁(yè)。回到首頁(yè)的蜘蛛按照同樣的方式繼續(xù)爬行網(wǎng)頁(yè)B1及更深層的網(wǎng)頁(yè),爬行完同樣再回到首頁(yè)爬行下一個(gè)鏈接,最后爬行完所有的頁(yè)面。
寬度優(yōu)先的爬行策略是搜索引擎蜘蛛來(lái)到一個(gè)網(wǎng)頁(yè)后不會(huì)沿著一個(gè)鏈接一直爬行下去,而是每層的鏈接爬行完后再爬行下一層網(wǎng)頁(yè)的鏈接。寬度優(yōu)先的爬行策略。搜索引擎蜘蛛來(lái)到網(wǎng)站首頁(yè),在首頁(yè)中發(fā)現(xiàn)第一層網(wǎng)頁(yè)A、B、C的鏈接并爬行完,再依次爬行網(wǎng)頁(yè)A、B、C的下一層網(wǎng)頁(yè)A1、A2、A3、B1、B2、B3……爬行完第二層的網(wǎng)頁(yè)后,再爬行第三層網(wǎng)頁(yè)A4、A5、A6……,最后爬行完所有的網(wǎng)頁(yè)層。最佳優(yōu)先爬行策略是按照一定的算法劃分網(wǎng)頁(yè)的重要等級(jí),主要通過(guò)PageRank、網(wǎng)站規(guī)模、反應(yīng)速度等來(lái)判斷網(wǎng)頁(yè)重要等級(jí),搜索引擎對(duì)等級(jí)較高的進(jìn)行優(yōu)先爬行和抓取。PageRank 等級(jí)達(dá)到一定程度時(shí)才能被爬行和抓取。實(shí)際蜘蛛在爬行網(wǎng)頁(yè)時(shí)會(huì)將頁(yè)面所有的鏈接收集到地址庫(kù)中,并對(duì)其進(jìn)行分析,篩選出PR較高的鏈接進(jìn)行爬行抓取。在網(wǎng)站規(guī)模方面,通常大網(wǎng)站能獲得搜索引擎更多的信任,而且大網(wǎng)站更新頻率快,蜘蛛會(huì)優(yōu)先爬行。網(wǎng)站的反應(yīng)速度也是影響蜘蛛爬行的重要因素,在最佳優(yōu)先爬行策略中,網(wǎng)站的反應(yīng)速度快,能提高蜘蛛的工作效率,因此蜘蛛也會(huì)優(yōu)先爬行反應(yīng)快的網(wǎng)站。
這三種爬行策略都有優(yōu)點(diǎn),也有一定的缺點(diǎn)。例如,深度優(yōu)先一般會(huì)選擇一個(gè)合適的深度,以避免陷入巨大數(shù)據(jù)量中,也就使得抓取的網(wǎng)頁(yè)量受到了限制;寬度優(yōu)先隨著抓取網(wǎng)頁(yè)的增多,搜索引擎要排除大量的無(wú)關(guān)網(wǎng)頁(yè)鏈接,爬行的效率將變低;最佳優(yōu)先會(huì)忽視很多小網(wǎng)站的網(wǎng)頁(yè),影響了互聯(lián)網(wǎng)信息差異化的發(fā)展,流量幾乎進(jìn)入大網(wǎng)站,小網(wǎng)站難以發(fā)展。
在搜索引擎蜘蛛的實(shí)際爬行中,一般同時(shí)利用這三種爬行策略,經(jīng)過(guò)一段時(shí)間的爬行,搜索引擎蜘蛛能爬行完互聯(lián)網(wǎng)的所有網(wǎng)頁(yè)。但是由于互聯(lián)網(wǎng)資源龐大,搜索引擎的資源有限,通常只爬行抓取互聯(lián)網(wǎng)中的一部分網(wǎng)頁(yè)。 (4)蜘蛛爬行了網(wǎng)頁(yè)后,會(huì)進(jìn)行一個(gè)檢測(cè),以判斷網(wǎng)頁(yè)的價(jià)值是否達(dá)到抓取標(biāo)準(zhǔn)。搜索引擎爬行到網(wǎng)頁(yè)后,會(huì)判斷網(wǎng)頁(yè)中的信息是否是垃圾信息,如大量重復(fù)文字的內(nèi)容、亂碼、與已收錄內(nèi)容高度重復(fù)等。這些垃圾信息蜘蛛不會(huì)抓取,僅僅是爬行而已。 (5)搜索引擎判斷完網(wǎng)頁(yè)的價(jià)值后,會(huì)對(duì)有價(jià)值的網(wǎng)頁(yè)進(jìn)行收錄。這個(gè)收錄過(guò)程就是將網(wǎng)頁(yè)的抓取信息存入到信息數(shù)據(jù)庫(kù)中,并按一定的特征對(duì)網(wǎng)頁(yè)信息分類(lèi),以URL為單位存儲(chǔ)。搜索引擎的爬行和抓取是提供搜索服務(wù)的基礎(chǔ)條件,有了大量的網(wǎng)頁(yè)數(shù)據(jù),搜索引擎才能更好地滿(mǎn)足用戶(hù)的查詢(xún)需求。
|