• 
      
        <strike id="w0aiq"><menu id="w0aiq"></menu></strike><fieldset id="w0aiq"></fieldset> <fieldset id="w0aiq"></fieldset>
      • <ul id="w0aiq"></ul>
        <ul id="w0aiq"></ul>
      • <ul id="w0aiq"></ul>
         您好![請(qǐng)登陸] [免費(fèi)注冊(cè)] [忘記密碼]
        申請(qǐng)加盟    銷(xiāo)售熱線(xiàn): 020-85421558 技術(shù)支持: 020-36523071 備案專(zhuān)線(xiàn): (0)136-8886-2121

        你要找的是肇慶網(wǎng)站推廣哪家好?中外商貿(mào)為你提供服務(wù):肇慶網(wǎng)站推廣價(jià)格、肇慶網(wǎng)站推廣公司,歡迎瀏覽:肇慶網(wǎng)站推廣

        肇慶網(wǎng)站推廣

        蜘蛛爬行、抓取網(wǎng)頁(yè)

        搜索引擎的基礎(chǔ)是有大量網(wǎng)頁(yè)的信息數(shù)據(jù)庫(kù),這是決定搜索引擎整體質(zhì)量的一個(gè)重要指標(biāo)。如果搜索引擎的網(wǎng)頁(yè)信息量小,那么供用戶(hù)選擇的搜索結(jié)果就會(huì)少,而大量的網(wǎng)頁(yè)信息能更好地滿(mǎn)足用戶(hù)的搜索需求。

        要獲得大量網(wǎng)頁(yè)信息的數(shù)據(jù)庫(kù),搜索引擎就必須收集網(wǎng)絡(luò)資源,可以通過(guò)搜索引擎的網(wǎng)絡(luò)漫游器(Crawler)在互聯(lián)網(wǎng)中各個(gè)網(wǎng)頁(yè)爬行并抓取信息。這是一種爬行并收集信息的

        程序,通常搜索引擎稱(chēng)為蜘蛛(Spider)或者機(jī)器人(Bot)


        每個(gè)搜索引擎的蜘蛛或者機(jī)器人都有不同的IP,并有自己的代理名稱(chēng)。通常在網(wǎng)絡(luò)日志中可以看到不同IP及代理名稱(chēng)的搜索引擎蜘蛛。在如下代碼中,220.181.108.89就是搜索引擎蜘蛛的IP,BaiduSpider、Sogou+Web+Spider、Googlebot、SosoSpider、bingbot分別表示百度蜘蛛、搜狗蜘蛛、谷歌機(jī)器人、搜搜蜘蛛、Bing機(jī)器人。這些都是各個(gè)搜索引擎蜘蛛的代理名稱(chēng),是區(qū)分搜索引擎的重要標(biāo)志。

        220.181.108.89

        Mozilla/5.0+(compatible;+BaiduSpider/2.0;++http://www.baidu.com/search/Spider.html)

        220.181.89.182

        Sogou+Web+Spider/4.0(+http://www,sogou.com/docs/help/Webmasters.htm#07)

        66.249.73.103

        Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.Google.com/bot.html)

        124.115.0.108

        Mozilla/5.0(compatible;+SosoSpider/2.0;++http://help.soso.com/WebSpider

        .htm)

        65.55.52.97

        Mozilla/5.0+(compatible;+bingbot/2.0;++http://www.bing.com/bingbot.htm)

        110.75.172.113 Yahoo!+Slurp+China

        搜索引擎蜘蛛雖然名稱(chēng)不同,但是其爬行和抓取的規(guī)則大致相同。

        1)搜索引擎在抓取網(wǎng)頁(yè)時(shí)會(huì)同時(shí)運(yùn)行很多蜘蛛程序,根據(jù)搜索引擎地址庫(kù)中的網(wǎng)址對(duì)網(wǎng)站進(jìn)行瀏覽抓取。地址庫(kù)中的網(wǎng)址包含用戶(hù)提交的網(wǎng)址、大型導(dǎo)航站的網(wǎng)址、人工收錄的網(wǎng)址、蜘蛛爬行到的新網(wǎng)址等。

         

        (2)搜索引擎蜘蛛爬行到網(wǎng)站,首先會(huì)檢查網(wǎng)站的根目錄下是否有Robots.txt文件,若有Robots文件,則根據(jù)其中的約定不抓取被禁止的網(wǎng)頁(yè)。如果網(wǎng)站整體禁止某搜索引象

        抓取,那么該搜索引擎將不再抓取網(wǎng)站內(nèi)容,如果不小心把Robots文件設(shè)置錯(cuò)誤,就可會(huì)造成網(wǎng)站內(nèi)容不能被收錄。(3)進(jìn)入允許抓取的網(wǎng)站,搜索引整蜘蛛一般會(huì)采取深度優(yōu)先、寬度優(yōu)先和最佳優(yōu)先

        三種策略進(jìn)行爬行遍歷,以有序地抓取到網(wǎng)站的更多內(nèi)容。

        深度優(yōu)先的爬行策略是搜索引擎蜘蛛在一個(gè)網(wǎng)頁(yè)發(fā)現(xiàn)一個(gè)鏈接,順著這個(gè)鏈接爬到下一個(gè)網(wǎng)頁(yè),在這個(gè)網(wǎng)頁(yè)中又沿一個(gè)鏈接爬下去,直到?jīng)]有未爬行的鏈接,然后回到第一個(gè)網(wǎng)頁(yè),沿另一個(gè)鏈接一直爬下去。深度優(yōu)先的爬行策略,搜索引擎蜘蛛進(jìn)入網(wǎng)站首頁(yè),沿著鏈接爬行到網(wǎng)頁(yè)A1,在A1中找到鏈接爬行到網(wǎng)頁(yè)A2,再沿著A2中的鏈接爬行到A3,然后依次爬行到A4、A5……直到?jīng)]有滿(mǎn)足爬行條件的網(wǎng)頁(yè)時(shí),搜索引擎蜘蛛再回到首頁(yè)。回到首頁(yè)的蜘蛛按照同樣的方式繼續(xù)爬行網(wǎng)頁(yè)B1及更深層的網(wǎng)頁(yè),爬行完同樣再回到首頁(yè)爬行下一個(gè)鏈接,最后爬行完所有的頁(yè)面。

         

        寬度優(yōu)先的爬行策略是搜索引擎蜘蛛來(lái)到一個(gè)網(wǎng)頁(yè)后不會(huì)沿著一個(gè)鏈接一直爬行下去,而是每層的鏈接爬行完后再爬行下一層網(wǎng)頁(yè)的鏈接。寬度優(yōu)先的爬行策略。搜索引擎蜘蛛來(lái)到網(wǎng)站首頁(yè),在首頁(yè)中發(fā)現(xiàn)第一層網(wǎng)頁(yè)A、B、C的鏈接并爬行完,再依次爬行網(wǎng)頁(yè)A、B、C的下一層網(wǎng)頁(yè)A1、A2、A3、B1、B2、B3……爬行完第二層的網(wǎng)頁(yè)后,再爬行第三層網(wǎng)頁(yè)A4、A5、A6……,最后爬行完所有的網(wǎng)頁(yè)層。最佳優(yōu)先爬行策略是按照一定的算法劃分網(wǎng)頁(yè)的重要等級(jí),主要通過(guò)PageRank、網(wǎng)站規(guī)模、反應(yīng)速度等來(lái)判斷網(wǎng)頁(yè)重要等級(jí),搜索引擎對(duì)等級(jí)較高的進(jìn)行優(yōu)先爬行和抓取。PageRank 等級(jí)達(dá)到一定程度時(shí)才能被爬行和抓取。實(shí)際蜘蛛在爬行網(wǎng)頁(yè)時(shí)會(huì)將頁(yè)面所有的鏈接收集到地址庫(kù)中,并對(duì)其進(jìn)行分析,篩選出PR較高的鏈接進(jìn)行爬行抓取。在網(wǎng)站規(guī)模方面,通常大網(wǎng)站能獲得搜索引擎更多的信任,而且大網(wǎng)站更新頻率快,蜘蛛會(huì)優(yōu)先爬行。網(wǎng)站的反應(yīng)速度也是影響蜘蛛爬行的重要因素,在最佳優(yōu)先爬行策略中,網(wǎng)站的反應(yīng)速度快,能提高蜘蛛的工作效率,因此蜘蛛也會(huì)優(yōu)先爬行反應(yīng)快的網(wǎng)站。

         

        這三種爬行策略都有優(yōu)點(diǎn),也有一定的缺點(diǎn)。例如,深度優(yōu)先一般會(huì)選擇一個(gè)合適的深度,以避免陷入巨大數(shù)據(jù)量中,也就使得抓取的網(wǎng)頁(yè)量受到了限制;寬度優(yōu)先隨著抓取網(wǎng)頁(yè)的增多,搜索引擎要排除大量的無(wú)關(guān)網(wǎng)頁(yè)鏈接,爬行的效率將變低;最佳優(yōu)先會(huì)忽視很多小網(wǎng)站的網(wǎng)頁(yè),影響了互聯(lián)網(wǎng)信息差異化的發(fā)展,流量幾乎進(jìn)入大網(wǎng)站,小網(wǎng)站難以發(fā)展。



        在搜索引擎蜘蛛的實(shí)際爬行中,一般同時(shí)利用這三種爬行策略,經(jīng)過(guò)一段時(shí)間的爬行,搜索引擎蜘蛛能爬行完互聯(lián)網(wǎng)的所有網(wǎng)頁(yè)。但是由于互聯(lián)網(wǎng)資源龐大,搜索引擎的資源有限,通常只爬行抓取互聯(lián)網(wǎng)中的一部分網(wǎng)頁(yè)。

        (4)蜘蛛爬行了網(wǎng)頁(yè)后,會(huì)進(jìn)行一個(gè)檢測(cè),以判斷網(wǎng)頁(yè)的價(jià)值是否達(dá)到抓取標(biāo)準(zhǔn)。搜索引擎爬行到網(wǎng)頁(yè)后,會(huì)判斷網(wǎng)頁(yè)中的信息是否是垃圾信息,如大量重復(fù)文字的內(nèi)容、亂碼、與已收錄內(nèi)容高度重復(fù)等。這些垃圾信息蜘蛛不會(huì)抓取,僅僅是爬行而已。

        5)搜索引擎判斷完網(wǎng)頁(yè)的價(jià)值后,會(huì)對(duì)有價(jià)值的網(wǎng)頁(yè)進(jìn)行收錄。這個(gè)收錄過(guò)程就是將網(wǎng)頁(yè)的抓取信息存入到信息數(shù)據(jù)庫(kù)中,并按一定的特征對(duì)網(wǎng)頁(yè)信息分類(lèi),以URL為單位存儲(chǔ)。搜索引擎的爬行和抓取是提供搜索服務(wù)的基礎(chǔ)條件,有了大量的網(wǎng)頁(yè)數(shù)據(jù),搜索引擎才能更好地滿(mǎn)足用戶(hù)的查詢(xún)需求。

         

         

        備案系統(tǒng)認(rèn)證 舉報(bào)不良網(wǎng)站 我們的支付方式 AAA級(jí)信用
        廣州萬(wàn)戶(hù)網(wǎng)絡(luò)信息科技有限公司 旗下網(wǎng)站建設(shè)品牌:中外商貿(mào) www.honglang-dl.com 版權(quán)所有 ©2000-2019 All Rights Reserved
        網(wǎng)站備案編號(hào):粵ICP備15049595號(hào) 地址:廣州市番禺區(qū)大石街北聯(lián)圍仔工業(yè)路2號(hào)E座305
        電話(huà):020-85421558   傳真:020-88140140   郵編:510515
        交換PR>=4的友情鏈接合作站,歡迎同行聯(lián)系鏈接QQ:
        主站蜘蛛池模板: 999精品在线| 国产精品久久波多野结衣| 欧美激情精品久久久久久久九九九| 亚洲永久精品ww47| 久久精品成人国产午夜| 亚洲精品无码精品mV在线观看| 99久久精品无码一区二区毛片 | 亚洲国产精品一区二区第四页| 色偷偷888欧美精品久久久| 亚洲国产精品无码久久SM| 国产亚洲精品成人a v小说| aaa级精品久久久国产片| 中文字幕一区二区三区日韩精品| 国产精品小黄鸭一区二区三区| 第一福利永久视频精品| 亚洲av永久无码精品表情包| 国精品产露脸自拍| 欧美日韩精品一区二区| 麻豆精品久久久一区二区| 久久久久女人精品毛片| 亚洲电影日韩精品 | 国产精品一二二区| 人妻少妇乱子伦精品| 无码精品人妻一区二区三区免费| 国产精品自在在线午夜福利| 亚洲视频精品在线| 国产成人精品日本亚洲专| 精品亚洲成a人片在线观看少妇| 亚洲精品无码久久毛片| 久久久WWW成人免费精品| 国产精品99久久久久久猫咪| 精品福利一区二区三| 国产精品美女久久久久久2018| 亚洲精品乱码久久久久久按摩| 香蕉99久久国产综合精品宅男自| 久久青青草原精品国产不卡| 国产精品成人观看视频| 99精品久久久久久久婷婷| 香蕉久久夜色精品国产小说| 精品综合久久久久久97超人| 国产精品久久久福利|