咨詢熱線:13313028229
售后:0312-6791400
售后:0312-6791126
網(wǎng)址:titan-ins.com
地址:保定朝陽大街國貿(mào)大廈8樓808室
搜索引擎的工作區(qū)域主要分為四大部分,下載系統(tǒng)、分析系統(tǒng)、檢索系統(tǒng)、查詢系統(tǒng),這一篇文章就來講一下下載系統(tǒng)的那些事,希望看官能夠時常結(jié)合高手級SEO不告訴你的搜索原理的系列文章,對搜索引擎能有一個初步的看法,這樣就會避免掉很多錯誤觀念的影響。
蜘蛛下載過程與瀏覽器類似,不同點在于蜘蛛僅下載HTML文件,不對文件進(jìn)行渲染,不加載圖片、Flash等內(nèi)容,一般情況下不加載JS。
蜘蛛在采集網(wǎng)站信息時會考慮網(wǎng)站的網(wǎng)絡(luò)負(fù)載,根據(jù)網(wǎng)站的網(wǎng)絡(luò)帶寬來控制抓取量。一般情況下,負(fù)載是基于IP控制的。故而,增加網(wǎng)站的帶寬是有利于SEO的。當(dāng)然,如果是共享IP的網(wǎng)站,這點很難控制。
下載過程大致可分為四個步驟:DNS解析、TCP連接、服務(wù)器計算、HTML下載。
DNS解析主要跟DNS服務(wù)器性能有關(guān),另外與解析方式也有一定關(guān)系。對于SEO而言,可以通過測試選擇專業(yè)的DNS服務(wù)商。在這個步驟最容易出現(xiàn)的情況是運營部門屏蔽蜘蛛IP,因為蜘蛛爬取過程很類似DOS攻擊。
TCP連接速度主要取決于Web服務(wù)器能否快速接入請求,一般而言,當(dāng)服務(wù)器同時接入大量請求信息時會產(chǎn)生擁堵甚至拒絕接入的情況,接入量越大TCP連接速度越慢。當(dāng)然,也跟所選WEB服務(wù)器程序(如IIS、Apache、Nginx等)有關(guān)。針對大型網(wǎng)站,可通過增加配置解決問題。針對采用合租服務(wù)器方式的小型網(wǎng)站,要避免和論壇、下載站等訪問量大、消耗帶寬大的網(wǎng)站共享服務(wù)器。
服務(wù)器計算速度主要取決于網(wǎng)站程序構(gòu)架、數(shù)據(jù)庫執(zhí)行效率、程序語言效率等(針對動態(tài)內(nèi)容),同時與并行處理量等有關(guān)。在這一過程最常見的問題就是數(shù)據(jù)庫執(zhí)行效率低下,因而會導(dǎo)致網(wǎng)站速度降低甚至出現(xiàn)頁面訪問出錯的情況。
楊子的網(wǎng)站服務(wù)器就經(jīng)常因為同一時間訪問量過大而出現(xiàn)數(shù)據(jù)庫錯誤的情況,另人相當(dāng)郁悶。針對該過程進(jìn)行優(yōu)化主要是運營的事情了,要么換好一點的程序要么換好一點的工程師。
HTML下載速度主要取決文件的大小及網(wǎng)絡(luò)帶寬(針對大型網(wǎng)站較明顯),對于SEO而言,可對HTML代碼進(jìn)行優(yōu)化。很多網(wǎng)站HTML代碼都存在冗長的問題,甚至通篇代碼而文本內(nèi)容僅占極小一部分。我曾經(jīng)接手的網(wǎng)站使用過的頁面功能,在去除后仍保留代碼,或者某一“更多”按鈕下隱藏著該功能全部的鏈接(都體現(xiàn)在HTML里,內(nèi)容甚至超過了頁面主體的內(nèi)容量!)。針對HTML優(yōu)化,看源碼是個好習(xí)慣。