方法1
使用多IP代理:
1.IP必須需要,比如ADSL。如果有條件,其實(shí)可以跟機(jī)房多申請(qǐng)外網(wǎng)IP。
2.在有外網(wǎng)IP的機(jī)器上,部署代理服務(wù)器。
3.你的程序,使用輪訓(xùn)替換代理服務(wù)器來(lái)訪問(wèn)想要采集的網(wǎng)站。
好處:
1.程序邏輯變化小,只需要代理功能。
2.根據(jù)對(duì)方網(wǎng)站屏蔽規(guī)則不同,你只需要添加更多的代理就行了。
3.就算具體IP被屏蔽了,你可以直接把代理服務(wù)器下線就OK,程序邏輯不需要變化。
方法2.
有小部分網(wǎng)站的防范措施比較弱,可以偽裝下IP,修改X-Forwarded-for(貌似這么拼。。。)即可繞過(guò)。 、
大部分網(wǎng)站么,如果要頻繁抓取,一般還是要多IP。
我比較喜歡的解決方案是國(guó)外VPS再配多IP,通過(guò)默認(rèn)網(wǎng)關(guān)切換來(lái)實(shí)現(xiàn)IP切換,比HTTP代理高效得多,估計(jì)也比多數(shù)情況下的ADSL切換更高效?
方法3.
ADSL + 腳本,監(jiān)測(cè)是否被封,然后不斷切換 ip 設(shè)置查詢頻率限制
正統(tǒng)的做法是調(diào)用該網(wǎng)站提供的服務(wù)接口。?
方法4.
國(guó)內(nèi)ADSL是王道,多申請(qǐng)些線路,分布在多個(gè)不同的電信區(qū)局,能跨省跨市更好,自己寫(xiě)好斷線重?fù)芙M件,自己寫(xiě)動(dòng)態(tài)IP追蹤服務(wù),遠(yuǎn)程硬件重置(主要針對(duì)ADSL貓,防止其宕機(jī)),其余的任務(wù)分配,數(shù)據(jù)回收,都不是大問(wèn)題。?
方法5.
1 user agent 偽裝和輪換
2 使用代理 ip 和輪換
3 cookies 的處理,有的網(wǎng)站對(duì)登陸用戶政策寬松些
友情提示:考慮爬蟲(chóng)給人家網(wǎng)站帶來(lái)的負(fù)擔(dān),be a responsible crawler :)?
方法6.
盡可能的模擬用戶行為:
1、UserAgent經(jīng)常換一換;
2、訪問(wèn)時(shí)間間隔設(shè)長(zhǎng)一點(diǎn),訪問(wèn)時(shí)間設(shè)置為隨機(jī)數(shù);
3、訪問(wèn)頁(yè)面的順序也可以隨機(jī)著來(lái) 。?
方法7.
網(wǎng)站封的依據(jù)一般是單位時(shí)間內(nèi)特定IP的訪問(wèn)次數(shù).
我是將采集的任務(wù)按 目標(biāo)站點(diǎn)的IP進(jìn)行分組
通過(guò)控制每個(gè)IP 在單位時(shí)間內(nèi)發(fā)出任務(wù)的個(gè)數(shù),來(lái)避免被封.
當(dāng)然,這個(gè)前題是你采集很多網(wǎng)站.如果只是采集一個(gè)網(wǎng)站,那么只能通過(guò)多外部IP的方式來(lái)實(shí)現(xiàn)了。?
方法8.
對(duì)爬蟲(chóng)抓取進(jìn)行壓力控制;可以考慮使用代理的方式訪問(wèn)目標(biāo)站點(diǎn)。
降低抓取頻率,時(shí)間設(shè)置長(zhǎng)一些,訪問(wèn)時(shí)間采用隨機(jī)數(shù)
頻繁切換UserAgent(模擬瀏覽器訪問(wèn))
多頁(yè)面數(shù)據(jù),隨機(jī)訪問(wèn)然后抓取數(shù)據(jù) -更換用戶IP。?????
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。
當(dāng)前文章:在爬蟲(chóng)使用過(guò)程中解決ip被封鎖IP限制的幾種方法-創(chuàng)新互聯(lián)
轉(zhuǎn)載注明:http://chinadenli.net/article22/dedcjc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供ChatGPT、網(wǎng)頁(yè)設(shè)計(jì)公司、定制開(kāi)發(fā)、微信公眾號(hào)、品牌網(wǎng)站制作、網(wǎng)站導(dǎo)航
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容
移動(dòng)網(wǎng)站建設(shè)知識(shí)