欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

怎么用JavaScript爬蟲百度貼吧數(shù)據(jù)-創(chuàng)新互聯(lián)

這篇文章主要介紹“怎么用JavaScript爬蟲百度貼吧數(shù)據(jù)”,在日常操作中,相信很多人在怎么用JavaScript爬蟲百度貼吧數(shù)據(jù)問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”怎么用JavaScript爬蟲百度貼吧數(shù)據(jù)”的疑惑有所幫助!接下來,請跟著小編一起來學(xué)習(xí)吧!

興業(yè)網(wǎng)站制作公司哪家好,找創(chuàng)新互聯(lián)!從網(wǎng)頁設(shè)計、網(wǎng)站建設(shè)、微信開發(fā)、APP開發(fā)、成都響應(yīng)式網(wǎng)站建設(shè)公司等網(wǎng)站項目制作,到程序開發(fā),運營維護。創(chuàng)新互聯(lián)于2013年開始到現(xiàn)在10年的時間,我們擁有了豐富的建站經(jīng)驗和運維經(jīng)驗,來保證我們的工作的順利進行。專注于網(wǎng)站建設(shè)就選創(chuàng)新互聯(lián)。

抓取帖子用的JavaScript函數(shù)如下:

function getPostByAJAX(requestURL){   var html = $.ajax({         url: requestURL,         async: false}).responseText;         return html;
}

就是一個非常簡單的AJAX請求:

怎么用JavaScript爬蟲百度貼吧數(shù)據(jù)

傳入該函數(shù)的輸入?yún)?shù)requestURL的值為:  http://tieba.baidu.com/i/i/my_tie

怎么用JavaScript爬蟲百度貼吧數(shù)據(jù)

上面的url,我直接在瀏覽器里訪問可以正常工作,返回47.2KB大小的數(shù)據(jù)。

然而當(dāng)我用AJAX函數(shù)訪問該url時,在Chrome開發(fā)者工具里遇到如下錯誤:

怎么用JavaScript爬蟲百度貼吧數(shù)據(jù)

怎么用JavaScript爬蟲百度貼吧數(shù)據(jù)

怎么用JavaScript爬蟲百度貼吧數(shù)據(jù)

然而,這個錯誤沒有任何明細信息,我沒有線索去排錯。

于是,就有了本文這個Chrome開發(fā)者工具的隱藏技能的用武之地。

在Chrome地址欄打開:  chrome://net-internals

點擊Event標(biāo)簽頁:

怎么用JavaScript爬蟲百度貼吧數(shù)據(jù)

再回到我的百度貼吧爬蟲網(wǎng)頁,該網(wǎng)頁發(fā)起AJAX請求,按F5刷新后發(fā)送一個新的請求,然后回到Chrome開發(fā)者工具。

該AJAX請求的明細就詳細顯示出來了。找到我關(guān)心的url: http://tieba.baidu.com/i/i/my_tie

chrome://net-internals 這個界面顯示的網(wǎng)絡(luò)請求的明細比Network標(biāo)簽頁里要詳細得多:

怎么用JavaScript爬蟲百度貼吧數(shù)據(jù)

在響應(yīng)頭字段里發(fā)現(xiàn)了引起這個錯誤的一些線索:

怎么用JavaScript爬蟲百度貼吧數(shù)據(jù)

從上面的截圖發(fā)現(xiàn),HTTP響應(yīng)狀態(tài)字段為302,location字段為 “ http://static.tieba.baidu.com/tb/error.html?ErrType=1 ” 。這兩條線索給了我提示:這個錯誤一定和百度網(wǎng)站的登陸狀態(tài)處理相關(guān):我使用的url不支持匿名訪問。

我在瀏覽器里訪問該url能夠成功,因為我的Cookie在起作用。

怎么用JavaScript爬蟲百度貼吧數(shù)據(jù)

Goole了一下,發(fā)現(xiàn)了解決方案。在AJAX的請求參數(shù)中添加:

xhrFields:{
withCredentials: true}

如此一來,可以將我的cookie和AJAX請求一齊發(fā)送給百度服務(wù)器。

怎么用JavaScript爬蟲百度貼吧數(shù)據(jù)

加上該參數(shù)后,請求就能夠得到期望的響應(yīng)了。

怎么用JavaScript爬蟲百度貼吧數(shù)據(jù)

使用Chrome開發(fā)者工具這個隱藏技能,我們還能觀察到一些其他的平時很難發(fā)現(xiàn)的細節(jié)。

比如我的AJAX請求通過本地的jQuery庫文件發(fā)出,我的HTML代碼里直接引用了本地文件jquery1.7.1.js。在運行時,這個jquery1.7.1.js文件需要被加載到內(nèi)存中。

使用這個隱藏技能,我現(xiàn)在能觀察到j(luò)query1.7.1.js是通過分塊的方式被讀入到內(nèi)存中的,參考現(xiàn)在URL_REQUEST_JOB_BYTES_READ的參數(shù):byte_count = 32768。總共分了8塊讀取,最后1塊因為尺寸不滿32768,只讀了剩下的22285字節(jié)。

怎么用JavaScript爬蟲百度貼吧數(shù)據(jù)

這8塊的總字節(jié)數(shù)251661正好是jquery1.7.1.js的字節(jié)數(shù)。由此再次證明, chrome://net-internals 提供的功能比Network標(biāo)簽頁里的要強大。

怎么用JavaScript爬蟲百度貼吧數(shù)據(jù)

到此,關(guān)于“怎么用JavaScript爬蟲百度貼吧數(shù)據(jù)”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識,請繼續(xù)關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司網(wǎng)站,小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>

標(biāo)題名稱:怎么用JavaScript爬蟲百度貼吧數(shù)據(jù)-創(chuàng)新互聯(lián)
網(wǎng)頁地址:http://chinadenli.net/article14/decgge.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信公眾號關(guān)鍵詞優(yōu)化外貿(mào)網(wǎng)站建設(shè)定制開發(fā)定制網(wǎng)站Google

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

手機網(wǎng)站建設(shè)