這篇文章主要介紹python中怎么用JS加載加快爬蟲(chóng)獲取,文中介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們一定要看完!
python的requests庫(kù)只能爬取靜態(tài)頁(yè)面,爬取不了動(dòng)態(tài)加載的頁(yè)面。使用JS加載數(shù)據(jù)方式,能提高爬蟲(chóng)門(mén)檻。
爬蟲(chóng)方法:
抓包獲取數(shù)據(jù)url
通過(guò)抓包方式可以獲取數(shù)據(jù)的請(qǐng)求url,再通過(guò)分析和更改url參數(shù)來(lái)進(jìn)行數(shù)據(jù)的抓取。
示例:
1.看 https://image.baidu.com這部分的包。可以看到,這部分包里面,search下面的那個(gè) url和我們?cè)L問(wèn)的地址完全是一樣的,但是它的response卻包含了js代碼。
2.當(dāng)在動(dòng)物圖片首頁(yè)往下滑動(dòng)頁(yè)面,想看到更多的時(shí)候,更多的包出現(xiàn)了。從圖片可以看到,下滑頁(yè)面后得到的是一連串json數(shù)據(jù)。在data里面,可以看到thumbURL等字樣。它的值是一個(gè)url。這個(gè)就是圖片的鏈接。
3. 打開(kāi)一個(gè)瀏覽器頁(yè)面,訪問(wèn)thumbURL=/tupian/20230522/error.html 根據(jù)前面的分析,就可以知道,用瀏覽器訪問(wèn)這個(gè)鏈接確定他是公開(kāi)的。
5. 最后就可以尋找URL的規(guī)律,對(duì)URL進(jìn)行構(gòu)造便可獲取所有照片。
使用selenium
通過(guò)使用selenium來(lái)實(shí)現(xiàn)模擬用戶操作瀏覽器,然后結(jié)合BeautifulSoup等包來(lái)解析網(wǎng)頁(yè)通過(guò)這種方法獲取數(shù)據(jù),簡(jiǎn)單,也比較直觀,缺點(diǎn)是速度比較慢。
以上是“python中怎么用JS加載加快爬蟲(chóng)獲取”這篇文章的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對(duì)大家有幫助,更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!
本文名稱(chēng):python中怎么用JS加載加快爬蟲(chóng)獲取-創(chuàng)新互聯(lián)
分享URL:http://chinadenli.net/article10/ehjgo.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站制作、網(wǎng)站排名、營(yíng)銷(xiāo)型網(wǎng)站建設(shè)、外貿(mào)建站、面包屑導(dǎo)航、域名注冊(cè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容