這篇文章主要介紹python中怎么用JS加載加快爬蟲獲取,文中介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們一定要看完!
python的requests庫只能爬取靜態(tài)頁面,爬取不了動(dòng)態(tài)加載的頁面。使用JS加載數(shù)據(jù)方式,能提高爬蟲門檻。
爬蟲方法:
抓包獲取數(shù)據(jù)url
通過抓包方式可以獲取數(shù)據(jù)的請(qǐng)求url,再通過分析和更改url參數(shù)來進(jìn)行數(shù)據(jù)的抓取。
示例:
1.看 https://image.baidu.com這部分的包??梢钥吹?,這部分包里面,search下面的那個(gè) url和我們?cè)L問的地址完全是一樣的,但是它的response卻包含了js代碼。
2.當(dāng)在動(dòng)物圖片首頁往下滑動(dòng)頁面,想看到更多的時(shí)候,更多的包出現(xiàn)了。從圖片可以看到,下滑頁面后得到的是一連串json數(shù)據(jù)。在data里面,可以看到thumbURL等字樣。它的值是一個(gè)url。這個(gè)就是圖片的鏈接。
3. 打開一個(gè)瀏覽器頁面,訪問thumbURL=/tupian/20230522/error.html 根據(jù)前面的分析,就可以知道,用瀏覽器訪問這個(gè)鏈接確定他是公開的。
5. 最后就可以尋找URL的規(guī)律,對(duì)URL進(jìn)行構(gòu)造便可獲取所有照片。
使用selenium
通過使用selenium來實(shí)現(xiàn)模擬用戶操作瀏覽器,然后結(jié)合BeautifulSoup等包來解析網(wǎng)頁通過這種方法獲取數(shù)據(jù),簡(jiǎn)單,也比較直觀,缺點(diǎn)是速度比較慢。
以上是“python中怎么用JS加載加快爬蟲獲取”這篇文章的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對(duì)大家有幫助,更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!
本文名稱:python中怎么用JS加載加快爬蟲獲取-創(chuàng)新互聯(lián)
分享URL:http://chinadenli.net/article10/ehjgo.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站制作、網(wǎng)站排名、營(yíng)銷型網(wǎng)站建設(shè)、外貿(mào)建站、面包屑導(dǎo)航、域名注冊(cè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容