這篇文章給大家分享的是有關(guān)python分布式爬蟲(chóng)中使用消息隊(duì)列的示例的內(nèi)容。小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧。
實(shí)現(xiàn)分布式爬取的關(guān)鍵是消息隊(duì)列,這個(gè)問(wèn)題以消費(fèi)端為視角更容易理解。你的爬蟲(chóng)程序部署到很多臺(tái)機(jī)器上,那么他們?cè)趺粗雷约阂朗裁茨兀靠傄幸粋€(gè)地方存儲(chǔ)了他們需要爬取的url吧,這樣他們才能工作。
假設(shè)有1萬(wàn)個(gè)url需要爬取,而你有100個(gè)爬蟲(chóng)程序部署在10臺(tái)機(jī)器上,每臺(tái)10個(gè)爬蟲(chóng)程序在運(yùn)行,一個(gè)url被分給爬蟲(chóng)程序后,其他爬蟲(chóng)不能再獲得這個(gè)url,不然,就重復(fù)爬取了,理解吧,分布式爬蟲(chóng)的關(guān)鍵是怎么把任務(wù)分給這些爬蟲(chóng)。
有些促銷活動(dòng)的現(xiàn)場(chǎng)會(huì)進(jìn)行抽獎(jiǎng)活動(dòng),工作人員捧著一個(gè)透明的箱子,參與活動(dòng)的人從箱子的小口處把手伸進(jìn)去隨機(jī)拿出一張折疊的紙條,這種模式與消息隊(duì)列十分相似。消息隊(duì)列就好比這個(gè)抽獎(jiǎng)的箱子,消費(fèi)端的爬蟲(chóng)程序就好比參與活動(dòng)的顧客,爬蟲(chóng)從消息隊(duì)列里拿出一個(gè)url任務(wù),然后進(jìn)行爬取,不同于抽獎(jiǎng)活動(dòng)時(shí)一個(gè)人只能拿一次,分布式爬蟲(chóng)允許爬蟲(chóng)在結(jié)束一個(gè)爬蟲(chóng)任務(wù)后繼續(xù)從消息隊(duì)列里獲取任務(wù)。
使用redis的隊(duì)列做消息隊(duì)列
如果你只是簡(jiǎn)單的寫(xiě)一個(gè)分布式爬蟲(chóng),那么使用redis的隊(duì)列就可以了,它完全可以作為消息隊(duì)列來(lái)使用,下面的代碼是生產(chǎn)端的代碼示例
import redis r = redis.Redis(host='127.0.0.1', port=6379, password='yourpassword', db=1) # 生產(chǎn)10個(gè)url任務(wù) for i in range(10): r.lpush('url_queue', i)
感謝各位的閱讀!關(guān)于python分布式爬蟲(chóng)中使用消息隊(duì)列的示例就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,讓大家可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!
本文題目:python分布式爬蟲(chóng)中使用消息隊(duì)列的示例-創(chuàng)新互聯(lián)
網(wǎng)站路徑:http://chinadenli.net/article12/dggsgc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供靜態(tài)網(wǎng)站、網(wǎng)站排名、網(wǎng)站內(nèi)鏈、服務(wù)器托管、品牌網(wǎng)站制作、云服務(wù)器
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容