本篇內(nèi)容介紹了“為什么不能用Nutch編寫分布式爬蟲”的有關(guān)知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠?qū)W有所成!
成都創(chuàng)新互聯(lián)公司成立與2013年,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務公司,擁有項目成都網(wǎng)站制作、成都網(wǎng)站建設(shè)網(wǎng)站策劃,項目實施與項目整合能力。我們以讓每一個夢想脫穎而出為使命,1280元平江做網(wǎng)站,已為上家服務,為平江各地企業(yè)和個人服務,聯(lián)系電話:18982081108
1、Nutch依靠hadoop運行,hadoop本身就會花費大量的時間。
若集群機數(shù)量較少,爬行速度反而不如單機爬蟲快。
2、Nutch是為搜索引擎設(shè)計的爬蟲,不精確。
大多數(shù)用戶需要一個爬蟲來爬取準確的數(shù)據(jù)(提取精確)。在Nutch運行的一整套過程中,三分之二是為搜索引擎設(shè)計的,對精選沒有多大意義。也就是說,用Nutch做數(shù)據(jù)抽取,會浪費很多的時間在不必要的計算上。并且,通過二次開發(fā)Nutch,使其適用于精選業(yè)務,基本上破壞Nutch的框架,使Nutch的臉完全不同,具有修正Nutch的能力,與其自己重寫分布式爬蟲框架相比。
3、Nutch可以提供提取功能。
但開發(fā)Nutch插件的人都知道Nutch插件系統(tǒng)有多糟糕。使用反射機制裝入和調(diào)用插件,使程序的編寫和調(diào)試變得非常困難,更別提在上面開發(fā)一套復雜的精提取系統(tǒng)了。
4、用Nutch爬蟲的編寫和調(diào)試所需的時間長
通常是單機爬蟲的十倍以上。學習Nutch源代碼的成本很高,在調(diào)試過程中會出現(xiàn)各種問題,除了程序本身。
“為什么不能用Nutch編寫分布式爬蟲”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實用文章!
本文標題:為什么不能用Nutch編寫分布式爬蟲
文章網(wǎng)址:http://chinadenli.net/article20/ppcojo.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供面包屑導航、域名注冊、App設(shè)計、網(wǎng)站建設(shè)、移動網(wǎng)站建設(shè)、虛擬主機
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)