為什么不能用Nutch編寫(xiě)分布式爬蟲(chóng)

本篇內(nèi)容介紹了“為什么不能用Nutch編寫(xiě)分布式爬蟲(chóng)”的有關(guān)知識(shí)，在實(shí)際案例的操作過(guò)程中，不少人都會(huì)遇到這樣的困境，接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧！希望大家仔細(xì)閱讀，能夠?qū)W有所成！

成都創(chuàng)新互聯(lián)公司成立與2013年，是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司，擁有項(xiàng)目成都網(wǎng)站制作、成都網(wǎng)站建設(shè)網(wǎng)站策劃，項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢(mèng)想脫穎而出為使命，1280元平江做網(wǎng)站,已為上家服務(wù),為平江各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話:18982081108

1、Nutch依靠hadoop運(yùn)行，hadoop本身就會(huì)花費(fèi)大量的時(shí)間。

若集群機(jī)數(shù)量較少，爬行速度反而不如單機(jī)爬蟲(chóng)快。

2、Nutch是為搜索引擎設(shè)計(jì)的爬蟲(chóng)，不精確。

大多數(shù)用戶需要一個(gè)爬蟲(chóng)來(lái)爬取準(zhǔn)確的數(shù)據(jù)(提取精確)。在Nutch運(yùn)行的一整套過(guò)程中，三分之二是為搜索引擎設(shè)計(jì)的，對(duì)精選沒(méi)有多大意義。也就是說(shuō)，用Nutch做數(shù)據(jù)抽取，會(huì)浪費(fèi)很多的時(shí)間在不必要的計(jì)算上。并且，通過(guò)二次開(kāi)發(fā)Nutch，使其適用于精選業(yè)務(wù)，基本上破壞Nutch的框架，使Nutch的臉完全不同，具有修正Nutch的能力，與其自己重寫(xiě)分布式爬蟲(chóng)框架相比。

3、Nutch可以提供提取功能。

但開(kāi)發(fā)Nutch插件的人都知道Nutch插件系統(tǒng)有多糟糕。使用反射機(jī)制裝入和調(diào)用插件，使程序的編寫(xiě)和調(diào)試變得非常困難，更別提在上面開(kāi)發(fā)一套復(fù)雜的精提取系統(tǒng)了。

4、用Nutch爬蟲(chóng)的編寫(xiě)和調(diào)試所需的時(shí)間長(zhǎng)

通常是單機(jī)爬蟲(chóng)的十倍以上。學(xué)習(xí)Nutch源代碼的成本很高，在調(diào)試過(guò)程中會(huì)出現(xiàn)各種問(wèn)題，除了程序本身。

“為什么不能用Nutch編寫(xiě)分布式爬蟲(chóng)”的內(nèi)容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站，小編將為大家輸出更多高質(zhì)量的實(shí)用文章！

本文標(biāo)題：為什么不能用Nutch編寫(xiě)分布式爬蟲(chóng)
文章網(wǎng)址：http://chinadenli.net/article20/ppcojo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供面包屑導(dǎo)航、域名注冊(cè)、App設(shè)計(jì)、網(wǎng)站建設(shè)、移動(dòng)網(wǎng)站建設(shè)、虛擬主機(jī)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

為什么不能用Nutch編寫(xiě)分布式爬蟲(chóng)