Nutch为什么不能用在分布式爬虫抓取中?

Nutch为什么不能用在分布式爬虫抓取中?,1、Nutch依靠hadoop运行,hadoop本身就会花费大量的时间。,若集群机数量较少,爬行速度反而不如单机爬虫快。,2、Nutch是为搜索引擎设计的爬虫,不精确。,大多数用户需要一个爬虫来爬取准确的数据(提取精确)。在Nutch运行的一整套过程中,三分之二是为搜索引擎设计的,对精选没有多大意义。也就是说,用Nutch做数据抽取,会浪费很多的时间在不必要的计算上。并且,通过二次开发Nutch,使其适用于精选业务,基本上破坏Nutch的框架,使Nutch的脸完全不同,具有修正Nutch的能力,与其自己重写分布式爬虫框架相比。,3、Nutch可以提供提取功能。,但开发Nutch插件的人都知道Nutch插件系统有多糟糕。使用反射机制装入和调用插件,使程序的编写和调试变得非常困难,更别提在上面开发一套复杂的精提取系统了。,4、用Nutch爬虫的编写和调试所需的时间长,通常是单机爬虫的十倍以上。学习Nutch源代码的成本很高,在调试过程中会出现各种问题,除了程序本身。,因此,如果你不想做搜索引擎,尽量不要选择Nutch作为爬虫。爬虫需要使用代理IP,能够有效的防止IP被禁止访问的情况。向大家推荐
太阳HTTP代理,独享IP池,适合各种爬虫项目。,(推荐操作系统:windows7系统、
Internet Explorer 11
,DELL G3电脑。),关注公众号,随时随地在线学习,本教程部分素材来源于网络,版权问题联系站长!,热门课程
查看全部,相关文章,相关视频章节,鸡爪君,认证0级讲师

文章版权声明

 1 原创文章作者:cmcc,如若转载,请注明出处: https://www.52hwl.com/25842.html

 2 温馨提示:软件侵权请联系469472785#qq.com(三天内删除相关链接)资源失效请留言反馈

 3 下载提示:如遇蓝奏云无法访问,请修改lanzous(把s修改成x)

 免责声明:本站为个人博客,所有软件信息均来自网络 修改版软件,加群广告提示为修改者自留,非本站信息,注意鉴别

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023年3月7日 下午11:05
下一篇 2023年5月5日 下午3:15