Nutch1.10教程-简介

Nutch作为当今最流行的开源爬虫之一,已被企业广泛使用。Nutch的插件机制使得开发者可以灵活地定制网页抓取策略。Nutch有着悠久的历史,当今大名鼎鼎的Hadoop就是由Nutch发展而来。Nutch不仅可以运行在单机模式下,还可以运行在分布式模式下。

jeancandoit发布于2016-12-31 评论(0) 阅读(16,412)

Nutch1.10教程-配置

Nutch的编译安装需要JDK、Ant等环境,Nutch的主要配置项在nutch-default.xml这个文件中,自定义配置文件nutch-site.xml中配置的属性会覆盖nutch-default.xml中对应的属性,可以根据实际需要对其进行配置。

jeancandoit发布于2016-12-31 评论(0) 阅读(17,071)

Nutch1.10教程-Solr安装与配置

Solr是一款优秀的基于Lucene的全文检索服务器,它对Lucene进行了扩展,提供了非常丰富的查询语言,并对查询进行了性能优化。

jeancandoit发布于2016-12-31 评论(0) 阅读(16,608)

Nutch1.10教程-crawl命令

Crawl为Nutch提供的用于一站式抓取的命令,用户只需要执行一条命令就可以完成抓取的全过程。

jeancandoit发布于2016-12-31 评论(0) 阅读(15,308)

Nutch1.10教程-分步抓取

如果要深入学习Nutch爬虫技术,仅仅会使用crawl命令是不够的,还需要对抓取的过程非常熟悉。本篇文章讲解分布抓取的详细步骤,这里需要用到上一教程中seed.txt所保存的URL信息,还需删除data/crawldb,data/linkdb和data/segments文件夹下的内容,因为我们要分步重新抓取数据。

jeancandoit发布于2016-12-31 评论(0) 阅读(16,250)

Nutch1.10教程-结果分析

本教程介绍如何使用Nutch的readdb,readlinkdb和readseg来对Nutch的数据进行分析

jeancandoit发布于2017-03-01 评论(0) 阅读(16,889)