Apache Nutch垂直搜索引擎入门

Apache Nutch垂直搜索引擎入门

nutch垂直搜索引擎爬虫最佳入门教程

明哥
5人已经订阅 .4篇文章

          大家好,我是明哥,感谢《好专栏》的邀请,感觉自己就熟悉搜索优化,于是出了这套《Apache Nutch垂直搜索引擎入门》课程,课程由浅入深,虽然咱们取名是垂直搜索引擎,但是咱们主讲的是nutch里面的爬虫。

        Apache Nutch是一个高度可扩展和可扩展的开源Web爬虫程序开源项目,Nutch 底层搜索使用的Lucene,目前其实已经脱离了Lucene,一般来说目前做爬虫可以用Nutch和Scrapy(python),目前nutch专注爬虫,在搜索引擎和垂直搜索引擎有很高的地位,如果你打算做垂直类模糊爬虫,并规模很大,因为nutch是分布式爬虫,使用nutch没有任何问题;如果你想对指定站点、指定格式的内容做爬取,使用Scrapy即可。

         Apache Nutch目前有2个分支:Nutch 1.x:已经迭代10几年来,成熟度高,可用于生产的环境。Nutch 2.x:一种新兴的替代方法,其直接灵感来自1.x,以将所有内容(获取时间,状态,内容,已解析的文本,外链,内链等)存储到许多NoSQL存储解决方案中,目前是存放到hadoop的hdfs、habse中。这套专题主要是讲解基础入门,然后带你直接实战做个垂直搜索引擎,喜欢的点个赞!!!

第一章:Apache Nutch入门