主要类分析: 一、 org.apache.nutch.crawl.Injector: (注入url)     1,注入url.txt     2,url标准化     3,拦截url,进行正则校验(regex-urlfilter.txt)     4,对符URL标准的url进行map对构造<url, CrawlDatum>,在构造过程中给CrawlDatum初始化得分,分数可影响url host的

Nutch主要类分析  

(一):Nutch的工作流程: Crawdb、linkdb 是web link目录,存放url及url的互联关系,作为爬行与重新爬行的依据。 segments 是主目录,存放抓回来的网页。页面内容有bytes[]的raw content 和 parsed text的形式。nutch以广度优先的原则来爬行,因此每爬完一轮会生成一个segment目录。 index 是lucene的索引目录,是inde

Nutch基本工作流程  

1. 安装bind9: apt-get install bind9; 2. /etc/bind/上创建db.192.0.1和db.test.com文件: db.192.0.1文件内容如下: $TTL    604800 @       IN      SOA     test.com. root.test.com. (                               1        

dns服务器  

今天在hadoop的基础上对hbase进行搭建(hbase安装: http://blog.csdn.net/gaokao2011/article/details/17020285),在启动的hbase的时候报错,提示未找到zookeeper;ok,那就把zookeeper给安装了(zookeeper安装: http://blog.csdn.net/gaokao2011/article/detail

1、Apache Nutch    Apache Nutch是一个用于网络搜索的开源框架,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。 1.1、Nutch的组件结构 WebDB:存储网页数据和连接信息 Fetch lists:将WebDB所存储的连接分成多个组,来用于分布式检索 Fetchers:检索Fetch list中的内容并下载到本地,共有两项输出:分别是连接的u

nutch   hadoop集群  

HRegionServer未启动的具体操作如下: 1.先查看当时的时间:date 2.根据获得的时间对系统进行同步:date -s 08:42:00  再次启动hbase,成功看到HRegionServer已启动。 版权声明:本文为博主原创文章,未经博主允许不得转载。

hbase   HRegionServer  

一、安装需求  安装java 1.6,Hadoop 1.2.1及zookeeper ubuntu机上已安装Hadoop 1.2.1和zookeeper 3.4.3(zookeeper的安装方法可见于ZooKeeper安装过程 http://blog.csdn.net/gaokao2011/article/details/17020209 )。 此次安装的hbase版本为0.94.13。 安装成功并

hbase   hbase安装过程问题  

一、安装需求  安装java 1.6及hadoop 1.2.* 二、安装zookeeper 1、下载zookeeper wget http://apache.osuosl.org/zookeeper/zookeeper-3.4.3/zookeeper-3.4.3.tar.gz(本次安装3.4.3版本) 其他版本下载地址(最好使用stable版本): http://zookeeper.apache.

zookeeper安装   zookeeper   ubuntu  

本篇介绍两种HBase的安装方式:本地安装方式和伪分布式安装方式。 安装的前提条件是已经成功安装了hadoop,而且hadoop的版本要和hbase的版本相匹配。 我将要安装的hbase是hbase-0.94.13版本,需要的hadoop是hadoop-1.2.1版本。 hbase下载地址:http://apache.fayea.com/apache-mirror/hbase/hbase-0.94

hbase安装  

上一次,我用TF-IDF算法自动提取关键词。 今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。 为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。 为了简单起见,我们先从句子着手。   句子A:我喜欢看电

TF-IDF   余弦相似度   查找相似文章