今天在hadoop的基础上对hbase进行搭建(hbase安装: http://blog.csdn.net/gaokao2011/article/details/17020285),在启动的hbase的时候报错,提示未找到zookeeper;ok,那就把zookeeper给安装了(zookeeper安装: http://blog.csdn.net/gaokao2011/article/detail

1、Apache Nutch    Apache Nutch是一个用于网络搜索的开源框架,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。 1.1、Nutch的组件结构 WebDB:存储网页数据和连接信息 Fetch lists:将WebDB所存储的连接分成多个组,来用于分布式检索 Fetchers:检索Fetch list中的内容并下载到本地,共有两项输出:分别是连接的u

nutch   hadoop集群  

HRegionServer未启动的具体操作如下: 1.先查看当时的时间:date 2.根据获得的时间对系统进行同步:date -s 08:42:00  再次启动hbase,成功看到HRegionServer已启动。 版权声明:本文为博主原创文章,未经博主允许不得转载。

hbase   HRegionServer  

一、安装需求  安装java 1.6,Hadoop 1.2.1及zookeeper ubuntu机上已安装Hadoop 1.2.1和zookeeper 3.4.3(zookeeper的安装方法可见于ZooKeeper安装过程 http://blog.csdn.net/gaokao2011/article/details/17020209 )。 此次安装的hbase版本为0.94.13。 安装成功并

hbase   hbase安装过程问题  

一、安装需求  安装java 1.6及hadoop 1.2.* 二、安装zookeeper 1、下载zookeeper wget http://apache.osuosl.org/zookeeper/zookeeper-3.4.3/zookeeper-3.4.3.tar.gz(本次安装3.4.3版本) 其他版本下载地址(最好使用stable版本): http://zookeeper.apache.

zookeeper安装   zookeeper   ubuntu  

本篇介绍两种HBase的安装方式:本地安装方式和伪分布式安装方式。 安装的前提条件是已经成功安装了hadoop,而且hadoop的版本要和hbase的版本相匹配。 我将要安装的hbase是hbase-0.94.13版本,需要的hadoop是hadoop-1.2.1版本。 hbase下载地址:http://apache.fayea.com/apache-mirror/hbase/hbase-0.94

hbase安装  

上一次,我用TF-IDF算法自动提取关键词。 今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。 为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。 为了简单起见,我们先从句子着手。   句子A:我喜欢看电

TF-IDF   余弦相似度   查找相似文章  

这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用10分钟就可以

TF-IDF   提取关键字  

主要包括5个类 PageRankNode:图中的节点类-代表一个页面 PageRankJob:实现分散各个节点的PR值的类 DistributionPRMass:实现dangling节点的PR值分散到其它节点的Job类 RangePartitioner:partition类  将连续的节点分配到同一个reduce中 PageRankDirver:整个工作的驱动类(主函数) package com.

mapreduce   pagerank  

PageRank手工计算得出的值见帖子 http://f.dataguru.cn/thread-17158-1-1.html 这个值有助于我们验证下面MR计算是不是正确 首先假设有两个节点A和B 原始矩阵如tiger老师的幻灯片第九页  a=1 网页1和2保存在节点A上 网页3和4保存在节点B上 由于A在A上很容易计算1和2的出链 根据MR的本地运算的思想,网页1和2的处理必在A上完成,B也同理

hadoop   pagerank