一、安装需求  安装java 1.6及hadoop 1.2.* 二、安装zookeeper 1、下载zookeeper wget http://apache.osuosl.org/zookeeper/zookeeper-3.4.3/zookeeper-3.4.3.tar.gz(本次安装3.4.3版本) 其他版本下载地址(最好使用stable版本): http://zookeeper.apache.

zookeeper安装   zookeeper   ubuntu  

本篇介绍两种HBase的安装方式:本地安装方式和伪分布式安装方式。 安装的前提条件是已经成功安装了hadoop,而且hadoop的版本要和hbase的版本相匹配。 我将要安装的hbase是hbase-0.94.13版本,需要的hadoop是hadoop-1.2.1版本。 hbase下载地址:http://apache.fayea.com/apache-mirror/hbase/hbase-0.94

hbase安装  

上一次,我用TF-IDF算法自动提取关键词。 今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。 为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。 为了简单起见,我们先从句子着手。   句子A:我喜欢看电

TF-IDF   余弦相似度   查找相似文章  

这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用10分钟就可以

TF-IDF   提取关键字  

主要包括5个类 PageRankNode:图中的节点类-代表一个页面 PageRankJob:实现分散各个节点的PR值的类 DistributionPRMass:实现dangling节点的PR值分散到其它节点的Job类 RangePartitioner:partition类  将连续的节点分配到同一个reduce中 PageRankDirver:整个工作的驱动类(主函数) package com.

mapreduce   pagerank  

PageRank手工计算得出的值见帖子 http://f.dataguru.cn/thread-17158-1-1.html 这个值有助于我们验证下面MR计算是不是正确 首先假设有两个节点A和B 原始矩阵如tiger老师的幻灯片第九页  a=1 网页1和2保存在节点A上 网页3和4保存在节点B上 由于A在A上很容易计算1和2的出链 根据MR的本地运算的思想,网页1和2的处理必在A上完成,B也同理

hadoop   pagerank  

如果你想在你的Linux/Unix服务器上搭建一个安全、高性能、稳定性好的FTP服务器,那么vsftpd可能是你的首选应用。vsftpd意思为“very secure FTP daemon(非常安全的FTP进程)”,是一个基于GPL发布的类UNIX类操作系统上运行的服务器的名字(是一种守护进程),可以运行在诸如Linux、BSD、Solaris、HP-UX以及Irix等系统上面。vsftpd支持很

LinuxUnix FTP服务器   ftp服务器  

一、背景 Hadoop的集群使用也有些时候了,不过都是小集群的使用(数量小于30台)。在这个过程中不断的进行着配置调优的操作。最早的时候,在网上也没有找到一些合适的配置调优方法,于是,我在这里列举一些基本的调优配置,以供参考。最后,还有一个我自己的测试环境的配置说明,也可以参看一下。 二、环境和配置 1.       版本和环境 Ø  Hadoop版本:apache发布的0.21 Ø  操作系统:

hadoop集群配置优化  

版权声明:对于本博客所有原创文章,允许个人、教育和非商业目的使用,但务必保证文章的完整性且不作任何修改地以超链接形式注明原始作者、出处及本声明。     博客地址:http://blog.csdn.net/shuxiao9058     原始作者:季亚 一. 首先贴出本人在网络上找到与VMware网络连接相关的知识         安装完虚拟机后,默认安装了两个虚拟网卡,VMnet1和VMnet8

vmware   vm三种网络设置  

1.首先介绍一下wordcount 在mapreduce框架中的 对应关系 大家都知道 mapreduce 分为 map 和reduce 两个部分,那么在wordcount例子中,很显然 对文件word 计数部分为map,对 word 数量累计部分为 reduce; 大家都明白  map接受一个参数,经过map处理后,将处理结果作为reduce的入参分发给reduce,然后在reduce中统计了w

hadoop   mapreduce   map参数传递