这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用10分钟就可以

TF-IDF   提取关键字  

主要包括5个类 PageRankNode:图中的节点类-代表一个页面 PageRankJob:实现分散各个节点的PR值的类 DistributionPRMass:实现dangling节点的PR值分散到其它节点的Job类 RangePartitioner:partition类  将连续的节点分配到同一个reduce中 PageRankDirver:整个工作的驱动类(主函数) package com.

mapreduce   pagerank  

PageRank手工计算得出的值见帖子 http://f.dataguru.cn/thread-17158-1-1.html 这个值有助于我们验证下面MR计算是不是正确 首先假设有两个节点A和B 原始矩阵如tiger老师的幻灯片第九页  a=1 网页1和2保存在节点A上 网页3和4保存在节点B上 由于A在A上很容易计算1和2的出链 根据MR的本地运算的思想,网页1和2的处理必在A上完成,B也同理

hadoop   pagerank  

如果你想在你的Linux/Unix服务器上搭建一个安全、高性能、稳定性好的FTP服务器,那么vsftpd可能是你的首选应用。vsftpd意思为“very secure FTP daemon(非常安全的FTP进程)”,是一个基于GPL发布的类UNIX类操作系统上运行的服务器的名字(是一种守护进程),可以运行在诸如Linux、BSD、Solaris、HP-UX以及Irix等系统上面。vsftpd支持很

LinuxUnix FTP服务器   ftp服务器  

一、背景 Hadoop的集群使用也有些时候了,不过都是小集群的使用(数量小于30台)。在这个过程中不断的进行着配置调优的操作。最早的时候,在网上也没有找到一些合适的配置调优方法,于是,我在这里列举一些基本的调优配置,以供参考。最后,还有一个我自己的测试环境的配置说明,也可以参看一下。 二、环境和配置 1.       版本和环境 Ø  Hadoop版本:apache发布的0.21 Ø  操作系统:

hadoop集群配置优化  

版权声明:对于本博客所有原创文章,允许个人、教育和非商业目的使用,但务必保证文章的完整性且不作任何修改地以超链接形式注明原始作者、出处及本声明。     博客地址:http://blog.csdn.net/shuxiao9058     原始作者:季亚 一. 首先贴出本人在网络上找到与VMware网络连接相关的知识         安装完虚拟机后,默认安装了两个虚拟网卡,VMnet1和VMnet8

vmware   vm三种网络设置  

1.首先介绍一下wordcount 在mapreduce框架中的 对应关系 大家都知道 mapreduce 分为 map 和reduce 两个部分,那么在wordcount例子中,很显然 对文件word 计数部分为map,对 word 数量累计部分为 reduce; 大家都明白  map接受一个参数,经过map处理后,将处理结果作为reduce的入参分发给reduce,然后在reduce中统计了w

hadoop   mapreduce   map参数传递  

转载:http://xiaoxia001.iteye.com/blog/1279354 用三台centos操作系统的机器搭建了一个hadoop的分布式集群。启动服务后失败,查看datanode的日志,提示错误:ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namesp

hadoop   datanode节点  

1:shuffle阶段的排序(部分排序) shuffle阶段的排序可以理解成两部分,一个是对spill进行分区时,由于一个分区包含多个key值,所以要对分区内的<key,value>按照key进行排序,即key值相同的一串<key,value>存放在一起,这样一个partition内按照key值整体有序了。 第二部分并不是排序,而是进行merge,merge有两次,一次是map端将多个spill

hadoop   排序  

1. Hadoop框架的两个重点:MapReduce 和HDFS MapReduce:         (1)在map进行之前,需要对输入文件在客户端先进行“分片”,然后将分片信息上传到HDFS。         (2)分片上传结束后,jobtracker拿到分片信息,来分配map,reduct task;map对每条记录的输出以<key,value> 的形式输出。         (3)如果定义

hadoop