1、 sudo gedit /usr/share/applications/eclipse.desktop 2、向eclipse .desktop中添加以下内容: [Desktop Entry] Encoding=UTF-8 Name=eclipse Comment=Eclipse IDE Exec=/home/hadoop/eclipse/eclipse Icon=/home/hadoop/ec

ubuntu   eclipse   快捷方式  

今天安装ubuntu 14.04后发现firefox浏览器菜单都变成英文的了。就上网搜解决方法。最后发现如下方法可以汉化Firefox: 到如下地址下载zh-ch.xpi就行了。http://ftp.mozilla.org/pub/mozilla.org/firefox/nightly/31.0-candidates/build2/linux-x86_64/xpi/ 如果是其他版本的可以从http

java.lang.ClassNotFoundException: JavaWordCount$1 在调用spark给的例子中,我们会碰到提交运行的时候会报空指针问题。那时因为spark集群中找不到你制定的class,所以我们需要手动的将包添加到当前的job中。以JavaWordCount为例,修改后的代码如下: 备注:在运行的参数中需要设置==》spark://localhost:7077  h

spark   java   api   异常  

        按照《Spark实战高手之路-第1章》的前四节,搭建完Spark集群及IDEA集成环境后,最后一步是用IDEA集成环境运行SparkPi例子。可就在这最后一步,让我花了三天时间才最终完成。所以,这里详细介绍解决方法,让接下来以《 Spark实战高手之路》入门的后来者少走些弯路。 1.在《Spark实战高手之路-第1章(4)》的最后,说要以本地模式过行,则在 Edit Configu

spark   异常   intellij  

CrawlDb分析 功能:将解析出来的Segment中的URL更新至CrawlDb。 update方法 update方法的参数包含四个参数: (1) CrawlDb数据库的路径,如crawl/crawldb; (2) Segment的路径,如crawl/segments/20131130101034; (3) 是否规范化的布尔值; (4) 是否进行过滤的布尔值。 update job的配置: (1

nutch  

说明:通常来说,网络爬虫应该遵循网站所描述的robots协议。因此,任何网络爬虫都有关于robots协议部分的处理。 分析入口:Robot相关处理的入口位于Fetcher.java的L676,如下所示: BaseRobotRules rules = protocol.getRobotRules(fit.url, fit.datum); Fetcher抓取每个URL之前都会先查看系统之前是否已经获取

nutch  

ParseSegment分析 ParseSegment类的结构相对要简单一些,与Injector等在内部类中实现map和reduce的方式不同,它直接在类中实现。 核心方法解析: map方法的功能包括: (1) 检查URL对应的Content是否抓取成功,如果没有直接返回,否则继续; (2) 检查Content的内容是否为truncated以及parser.skip.truncated参数的值。如

nutch  

Fetcher分析 Fetcher是以生产者/消费者模式来处理网页抓取的。 QueueFeeder作为生产者,从前面Generator中产生的<url, CrawlDatum>读取出来,然后加入到FetchItemQueues队列中,加入的时候需处理队列已满等异常情况。 FetcherThread作为消费者,不断从队列里取出待抓取的URL进行抓取。 Fetcher与Injector和Generat

nutch  

Generator分析 Generator的功能主要是将注入的URL按照一定的规则生产一系列CrawlDb的子集。这里的规则包括:抓取时间是否符合要求,是否符合设定过滤规则,根据页面评分进行排序,根据URL的host/ip/domain划分子集,是否超过设定的generate最大值(就是Crawl命令中的topN值)等。 generate方法主要包括三个job的执行: 第一个job的map和red

nutch  

Injector的主要功能 Injector的主要功能是将urls目录下的文本文件中的URL地址注入到CrawlDb中。 Injector类基本构成 (1) 三个主成员变量 nutchScoreMDName nutchFetchIntervalMDName nutchFixedFetchIntervalMDName (2) 两个内部静态类 InjectMapper InjectReducer (3

nutch  
4 5 6 7 8 9 10 11 12