学习笔记:信息检索(0) 导论

信息检索与其他学科的关系(非严格)?

自然语言处理(Natural Language Processing, NLP)

对文本进行浅层、深层处理的学科(也称计算语言学)

数据挖掘(Data Mining, DM)

对结构化和非结构化信息进行分类、聚类、预测等分析处理的学科

机器学习(Machine Learning, ML)

从数据中学习到知识或规律的学科

并行计算(Parallel Computing)

对大规模数据进行快速分析处理的领域

……


信息检索可以用来干什么?(反面例子)

买了微波炉,继续推荐微波炉

微博中向老婆推荐前女友


信息检索主要内容?

基本内容

布尔检索

倒排及各种索引

索引构建及压缩

向量检索

检索评价方法

相关反馈及查询扩展

高级内容

概率模型

语言模型

分类聚类

矩阵分解及LSI

WEB采集、检索及链接分析


学习信息检索需要哪些基础?

数学基础

概率统计

线性代数

计算机基础

算法和数据结构

程序设计


实战开发搜索引擎可以站在哪些巨人的肩上?

开发平台

Lucene:检索工具,Java版是维护版本,存在其他各种版本,主要是向量空间模型

Sphinx:C++检索工具,实现了BM25概率模型,和MySQL集成较好,据说不要定制

Xapian: C++检索工具,实现了BM25概率模型,据说易定制

Nutch:开源爬虫+Lucene

Solr: 一个高性能、采用Java5开发、基于Lucene的全文搜索服务器

ElasticSearch: 一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。

Larbin:采集工具,C++

Mahout:分布式数据挖掘平台,Java开发


对于不同专业出身的人学习信息检索有什么用?

计算机类:学完了以后知道原理,能够构建系统

非计算机类:学完了以后知道原理,能够指挥构建系统


有什么入门书籍推荐呢?

Christopher D.Manning,  Hinrich Schütze, Prabhakar Raghavan, 王斌[译]. 信息检索导论[M]. 北京:人民邮电出版社, 2016.


Reference:

王斌,信息检索导论讲义,lecture0-introduction,2017


@qingdujun

2017-12-9 北京 怀柔

相关文章
相关标签/搜索