课程简介
让我们看看互联网上一分钟发生了什么?全球IP网一分钟传送639TB,发送2亿封邮件,Facebook新增27.7万用户,发生六百万次访问,Google发生2百万次搜索查询,Flicker有2千万次访问照片,Twitter新增10万条信微博,Youtube上载30小时的视频,发生130万次观看,2015年的你要用5年时间才能看完在互联网上一秒中所传的视频。数据正以前所未有的速度在不断的增长和累积,大数据时代已经来到。
如何从数据中发现有趣的知识,并将其应用到具体的领域之中?数据分析与挖掘技术让你通过纷繁复杂的现象,看到背后隐藏的规律和模式,修炼一双在信息时代的慧眼。
《互联网大规模数据分析技术》这门课程从大数据的基础技术入手,首先介绍大数据处理平台Hadoop和Spark、非关系数据库NoSQL、MapReduce分布式并行编程模型等;然后重点讲解数据挖掘中的经典算法。接下来解剖信息检索和推荐系统两大Web主流应用的原理和模型,并通过例子加深对这些问题的理解。同时推荐Lucene和Mahout两个开源工具包,可以快速搭建属于自己的全文搜索引擎和商品推荐应用系统。最后给出了信息过滤系统的评价体系,便于从学术的角度对系统性能进行分析。
展开
课程章节
- 第一章 大数据与数据挖掘概述
- 第1讲 大数据与数据挖掘概述
- 第二章 关联规则
- 第2讲 频繁项集和关联规则的基本概念
- 第3讲 Apriori算法
- 第4讲 Apriori算法的改进与兴趣度度量
- 第三章 分类算法
- 第5讲 分类的基本概念
- 第6讲 决策树
- 第7讲 简单贝叶斯分类
- 第四章 聚类算法
- 第8讲 聚类的基本概念
- 第9讲 K-Means & K-Medoids Clustering
- 习题
- 第五章 大数据平台与技术
- 第10讲 大数据处理平台Hadoop
- 第11讲 MapReduce编程
- 第12讲 大数据处理平台Spark
- 第13讲 NoSQL数据库
- 第六章 信息检索
- 第14讲 Web信息检索简介
- 第15讲 信息检索之倒排索引
- 第16讲 信息检索之TFIDF
- 第17讲 信息检索之相似度排序
- 第七章 Web链接分析
- 第18讲 Web搜索之链接分析
- 第19讲 Web搜索之PageRank
- 第20讲 Lucene信息检索平台
- 习题
- 第八章 推荐系统
- 第21讲 推荐系统简介
- 第22讲 推荐系统之协同过滤
- 第23讲 Mahout数据挖掘平台
- 第24讲 信息过滤评价体系
- 习题一
- 习题二
- 自我提升练习
- 综合编程题
授课教师
-
李琳 武汉理工大学 计算机科学与与技术学院 教授
李琳,教授,博导,日本东京大学信息理工博士学位,悉尼科技大学访问学者,主要研究领域为人工智能和大规模数据分析技术及算法,特别是Web数据挖掘、文本分析及信息检索技术。近年以来主持国家基金2项、省部级项目3项,获得发明专利授权1项。2012年湖北省技术发明三等奖(排名1),2011年湖北省科技进步三等奖(排名4)。以第一作者或通讯作者在CCF(中国计算机学会)推荐的A类国际学术会议发表论文4篇,CCF推荐的C类国际学术会议发表论文5篇,SCIE杂志6篇(CCF推荐的C类国际学术刊物4篇),EI杂志1篇,EI检索国际会议论文若干篇,英文专著2本(排名2和3),中文专著1本(排名3)。
-
精华笔记
精华笔记正在评选中,去看看全部笔记
常见问题
请问教材和参考书是什么?
请大家参考如下资料: [1] 维克托·迈尔-舍恩伯格,肯尼斯·库克耶. 大数据时代. 浙江人民出版社. 2013.1 [2] 韩家炜等著。数据挖掘概念与技术,机械工业出版社,2012,第三版。 [3] Anand Rajaraman, Jeffrey David Ullman.大数据:互联网大规模数据挖掘与分布式处理. 人民邮电出版社. 2012.9 [4] Christopher D. Manning等.An Introduction to Information Retrieval. Cambridge University Press.2009.4 [5] Dietmar Jannach等. Recommender Systems – An Introduction. Cambridge University Press. 2011
请问需要哪些先修知识?
具有一定的计算机编程能力。