互联网大规模数据分析技术(自主模式)

自主模式

  • 什么是随堂模式?

    随堂模式课程一般为每学期一轮次,课程每周更新,作业、考试有截止时间,由课程提供方老师、助教指导,课程完结,成绩由老师确认后,统一发放证书。

  • 什么是自主模式?

    自主模式课程常年开放加入,课件全部开放,作业、考试无截止时间,有学堂在线招募选拔的助教指导,考核通过即可自动获得证书。

来自于: 武汉理工大学 | 分类: 计算机(667)工程(692)

课程描述

如今我们处于大数据的时代,互联网大规模数据分析这门课程带大家进入分析和处理大数据的世界。海纳百川,有容乃大,让我们以开放的心态,创新的勇气拥抱大数据。

什么是认证证书?
免费学习
认证学习
名师签名
实名认证
权威性
纸质证书
付费购买
免费赠送

课程简介

让我们看看互联网上一分钟发生了什么?全球IP网一分钟传送639TB,发送2亿封邮件,Facebook新增27.7万用户,发生六百万次访问,Google发生2百万次搜索查询,Flicker有2千万次访问照片,Twitter新增10万条信微博,Youtube上载30小时的视频,发生130万次观看,2015年的你要用5年时间才能看完在互联网上一秒中所传的视频。数据正以前所未有的速度在不断的增长和累积,大数据时代已经来到。

如何从数据中发现有趣的知识,并将其应用到具体的领域之中?数据分析与挖掘技术让你通过纷繁复杂的现象,看到背后隐藏的规律和模式,修炼一双在信息时代的慧眼。

《互联网大规模数据分析技术》这门课程从大数据的基础技术入手,首先介绍大数据处理平台Hadoop和Spark、非关系数据库NoSQL、MapReduce分布式并行编程模型等;然后重点讲解数据挖掘中的经典算法。接下来解剖信息检索和推荐系统两大Web主流应用的原理和模型,并通过例子加深对这些问题的理解。同时推荐Lucene和Mahout两个开源工具包,可以快速搭建属于自己的全文搜索引擎和商品推荐应用系统。最后给出了信息过滤系统的评价体系,便于从学术的角度对系统性能进行分析。

展开

课程章节

第一章 大数据与数据挖掘概述
第1讲 大数据与数据挖掘概述
第二章 关联规则
第2讲 频繁项集和关联规则的基本概念
第3讲 Apriori算法
第4讲 Apriori算法的改进与兴趣度度量
第三章 分类算法
第5讲 分类的基本概念
第6讲 决策树
第7讲 简单贝叶斯分类
第四章 聚类算法
第8讲 聚类的基本概念
第9讲 K-Means & K-Medoids Clustering
习题
第五章 大数据平台与技术
第10讲 大数据处理平台Hadoop
第11讲 MapReduce编程
第12讲 大数据处理平台Spark
第13讲 NoSQL数据库
第六章 信息检索
第14讲 Web信息检索简介
第15讲 信息检索之倒排索引
第16讲 信息检索之TFIDF
第17讲 信息检索之相似度排序
第七章 Web链接分析
第18讲 Web搜索之链接分析
第19讲 Web搜索之PageRank
第20讲 Lucene信息检索平台
习题
第八章 推荐系统
第21讲 推荐系统简介
第22讲 推荐系统之协同过滤
第23讲 Mahout数据挖掘平台
第24讲 信息过滤评价体系
习题一
习题二
自我提升练习
综合编程题

授课教师

  • 李琳 武汉理工大学 计算机科学与与技术学院 教授

    李琳,教授,博导,日本东京大学信息理工博士学位,悉尼科技大学访问学者,主要研究领域为人工智能和大规模数据分析技术及算法,特别是Web数据挖掘、文本分析及信息检索技术。近年以来主持国家基金2项、省部级项目3项,获得发明专利授权1项。2012年湖北省技术发明三等奖(排名1),2011年湖北省科技进步三等奖(排名4)。以第一作者或通讯作者在CCF(中国计算机学会)推荐的A类国际学术会议发表论文4篇,CCF推荐的C类国际学术会议发表论文5篇,SCIE杂志6篇(CCF推荐的C类国际学术刊物4篇),EI杂志1篇,EI检索国际会议论文若干篇,英文专著2本(排名2和3),中文专著1本(排名3)。

  • 张蕊 武汉理工大学 计算机科学与与技术学院 副教授

    张蕊,副教授,硕导,华中科技大学计算机软件与理论专业博士学位,美国佐治亚理工学院访问学者。研究兴趣为数据挖掘、社交网络分析与移动计算等。

精华笔记

精华笔记正在评选中,去看看全部笔记

常见问题

请问教材和参考书是什么?

请大家参考如下资料: [1] 维克托·迈尔-舍恩伯格,肯尼斯·库克耶. 大数据时代. 浙江人民出版社. 2013.1 [2] 韩家炜等著。数据挖掘概念与技术,机械工业出版社,2012,第三版。 [3] Anand Rajaraman, Jeffrey David Ullman.大数据:互联网大规模数据挖掘与分布式处理. 人民邮电出版社. 2012.9 [4] Christopher D. Manning等.An Introduction to Information Retrieval. Cambridge University Press.2009.4 [5] Dietmar Jannach等. Recommender Systems – An Introduction. Cambridge University Press. 2011

请问需要哪些先修知识?

具有一定的计算机编程能力。