• 互联网大规模数据分析技术(自主模式)

    李琳
    • 李琳教授 武汉理工大学计算机科学与与技术学院
    • $可随时加入
    • g2.1万人
    • 7课件全部开放

    简介 让我们看看互联网上一分钟发生了什么?全球IP网一分钟传送639TB,发送2亿封邮件,Facebook新增27.7万用户,发生六百万次访问,Google发生2百万次搜索查询,Flicker有2千万次访问照片,Twitter新增10万条信微博,Youtube上载30小时的视频,发生130万次观看,2015年的你要用5年时间才能看完在互联网上一秒中所传的视频。数据正以前所未有的速度在不断的增长和累积,大数据时代已经来到。 如何从数据中发现有趣的知识,并将其应用到具体的领域之中?数据分析与挖掘技术让你通过纷繁复杂的现象,看到背后隐藏的规律和模式,修炼一双在信息时代的慧眼。 《互联网大规模数据分析技术》这门课程从大数据的基础技术入手,首先介绍大数据处理平台Hadoop和Spark、非关系数据库NoSQL、MapReduce分布式并行编程模型等;然后重点讲解数据挖掘中的经典算法。接下来解剖信息检索和推荐系统两大Web主流应用的原理和模型,并通过例子加深对这些问题的理解。同时推荐Lucene和Mahout两个开源工具包,可以快速搭建属于自己的全文搜索引擎和商品推荐应用系统。最后给出了信息过滤系统的评价体系,便于从学术的角度对系统性能进行分析。

    章节第一章 大数据与数据挖掘概述 第二章 关联规则 第三章 分类算法 第四章 聚类算法 第五章 大数据平台与技术 第六章 信息检索 第七章 Web链接分析 第八章 推荐系统 自我提升练习