高级大数据系统

随堂模式

  • 什么是随堂模式?

    随堂模式课程一般为每学期一轮次,课程每周更新,作业、考试有截止时间,由课程提供方老师、助教指导,课程完结,成绩由老师确认后,统一发放证书。

  • 什么是自主模式?

    自主模式课程常年开放加入,课件全部开放,作业、考试无截止时间,有学堂在线招募选拔的助教指导,考核通过即可自动获得证书。

来自于: 清华大学 | 分类: 计算机(670)

课程描述

高级大数据系统的实现、优化和应用。

什么是认证证书?
免费学习
认证学习
名师签名
实名认证
权威性
纸质证书
付费购买
免费赠送

课程简介

高级大数据系统的实现、优化和应用,包括分布式文件系统、MapReduce/Spark、Storm/Spark streaming、Mahout等系统的原理、实现、策略优化。

展开

课程章节

Introduction to Big Data Systems
What is big data and what is big data system?
Problems in big data systems?
Overview of the course
Principles of big data system design
Basics of Linux Data Processing
Manipulating Data on Linux
Running Commands on a Single Machine
Using a Linux Cluster
Distributed File System
Storage for Big Data Computing: Distributed file system
File system and GFS
Understanding HDFS using Legos
File System Implementation and DFS
MapReduce
What is MapReduce and why
Learn MapReduce by playing with cards
Processing pattern
Hadoop
Algorithms in MapReduce
Tutorial
In-memory Processing
Background
Spark
Use Spark for data mining
Spark data processing
Experiment in Spark
Streaming Data Processing
Introduction to streaming data processing
Storm
Spark streaming
NoSQL
NoSQL introduction
Common Advantages
Bigtable
Master Startup
HBase
Graph Processing
What is GraphDB and Graph data processing
Graph systems
Example of a GraphDB
Machine Learning System
Mahout
Case Study: Recommendation
Recommendation in Mahout

授课教师

  • 王智 清华大学 深圳研究生院 讲师

    王智,讲师,开设过《大数据系统基础B》等课程 。2014/2008年分别获清华大学工学博士/学士学位。从事多媒体网络和大数据系统方向研究,包括高性能数据处理系统优化,以及数据驱动的边缘网络、内容分发策略设计。以第一作者发表学术论文20余篇,包括多媒体领域IEEE TMM、ACM TOMCCAP、ACM Multimedia,计算机网络领域IEEE TPDS、IEEE INFOCOM、ACM CoNEXT等。获2014年中国计算机学会(CCF)优秀博士论文奖(排名3/10),ACM Multimedia 2012唯一最佳论文奖,MMM 2015最佳学生论文奖。关键技术获2014腾讯移动互联网创业大赛冠军(第1名),并获得优秀指导老师奖。研究申请专利4项。担任担任期刊中国通信、JCST客座编委。担任ACM Multimedia 2014,IEEE ICC 2014,ACM MMSys 2014,IEEE ICME 2013等会议程序委员会(TPC)成员。

精华笔记

精华笔记正在评选中,去看看全部笔记

常见问题

在哪里下载课件?

课程课件栏中可在线阅读课件,也可点击每章视频左下角的Download handout按钮下载课件。