免费为全国高校提供大数据教学案例
建设者:厦门大学计算机科学系 林子雨 博士/助理教授
(E-mail: ziyulin@xmu.edu.cn, 个人主页:http://www.cs.xmu.edu.cn/linziyu)
(版权声明:本平台所有资源有版权,请勿用于商业用途)
(未经授权,其他网站请勿转载)
扫一扫手机访问本主页
案例简介 | 案例目的 | 软件工具 | 案例任务 | 实验步骤 | 开发团队 | 版本历史 | 联系人
相关其他案例推荐:Spark课程实验案例:Spark+Kafka构建实时分析Dashboard
点击这里观看厦门大学林子雨老师主讲《大数据技术原理与应用》课程视频
案例简介
Spark课程实验案例:淘宝双11数据分析与预测课程案例,由厦门大学数据库实验室团队开发,旨在满足全国高校大数据教学对实验案例的迫切需求。本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、Hive、Sqoop、Eclipse、ECharts、Spark等系统和软件的安装和使用方法。案例适合高校(高职)大数据教学,可以作为学生学习大数据课程后的综合实践案例。通过本案例,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据全流程操作。各个高校可以根据自己教学实际需求,对本案例进行补充完善。
案例目的
适用对象
时间安排
本案例可以作为《大数据处理技术Spark》课程在学期结束后的“大作业”,或者可以作为学生暑期或寒假大数据实习实践基础案例,完成本案例预计耗时7天。
预备知识
需要案例使用者,已经学习过大数据相关课程(比如入门级课程《大数据技术原理与应用》和《Spark入门教程》),了解大数据相关技术的基本概念与原理,了解Windows操作系统、Linux操作系统、大数据处理架构Hadoop的关键技术及其基本原理、数据仓库概念与原理、关系型数据库概念与原理、JSP语言概念与应用、前端Javascript基础用法、Spark的关键技术及其原理。
不过,由于本案例提供了全部操作细节,包括每个命令和运行结果,所以,即使没有相关背景知识,也可以按照操作说明顺利完成全部实验。
硬件要求
本案例可以在单机上完成,也可以在集群环境下完成。
单机上完成本案例实验时,建议计算机硬件配置为:500GB以上硬盘,8GB以上内存。
软件工具
本案例所涉及的系统及软件:
图 案例所涉及软件总体概览图
数据集
淘宝购物行为数据集 (5000万条记录,数据有偏移,不是真实的淘宝购物交易数据,但是不影响学习)
案例任务
图 案例所涉及操作总体概览图
实验步骤
查看实验指南(Python版)
每个实验步骤所需要的知识储备、训练技能和任务清单如下:
步骤零:实验环境准备
步骤一:本地数据集上传到数据仓库Hive
步骤二:Hive数据分析
步骤三:将数据从Hive导入到MySQL
步骤四:利用ECharts进行数据可视化分析
步骤五:利用Spark预测回头客行为
开发团队
为了解决高校大数据教学需要综合实验案例的迫切需求,2017年2月上旬,厦门大学数据库实验室组建了由林子雨老师和阮榕城(厦大数据库实验室2015级研究生)、薛倩(厦大数据库实验室2015级研究生)、魏亮(厦大数据库实验室2016级研究生)、曾冠华(厦大数据库实验室2016级研究生)同学组成的案例开发小组,通过大量调研学习网络资料和相关案例,开发了本教学案例。期间,多次举行小组会议,讨论案例制作思路和技术细节。最终,经过近两个月的团队努力,于2017年3月8日顺利完成案例第1版的开发并上线发布。
图(摄影 夏小云) 大数据案例开发团队2016年11月28日合影
(人员从左到右名单:魏亮、阮榕城、林子雨、薛倩、曾冠华)
版本历史
2017年3月8日,发布案例V1.0版本。
本文地址:http://syank.xrbh.cn/quote/7182.html 迅博思语资讯 http://syank.xrbh.cn/ , 查看更多