(1)数据是否能够获取
(2)工作量是否满足毕设要求
(3)代码是否通俗易懂,能否在短期内掌握
(4)选题是否具有现实意义,创新点
(5)个人电脑硬件是否支持运行大数据项目
(1)大数据环境搭建:虚拟机搭建(分布式、伪分布式)、Hadoop、Hbase、Zookeeper、Hive、Hbase、Kafka、Flume等组件的安装
(2)数据获取与清洗:爬虫、公开渠道获取等
(3)数据分析:选择合适的大数据分析技术
(4)数据挖掘:聚类、预测、推荐等
(5)可视化展示:大屏、导航栏跳转等
一、Hive数据仓库相关选题
Hive数据仓库项目的核心仓库分层:ODS(源数据层)、DWD(数据明细层)、DWS(数据汇总层)、ADS(数据应用层)
(1)基于hive的民宿价格分析系统
选题意义:在消费升级背景下,消费转型、消费提升成为新的研究热点.当前,中国旅游市场在加速复兴中,新型优质的中高端旅游产品推动旅游市场的迅速恢复.近两年民宿标准化文件相继出台,民宿行业对民宿评级工作的有序开展,使得民宿业进入了转型升级通道,也为民宿的理论研究创造出有利的条件。利用Hadoop、Hive、MapReduce等技术为用户解决在民宿选择问题,通过对用户所提供房屋的容纳人数、便利设施、洗手间数量、床的数量、卧室数量等相关信息,来进行可视化展示,更加详细的面向用户,更加清晰的展示当前房屋情况,为用户提供最合理的价格方案,该系统的设计目标是为用户提供可靠的可视化数据分析服务。
1、数据爬取:基于python爬取去哪网相关民宿信息,并进行数据清洗
2、数据分析:基于Hive数据仓库进行数据存储和分析,分析维度包括:民宿价格均值、民宿评分排名、各区域民宿数量、民宿简介词云、民宿均价等
(2)基于hive的厨具用品数据分析可视化
选题意义:目前智能手机随处可见,各种年龄段的人群都可以在网络上随心所欲的购买商品。巨量电商数据的存储及分析成为了人们普遍关注的话题。在大批量数据的计算场景中,时效性低的离线数据仓库是大多数业务的首要选择。
依托Hadoop大数据平台,基于Hive数据仓库对电商网站中厨具用品销售数据进行分析。以可视化大屏的形式对分析结果进行可视化展示。首先运用Python技术爬取京东网站厨具用品销售数据,爬取的数据存储至HDFS文件系统。基于Hive数据仓库和HiveSQL工具对数据进行分析。运用Sqoop数据迁移工具,将分析完成的数据迁移至MySQL数据库。最后,以SpringBoot、MyBaties、Echart等技术构建可视化大屏,将分析结果以可视化图表的形式进行展示。
1、数据爬取:基于python爬取京东网站相关厨具销售信息,并进行数据清洗
2、数据分析:基于Hive数据仓库进行数据存储和分析,分析维度包括:品牌平均销量、商品好评率分析、用户来源、销售标题词云、品牌价格、产品销量
(3)基于Hive的天气数据分析系统的设计与实现
选题意义:随着互联网、计算和存储技术的快速发展,气象部门存储的气象数据量日益剧增,我国每年新增的气象资料达到PB量级,同时气象数据类型相对复杂,这使得传统的数据存储和处理技术不能很好解决目前用户的需求。当前国内外许多研究团队都致力于归纳分析这些海量数据,并从中挖掘出具有现实意义的气象规律或模式。近几年,云计算技术作为互联网领域的新产物,它为海量数据存储和处理提供了新的契机,它在海量数据挖掘技术领域中具有显著的优势,且已经得到了广泛的应用。
(2)聚焦民生领域,较强的现实意义
1、数据爬取:基于python爬取中国天气网站某城市历史天气信息,并进行数据清洗
2、数据分析:每个月的不同天气占比,气温变化情况研究,不同天气类型在本年出现的占比,不同风向类型在本年出现的占比,风力级别的分布占比,天气和风向的关系,天气和风力的关系
(4)基于Hive的高校资产管理系统(工作量较大)
选题意义:如今高速发展的社会科技发达信息流通,人们的交流密切,生活也越来越方便,大数据就是这个高科技时代的产物。而数据中台可以整合加工数据使数据服务可视化,让数据价值变现,所以此次将就高校资产数据中台的数据资产智能采集展开研究。本课题研究的高校资产数据中台将重点关注于高校固定资产的智能分析及展示,以确保数据的丰富与完善并使数据管理易用。
(2)运用Hive数据仓库进行数据储存
(3)数据上传、查询实现自动化
技术路线:数据储存:MySQL+Hive
系统搭建:SpringBoot+MyBaties+JSP+Layui
主要功能:用户信息管理、权限管理、数据管理、系统管理、资产查询等。
基于hive的太原共享单车数据分析与实现(难度系数:⭐⭐⭐)
基于Hive的外汇交易数据分析与研究(难度系数:⭐⭐)
基于hive的垃圾分类大数据可视化(难度系数:⭐⭐)
基于hive的网络电视剧收视率与推荐分析的设计与实现(难度系数:⭐⭐⭐)
基于Hive的智慧社区建设方向的研究与分析(难度系数:⭐⭐⭐)
基于Hive的海鲜交易数据分析系统的设计与实现(难度系数:⭐⭐)
基于hive的boss直聘平台薪资数据分析(难度系数:⭐⭐⭐)
基于Hive的新能源汽车数据分析(难度系数:⭐⭐⭐)
基于Hive的小米产品销售数据分析(难度系数:⭐⭐)
基于Hive数据仓库的物流大数据平台的研究与设计(难度系数:⭐⭐⭐)
二、Hadoop/MapReduce相关选题
该类题目主要应用三个方向:(1)基于Hadoop、HDFS的特点,完成海量数据的储存(工作量较大)。(2)基于MapReduce计算框架的计算能力,进行海量数据分析。(3)基于MapReduce计算框架实现相关算法(算法模型实现、理解难度较大)
2.1 Hadoop数据储存相关题目
(1)基于Hadoop的校园网盘管理系统(工作量较大)
选题意义:随着校园信息化不断发展,高校信息数据存储问题迅速涌现出来。然而,现存的数据存储平台不能够满足日益增长的海量数据的需求。现有的网盘对于普通用户在存储空间、数据上传速度等方面进行了限制。用户若想要获得更大的储存空间、更快的数据上传速度则需要付费。这对于在校师生来说,不够友好。因此,针对高校师生研究并开发一个有效的存储平台来存储这些信息数据显得尤其重要。
创新点:(1)管理系统与大数据技术相结合
(2)将大数据技术应用到校园信息化建设
技术路线:数据储存:Hadoop+HDFS
后台管理系统:SpringBoot+MyBaties
前台页面:JSP+CSS+Layui
2.2 MapReduce数据分析相关题目
(1)基于Hadoop的租房数据分析系统的设计与实现
选题意义:现如今租房现象十分普遍,由于房价的飞涨,尤其在一、二线城市,短时间内想拥有一个属于自己的居室简直难如登天,对于更多人尤其是外出工作的人来说租房更是他们的上上之选,因此,房屋租赁一直是人们热点关切的问题,也是大多数人们的需求,由此可见,一个良好的租房数据分析平台的实现是非常有意义的。
1、数据爬取:基于python爬取贝壳网站的租房信息,并进行数据清洗
2、数据分析:基于MapReduce计算框架进行数据分析,分析维度包括:租房类型分析、各小区租房数量分析、各小区租房均价、租房价格范围分析、居室类型分析等
3、数据可视化:Python+Flask+echarts+MySQL可视化
(2)基于Hadoop的网络舆情数据分析系统的设计与实现
选题意义:随着移动互联网的快速普及加上网络舆情传播的积极性和参与方便,成本低,人气积极性集聚快,传播的规模和影响力也可以迅速增强,网络舆情在我国经济发展过程中的集聚效果十分显著。而各类网民因为其个体所处的生活条件、教育文化背景及其个人品格素质等参差不齐,对社会事件的理解各不相同,往往很容易产生负面舆论,特别是大学生群体,容易受负面信息影响。
1、数据采集:爬取微博数据,hdfs数据存储
2、数据分析:mapreduce数据分析,分析维度:网络舆情评论量、点赞量、转发量、舆情数量、舆情发布工具、舆情词云、热点词汇追踪等
3、可视化:springBoot+echart可视化
2.2 MapReduce算法类相关题目
(1)基于协同过滤推荐算法的图书推荐系统
技术路线:推荐算法:MapReduce计算框架实现协同过滤推荐算法
基于Hadoop的电影数据分析(难度系数:⭐⭐)
基于Hadoop的好大夫数据分析系统(难度系数:⭐⭐⭐)
基于Hadoop的一线城市房价数据分析(难度系数:⭐⭐⭐)
基于Hadoop的宜家家居数据分析系统(难度系数:⭐⭐⭐)
基于Hadoop的外卖订单数据分析系统的设计与实现(难度系数:⭐⭐⭐)
基于Hadoop的就业数据分析系统的设计与实现(难度系数:⭐⭐)
基于hadoop的广告公司数据分析系统的设计与实现(难度系数:⭐⭐⭐)
基于Hadoop的出租车轨迹数据分析系统的设计与实现(难度系数:⭐⭐⭐⭐)
基于Hadoop的课程资源分享系统的设计与实现(难度系数:⭐⭐⭐⭐)
基于Hadoop的电商用户行为数据分析系统(难度系数:⭐⭐⭐)
基于Hadoop的电影推荐系统的设计与实现(难度系数:⭐⭐⭐⭐)
基于Hadoop的音乐推荐系统的设计与实现(难度系数:⭐⭐⭐⭐)
基于Hadoop的课程推荐系统的设计与实现(难度系数:⭐⭐⭐⭐)
基于Hadoop的分布式文件管理系统的设计与实现(难度系数:⭐⭐⭐⭐)
三、Spark相关选题
Spark数据分析相关选题分为三个方面。一方面基于Kafka+SparkStreaming的实时数据分析项目(项目搭建较为麻烦)。另一方面是基于Spark Core、SparkSql的离线数据分析项目。最后是基于Spark Mllib机器学习库的算法实现与应用(代码理解难度较大)。
3.1 SparkStreaming实时数据分析
(1)基于SparkStraming的图书评分数据分析系统
选题意义:经过多年的发展,人们不再满足于物质生活上的丰富,更加注重对精神满足的不断追求,于是越来越多的人投身于图书世界,通过阅读满足自己精神上的追求。图书市场在种类规模和总体数量等方面有了极大的增加,但是同时也带来了图书种类数量过多,使得读者难以选择合适的图书。因此,如何快速从海量图书中迅速获取自己喜欢阅读的书籍,是每个读者关注的问题。
图书资源越来越丰富,图书数据已经越来越大达到PB、ZB级别,这无疑为大量读者增加了选择困难,不能从茫茫书海中找到自己偏爱的图书。所以,海量的图书数据背后需要利用大数据的分析技术方可以让用户快速找到自己喜欢的、感兴趣的图书。
创新点:(1)Kafka模拟数据实时采集的过程
(2)实时数据分析与展示
1、数据获取:Kafka实时采集指定文件中的数据
2、数据分析:SparkStreaming
(2)基于大数据的实时交通流预测
选题意义:随着我国城市化的快速发展,城市道路车辆逐年增加,从而导致主干道严重拥堵,给人们出行带来极大不便。而传统的道路诱导方式和简单的信号灯控制已经不能满足对复杂道路交通的管理。因此,为实现对城市道路交通的现代化管理,本文基于Hadoop大数据分析平台,采用Kafka、SparkStreaming等技术设计和实现了智慧交通实时监控系统。实现了交通道路流量分析、交通工具流量分析、xxx省各市交通事故实时监控、事故类型实时监控等功能模块。通过可视化大屏,将分析结果以可视化图表的形式展示。智慧交通实时监控系统的设计与实现,能够帮助交通部门实时了解辖区内交通流量变化,针对出现的问题,及时制定解决方案。
1、数据获取:Kafka实时模拟数据生成
2、数据分析:SparkStreaming、Spark core、Spark SQL
3.2 Spark数据分析
(1)基于Spark的网易用户行为分析平台的设计与实现(scala版本)
选题意义:随着国民生活水平的提高,以及社会基础建设的不断完善,网购已经成为国民购物的主要形式。网上购物突破了时间和空间的限制,人们可以在随时随地进行购物。在此背景下,产生了海量的电商数据集。通过对数据集分析,确定用户偏好、购物人群地区分布等信息对于电商企业发展有着至关重要的作用。
1、数据集:从公开渠道获取数据
2、数据分析:spark core数据分析,分析维度:用户终端类型分析、每天访问量分析、用户来源分析、用户行为分析、商品销量分析
3、springBoot+echart可视化
(2)基于Spark的白酒销售数据分析系统的设计与实现(Java版本)
选题意义:近年来,白酒市场竞争激烈,市场体系不断完善,市场板块不断分化,不同的市场具有不同的特点,经过20多年的市场发展和建设,在竞争中逐渐形成了高档白酒市场、中档白酒市场、终端白酒市场、流通渠道市场、促销市场等。当今白酒市场正逐步走向规范;从近几年白酒产量的情况来看,白酒产量基本保持着稳定增长的态势。中国白酒文化根深蒂固,白酒的地位更是不可撼动。
结合Hadoop大数据分析平台以及Spark数据分析技术,对我国的白酒消费数据从品牌、价格、度数、产地、年份等多个维度进行分析。最后结合SSM框架和Echart可视化技术对分析结果以图表的形式进行展示。本文的研究能够满足不同白酒消费者的个性化需求,为消费者选择白酒、企业管理员制定发展战略提供数据支持。
1、数据集:爬取京东白酒销售数据
2、数据分析:spark core、spark sql数据分析,分析维度:店铺销量分析、白酒品牌销量分析、均价分析、好评率分析、标题词云等
3、可视化:SpringBoot+echart可视化
3.3 Spark Mllib机器学习库的算法实现与应用
(1)基于Spark的图书推荐系统的设计与实现
技术路线:推荐算法:Spark Mllib实现ALS推荐算法
(2)基于Spark的房价数据分析系统的设计与实现
选题意义:近年来,我国的房地产行业取得了快速的发展。随着人们生活的改善,人们对于购房的需求也愈加强烈,因此很多人们都在关心房价的变化。传统的房价的展示方式通常是通过表格的方式。该种方式对于用户而言不直观,也不容易产生给用户留下深刻的印象。随着可视化技术的发展,通过可视化的方式对于数据进行展示,可以有效的增加用户的印象,让用户在较短时间内对于数据进行快速的阅读与掌握。本研究主要是采用数据分析及可视化方法,对于房价的相关信息进行了可视化的展示。本次开发的项目包括爬虫、数据预处理及数据分析及可视化等功能模块。该项目不仅对于购房者快速掌握房价相关信息具有一定的帮助,还可以帮助政府有效的进行房价进行市场调控。
预测算法::Spark Mllib实现线性回归、逻辑回归等预测算法
数据分析:Spark core、Spark SQL
可视化展示:SpringBoot+echart可视化
基于spark的游戏战队队员数据可视化系统设计与实现(Scala,难度系数:⭐⭐⭐)
基于Spark的NBA球员数据分析系统(Scala,难度系数:⭐⭐⭐)
基于Spark的礼品零售数据分析系统的设计与实现(scala,难度系数:⭐⭐⭐)
基于Spark的电子厂数据分析与可视化系统的设计与实现(Java,难度系数:⭐⭐⭐)
基于spark大学学生奖助学金数据分析与研究(难度系数:⭐⭐⭐⭐)
基于Spark的天气数据分析系统的设计与实现(难度系数:⭐⭐)
基于Spark的信贷数据分析与预测系统的设计与实现(难度系数:⭐⭐⭐⭐)
基于Spark的微博热搜数据实时分析可视化系统的设计与实现(难度系数:⭐⭐⭐⭐)
四、Hbase相关选题
Hbase相关选题分为两类,一类是基于Hbase数据库进行数据储存。一类是基于Hbase的数据分析(环境搭建难度较大)。
(1)基于hbase的公共交通查询系统的设计与实现
选题意义:随着城市交通的快速发展,社会对绿色出行的大力提倡,以及人们对环保意识也逐渐有了提髙,公交成为大多数人的主要出行方式。因此,公共汽车管理问题成为当今社会交通问题的重点。现阶段公交管理问题主要包括公交服务水平低、公共基础设施统一管理不足以及公共交通网络规划不合理
等。
创新点:使用非关系型数据库进行数据储存与查询
技术路线:数据储存:Hbase+MySQL
管理系统:SpringBoot+MyBaties+JSP+Layui
(2)基于Hbase的地震数据分析系统的设计与实现
选题意义:地震是一种常见的自然灾害,可以通过相关技术进行监测与预报,在互联网飞 速发展的当下,地震台站系统已经迈入了“大数据”时代。我国每个省份的台站每天会产生海量的地震数据,以往的地震测震平台在数据的采集、存储、检索、计算方面已经满足不了现在的需求,因此,提出一个可行、有效的解决方案具有重要的研究意义和应用价值。
创新点:使用Phoneix工具对非关系型数据库进行数据储存与查询
1、数据储存:Hbase
2、数据分析:Phoneix
3、数据管理:SpringBoot+MyBaties+JSP+Layui
4、数据可视化:SpringBoot+echart可视化
基于hbase的博客内容推荐系统
基于hbase的苏州自助旅游推荐系统
基于Hbase的酒店管理系统
本文地址:http://syank.xrbh.cn/quote/6275.html 迅博思语资讯 http://syank.xrbh.cn/ , 查看更多