UserBehavior为淘宝用户行为的数据集,数据集包括了2017年11月25日至2017年12月3日之间,有大约82万随机用户的用户行为(行为包括点击pv,购买buy,加购物车chart,收藏fav)数据。
通过对用户行为的分析,主要实现下面两个目的:
1、为客户提供更精准的隐式反馈,帮助用户更快速找到商品;
2、为提高公司的交叉销售能力,提高转化率,销售额,提升公司业绩。
主要从以下四个维度对用户行为进行分析和建议:
1、用户行为间的转化情况分析: 利用 漏斗模型 分析用户从商品浏览到购买整个过程中,常见的电商分析指标,确定各个环节流失率,提出改善转化率的建议。
2、用户的行为习惯分析: 利用pv、uv等指标,找出用户活跃的日期以及每天的活跃时间段。
3、用户类目偏好分析: 根据商品的点击、收藏、加购、购买频率,探索用户对商品的购买偏好,找到针对不同商品的营销策略(购买率较高的类目和产品,优化产品推荐)。
4、用户价值分析: 找出最具有价值的核心用户群,针对这个群体推送个性化推送,优惠券或者活动。
逻辑如下:
![](https://img-blog.csdnimg.cn/20200528122905102.jpeg?x-oss- process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQwMjk2ODE4,size_16,color_FFFFFF,t_70)
主要使用工具:Navicat for MySQL,MySQL, power BI。
1 、数据来源
阿里云天池:
https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1
2 、将数据导入MySQL
使用Navicat导入功能,导入后结果如下图,这里会出错卡在导入步骤的5/8位置。
![](https://img-blog.csdnimg.cn/20200528124340141.png?x-oss- process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQwMjk2ODE4,size_16,color_FFFFFF,t_70)
使用代码直接导入,结果如下图,未出现上述卡住现象。
![](https://img-blog.csdnimg.cn/20200528124538875.png?x-oss- process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQwMjk2ODE4,size_16,color_FFFFFF,t_70)
![](https://img-blog.csdnimg.cn/2020052812461945.png?x-oss- process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQwMjk2ODE4,size_16,color_FFFFFF,t_70)
3 、数据理解
本数据主要包含了大概82万条数据,每一行分别表示一个用的行为,由用户ID(User_ID)、产品ID(Item_ID)、类目ID(Category_ID)、行为类型(Behavior_type)、时间戳(Timestamp),行为类型又分为点击(pv)、收藏(fav)、加购物车(chart)、购买(buy)。
1 、Timestamp一致化处理
Timestamp列,无法直接分析,需要将其划分为三列,分别为时间,日期,小时。
–添加新列,根据Date_time返回日期时间
![](https://img-blog.csdnimg.cn/20200528123530230.png?x-oss- process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQwMjk2ODE4,size_16,color_FFFFFF,t_70)
–添加新列,根据Date返回日期时间
![](https://img-blog.csdnimg.cn/20200528123530380.png?x-oss- process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQwMjk2ODE4,size_16,color_FFFFFF,t_70)
–添加新列,根据Time返回小时
2 、挑出目标数据集
由于项目背景是需要对2017年11月25日至2017年12月3日之间用户行为数据集进行隐式反馈推荐问题的研究,所以需要对不在这个时间内的数据进行删除。
本文地址:http://syank.xrbh.cn/quote/7444.html 迅博思语资讯 http://syank.xrbh.cn/ , 查看更多