淘宝用户行为分析项目
说明:项目通过jupter notebook。使用pandas,numpy,matplotlib,seaborn等第三方库对数据进行不同维度上的分析。
一、项目背景
本数据报告以淘宝app平台为数据集,通过行业的指标对淘宝用户行为进行分析,从而探索淘宝用户的行为模式,具体指标包括:日PV和日UV分析,付费率分析,复购行为分析,漏斗流失分析和用户价值RFM分析。
二、数据源
链接: https://pan.baidu.com/s/1468_ZeV0N_J1_FSyUgEMeQ 提取码:3c5c
三、要解决的问题
1.日pv有多少
2.日uv有多少
3.付费率情况
4.复购率是多少
5.漏斗流失情况如何
6.用户价值情况
四、数据说明
本数据集共有104万条左右数据,数据为淘宝APP2014年11月18日至2014年12月18日的用户行为数据,共计6列字段,列字段分别是:
user_id:用户身份,脱敏
item_id:商品ID,脱敏
behavior_type:用户行为类型(包含点击、收藏、加购物车、支付四种行为,分别用数字1、2、3、4表示)
user_geohash:地理位置
item_category:品类ID(商品所属的品类)
time:用户行为发生的时间
五、数据清洗
六、用户行为分析
1、pv和uv分析
PV(访问量):即Page View, 具体是指网站的是页面浏览量或者点击量,页面被刷新一次就计算一次。
UV(独立访客):即Unique Visitor,访问您网站的一台电脑客户端为一个访客。
1、日访问量分析
由上图:在双十二期间,访问量和访客量达到的峰值。
2、每小时访问量分析
由上图可见,在晚上8.00期间,访客量和访问量是最多的。
3、不同行为类型用户pv分析
3.1 仅对比用户行为为收藏、加购物车、支付的pv情况
由上图图表显示:
点击这一用户行为相比较于其他三类用户行为,pv访问量较高,同时四种用户行为的波动情况基本一致,因此晚上这一时间段不管哪一种用户行为,pv访问量都是最高的。
从图2可以看出,加入购物车这一用户行为的pv总量高于收藏的总量,因此在后续漏斗流失分析中,用户类型3应该在2之前分析。
七、用户消费行为分析
1、用户购买次数情况分析
2、日ARPPU
ARPPU(average revenue per paying user)是指从每位付费用户身上获得的收入,它反映的是每个付费用户的平均付费额度。
ARPPU=总收入/活跃用户付费数量
因为本数据集中没有消费金额,因此在计算过程中用消费次数代替消费金额
人均消费次数=消费总次数/消费人数
图表显示:平均每天消费次数在1-2次之间波动,双十二期间消费次数达到最高值。
3、日ARPU
ARPU(Average Revenue Per User) :平均每用户收入,可通过 总收入/AU 计算得出。它可以衡量产品的盈利能力和发展活力。
活跃用户数平均消费次数=消费总次数/活跃用户人数(每天有操作行为的为活跃)
4、日付费率
付费率=消费人数/活跃用户人数
5、同一时间段用户消费次数分布
大多数用户消费:1次
八、复购情况分析
1、复购率
复购情况,即两天以上有购买行为,一天多次购买算一次 复购率=有复购行为的用户数/有购买行为的用户总数
复购率: 0.8717
2、所有复购时间间隔消费次数分布
多数用户复购率为 0.8717,消费次数随着消费时间间隔的增加而不断下降,在1-10天之内复购次数比较多,10天之后复购次数淘宝用户很少在进行复购,因此需要重视10天之内的淘宝用户复购行为,增加用户复购。不同用户平均复购时间呈正态分布,但是总体来看,呈现逐渐下降趋势。多数淘宝用户平均复购时间集中在1-5天时间间隔内。
3、不同用户平均复购时间分析
由上图:不同用户平均复购时间呈正态分布。从总体来看,呈现逐渐下降趋势。多数淘宝用户平均复购时间集中在1-5天时间间隔内。
九、漏斗流失分析
漏斗分析是一套流程式数据分析,它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。
1、计算各个阶段的流失率
注:在上面不同行为类型用户pv分析中,加入购物车这一用户行为的pv总量高于收藏的总量,因此在漏斗流失分析中,用户类型3应该在2之前分析。
12256906 11550581 242556 343564 120205
十、用户行为与商品种类关系分析
1、不同用户行为类别的转化率
图表显示:基本上各种用户行为类型转换率都在0.1以内,同时绝大多数用户都没有购买情况,需要重点关注出现该现象的原因进行分析改进。
2、感兴趣比率
图表显示:感兴趣率和转化率类似,基本也是0.1以内,说明用户点击的绝大多数商品并非感兴趣,需要重视推荐系统的调整。
十一、二八理论分析
二八定律:在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管是多数,却是次要的,因此又称二八定律。
图表显示:前80%销量有15%左右的商品品类承包,接近二八原则。但我们也看出有接近20%的销量由85%的商品品类提供。
对于传统零售行业,因为成本高,因此只能局限于这前20%的商品提供利润;
对于电子商务,空间成本减少乃至为0,使后80%的商品也可以销售出去,因此将长尾部分的商品优化推荐好,能够给企业带来更大的收益。
十二、用户价值度RFM模型分析
RFM的含义:
R(Recency):客户最近一次交易时间的间隔。R值越大,表示客户交易发生的日期越久,反之则表示客户交易发生的日期越近。
F(Frequency):客户在最近一段时间内交易的次数。F值越大,表示客户交易越频繁,反之则表示客户交易不够活跃。
M(Monetary):客户在最近一段时间内交易的金额。M值越大,表示客户价值越高,反之则表示客户价值越低。
RFM分析就是根据客户活跃程度和交易金额的贡献,进行客户价值细分的一种方法。