一.分析背景和目的
随着购物网站的发展,人们的网络购物行为占比也快速增加。为了能够获取更多的用户,提升商家的销售量,需要从产品和用户不同的角度进行分析,进而得到有价值的信息,指导商家进行获客和营销。本文就以淘宝天猫上婴儿用品购买数据为例,通过对产品和用户进行分析,得出结论并提出可实施的建议
数据集内容为淘宝天猫上用户2012年7月至2015年2月购买婴儿用品的购买记录
数据包含两个表,每个表的列名及含义如下:
二.分析思路
(一)根据数据集里包含的数据,提出以下问题进行分析:
1.产品角度
1)成交总数量的波动情况如何
- 单次购买量波动情况
- 购买次数波动情况
2)热销产品,销量最少的产品是哪些
2.用户角度
1)男女婴儿对不同商品类别的需求有无差异
2)不同年龄婴儿对不同商品类别的需求有无差异
下面的图展示了具体的分析思路及要用到的分析方法。之后在分析过程中会再详细展示如何用这些分析方法进行分析的
(二)数据清洗
1.将所有数据复制到新的表格里,在新的表格里进行数据清洗
2.
- 冻结首行,将列标题的英文字段转换成汉字字段
- 检查是否有重复值:首先对表一用户ID和购买行为编号两列进行重复值突出显示,筛选出用户ID重复项,在此基础上筛选购买行为编号重复项,发现购买行为编号无重复值,故表1无重复值,无需删除。对表二用户ID列进行重复值突出显示,发现没有重复值,无需删除
- 隐藏不需要分析的列:隐藏掉购买行为编号,商品属性两列
3.查找缺失值
通过对各未隐藏列单元格计数,发现每列单元格数目相同,无缺失值,不做处理
4.一致化处理
- 通过数据分列功能将购买时间和生日日期戳转换为ymd日期格式
- 性别列,将1,2表达方式换为男女,通过IF函数实现,返回结果错误的,将其删掉
5.将两个表内容合在一起,通过vlookup函数实现。通过整合两个表发现,表一中的用户只有少部分有登记婴儿性别和出生日期。所以之后在分析问题时,如果有涉及到婴儿信息字段的,将只对登记了婴儿信息的用户购买行为进行分析
算出购买行为发生时婴儿的年龄(考虑到婴儿年龄跨度较小,并且考虑到不同年龄对商品需求差异可能会较大,故将婴儿的年龄及月份都计算列示出来,以便于后面的分析)
先通过dateif(出生时间,购买时间,“M”)计算购买时的月份,发现有的结果显示为负值,说明用户在婴儿未出生时就开始购买商品。之后将年龄用int和mod函数进行处理,得出岁数和未满一年的月份
6.处理异常值
- 以月龄为单位,计算的四分位数结果如下
可以看出极端异常值为120,表中超过120的有4条信息:129/130/141/339,将其作为异常值删掉
- 对所有商品的单次购买数量求四分位数,得出结果如下:
可以看出单次购买数量的最小值,四分位数都是1,最大值是10000,如果根据极端异常值来判断异常值,则单次购买数量大于1的都将作为异常值被删掉,这又显然不符合实际情况,因为确实存在用户单次购买数量大于1的情况
三.分析内容
(一)产品角度
1.成交总量
图1:所有商品总销售量随时间变化情况
图2:所有商品每年销售量按月分布情况
从上面两个图可以看出,每月的销售量同比都在增加,说明平台的销售量每年都在增长的。每年中的11月份销量达到最大,每年的5月也是一个高峰期。每年的2月销量是一年中最低的(因为2015年2月份只有1~5号的数据,所以2015年2月的销量很低)
接下来分析11月和5月销量增大以及2月份销量下滑的原因
先使用多维度拆解分析方法,对总销售量这个指标进行拆解,按照指标构成进行拆解。总销售量=用户单次购买量,这里面其实有两个变量,用户单次购买数量和购买次数
再用假设检验分析方法,来逐个验证是哪个指标影响了总销售量
先假设是用户单次购买数量造成了销售量的波动,即用户在11月和5月单次购买数量增长很多。在2月单次购买数量下降很多,求出每个月用户单次购买数量的平均值,得出:
图3:用户每月单次平均购买量
可以看出婴儿的平均购买量为2.54,整体看来波动并不是很大,所以总销售量的波动原因不是用户的单次购买数量波动造成的
接下来假设总销量的变动是购买次数引起的,将所有用户购买次数按月分布,得到:
图4:用户购买次数按月分布情况
可以看出,购买次数在11月有较大增长,2月达到每年的最低,购买次数与总销售量的波动是一致的,可以判断出销售量的波动是由购买次数的波动造成的。所以在分析销量波动原因的时候可以分析购买次数的波动原因
下面分析11月份购买次数增加的原因
将2012~2014每年11月份的购买次数用折线图绘制出来,得到:
图5:用户2012~2014年11月份购买次数
可以看出,每年的11月11日的购买次数激增,当天的购买次数都远超当年日平均购买次数,并且每年的增长幅度逐渐增大。这是因为淘宝天猫在做双十一促销活动,所以这一天的购买次数特别高,并且随着双十一购物节深入人心以及经济的增长,每年的购买力度涨幅也逐年增大
同样将2013~2014年5月份每天的购买次数展示出来,得到下图:
图6:2013~2014年5月份每天购买次数分布情况
可以看出,2013和2014年5月的购买次数基本都在每年日平均购买次数上面,这说明5月份的购买次数之和将在全年购买次数分布中是一个小高峰
两条5月的购买次数每天的走势基本是一致的,三次增长的时间和原因如下:
下面分析每年2月份购买次数下降的原因
将2013~2015年每年的1~2月份每天的购买次数展示出来,得到
图7:2013~2015每年1~2月份每天的购买次数分布情况
可以看出,2013和2014年1~2月的购买次数基本都在全年日平均购买次数下面,这两个月的购买次数总和在全年分布中将是一个谷底
再看购买次数最低的时间和原因
2015年春节是在2月19日,原数据中只有到2月5日的数据,可以看出2015年的购买次数还未出现较大下滑。如果数据完整,可以合理预计2月19日的购买次数也是最低点
对购买次数指标再进行拆解,购买次数中包含了新用户购买次数和老用户购买次数,那么购买次数的变化主要是新用户带来的,还是老用户带来的
因为数据有限,我们假设在已有的购买记录中,第一次出现的用户ID都为新用户,第二次及之后出现的用户为老用户,将新老用户购买次数按月展示出来,得到:
图8:新老用户购买次数按月分布情况
可以看出,老用户购买次数极少。因为活跃用户数=新用户购买人数+老用户购买人数(极少),所以活跃用户数约等于新用户购买人数了。老用户购买次数极少也就说明了复购用户数极少,这个要结合更多的信息去判断原因,比如是不是这几种商品类别都是耐用品,不需要多次购买。如果是易耗品的话,复购用户这么少,就需要商家提高产品粘性
总成交量的变化不是由用户单次购买量引起的,因为用户平均单次购买量比较平稳。那么对于不同的商品类别,用户单次购买量是否同样比较平稳呢?将每种商品类别的季度婴儿平均购买量展示出来,得到:
图9:每种商品类别婴儿平均购买量(按季度)
具体到某一类别的商品,季度平均购买量有着不同的增减趋势
下图能比较清晰地展示以上分析过程
2.热销产品,销量最少的产品
图10:各商品类别销售量
可以看出,商品类别28的销量最多,此商品类别可能是易耗品,也可能是婴儿必需品,商品类别122650008销量最少,此类别商品可能是耐用品,也可能是非必需品,需要结合更多信息进行分析。另外也需要看销量最低的商品是否有质量问题,或者产品不符合用户需求,据此进行改善
(二)用户角度
1.男女婴儿购买商品差异情况
图11:男女婴儿购买商品总数量情况
图12:男女婴儿不同商品类别购买数量分布情况
从上面两个图可以看出,女婴儿对商品的总购买量是大于男婴儿的,整体比男婴儿购买量多出66%。在商品类别喜好上,女婴儿购买50008168和50014815最多,男婴儿购买28和50008168最多。其中50014815类别的商品女婴儿的需求量远大于男婴儿,这个商品类别可能是以女婴儿为目标用户
2.不同年龄段婴儿购买商品差异情况
图13:不同年龄段婴儿商品购买数量差异
可以看出,0~3岁婴儿购买数量最多,-1~5岁,每个年龄婴儿对不同类别商品的购买量展示出来,得到:
图14:-1~5岁各年龄婴儿对不同商品类别的购买量分布情况
可以看出,这几种商品类别,基本都是在0~1岁婴儿中销售量最多。0岁婴儿购买50014815商品类别最多。
四.结论与建议
从以上的分析中,可以得出以下结论及建议:
1.总成交量的变化是由新用户的购买次数变化引起的,购买次数的变化对大型节日比较敏感,而对周末的休息日不敏感。复购用户极少,如果是耐用品,复购用户数少是可以理解的。如果是易耗品,商家应寻找原因并改进
2.商品类别38的平均需求量呈上升趋势,商家应根据新用户数和平均需求量的增长情况预计未来的总需求量,以备足库存。商品类别50014815的平均需求量在下降,商家应分析下降原因进行改善或停售
3.热销商品类别是28,商家应继续保持宣传促销。销量最低的商品类别是122650008,商家应分析原因进行改善或停售
4.女婴儿的商品需求量整体要比男婴儿多出66%,并且男女在各个商品类别上的需求也有差异。商家应根据商品类别男女婴儿需求差异,进行差别化的营销策略
5.0~3岁婴儿的商品购买量最多,不同商品类别在不同年龄段的销售量也不一样,商家应采取适龄儿童营销策略