【促销定价】背后的算法技术3-数据挖掘分析

【促销定价】背后的算法技术3-数据挖掘分析

    • 01 整体分析
      • 1)整体概览
      • 2)类别型特征概览
      • 3)数值型特征概览
    • 02 聚合分析
      • 1)天维度
      • 2)品维度
      • 3)价格维度
      • 4)数量维度
    • 03 相关分析
      • 1)1级品类
      • 2)2级品类
      • 3)3级品类
      • 4)sku
    • 04 聚类分析
    • 05 核心结论
    • 06 小结
      • 参考文献

导读:在日常生活中,我们经常会遇见线上/线下商家推出各类打折、满减、赠品、新人价、优惠券、捆绑销售等促销活动。一次成功的促销对于消费者和商家来说是双赢的。一方面,促销活动能让消费者买到低价的商品;另一方面,促销活动也能为商家带来可观的利润。因此,对于商家来说,如何科学合理地制定促销策略是必须仔细思考的问题。


作者1:张哲铭,算法专家,某互联网大厂
作者2:向杜兵,算法专家,某制造业龙头


大家好!我们是IndustryOR团队,致力于分享业界落地的OR+AI技术。欢迎关注微信公众号/知乎【运筹匠心】 。本期我们来谈一谈《促销定价背后的算法技术》。促销活动五花八门、玩法多变,但其底层的核心商业逻辑是“价格”。因此,本期案例将选择某零售商超“促销定价”场景,共分5篇文章依次讲解:(1)业务问题拆解;(2)数据预处理生成;(3)数据挖掘分析;(4)模型算法实现-价格弹性模型;(5)模型算法实现-运筹决策模型。

本篇文章讲解(3)数据挖掘分析

共分为4个部分,依次为:
01 整体分析
02 聚合分析
03 相关分析
04 聚类分析
05 核心结论

注:本案例数据改编自【2019年全国大学生数学建模E题】公开数据集。

01 整体分析

经过(2)数据预处理生成,我们将订单中的SKU销量聚合至日维度,生成了待分析求解的促销定价数据大宽表(promotional_pricing_data1.csv),表结构如下:

  • 促销定价数据大宽表
字段含义
sku_id商品ID
sku_name商品名称
ori_prc原价
sale_prc售价
cost_prc成本价
sku_cnt销量
cate1_id一级类目id
cate2_id二级类目id
cate3_id三级类目id
cate1_name一级类目名称
cate2_name二级类目名称
cate3_name三级类目名称
sale_dt销售日期

1)整体概览

图片图片

我们发现,经过(2)数据预处理生成加工后的数据集共有1105365条样本,无空值。

2)类别型特征概览

图片类别型特征

3)数值型特征概览

图片我们发现,数据共有3187种sku,1级品类26种、2级品类156种、3级品类565种。75%的商品售价不高于18.8、日销量不超过4个,但也有超过千元的高价品和销量过千的高销品。


02 聚合分析

为了进一步挖掘数据,我们分别在天维度、品维度、价格维度和数量维度对数据进行聚合分析。

1)天维度

统计每日的销量、GMV(销售额)、成本、毛利额、折扣率等信息,画出趋势图。

# 各日期下的销量、GMV(销售额)、成本、毛利额、折扣率等  
data_df['gmv'] = data_df['sale_prc'] * data_df['sale_cnt']  
data_df['cost'] = data_df['cost_prc'] * data_df['sale_cnt']  
data_df['profit'] = data_df['gmv'] - data_df['cost']  
data_df['discount'] = 1 - data_df['sale_prc'] / data_df['ori_prc']  
data_df['discount_amount'] = data_df['ori_prc'] - data_df['sale_prc']  
ret_df = IOR_DP.group_agg(df=data_df,   grp_cols=['sale_dt'],   agg_dict={'sale_cnt': 'sum', 'gmv': 'sum', 'cost': 'sum',  'profit': 'sum', 'discount': 'mean'})  
ret_df['profit_ratio'] = ret_df['profit_sum'] /  ret_df['cost_sum']  
ret_df = ret_df.sort_values(by='sale_dt')  pic1 = ret_df.plot(x='sale_dt', y=['gmv_sum', 'cost_sum', 'profit_sum', 'sale_cnt_sum'],  secondary_y= 'sale_cnt_sum', title = '日gmv/成本/毛利额/销量趋势图',  kind='line', figsize=(20, 5), fontsize=18)  pic2 = ret_df.plot(x='sale_dt', y=['profit_ratio', 'profit_sum', 'sale_cnt_sum'],   secondary_y= 'profit_ratio', title = '日毛利率/毛利额/销量趋势图',  kind='line', figsize=(20, 5), fontsize=18)  pic3 = ret_df.plot(x='sale_dt', y=['discount_mean', 'sale_cnt_sum'], secondary_y= 'discount_mean',  title = '日平均折扣/销量趋势图', kind='line', figsize=(20, 5), fontsize=18)  plt.show([pic1, pic2, pic3])  

图片图片图片我们发现:

  • GMV、利润额与销量呈强正相关,销量越高,GMV、利润额越高。

  • 利润率与销量、利润额相关性不明显,有时利润率很低,但利润额很高;有时相反。这说明“降价促销”是存在赚钱的可能性的。

  • 折扣率与销量呈正相关,趋势相同,但并不是折扣率越高一定是销量越高,如:商家在5.4后大幅调低整体折扣,但销量不降反升。这说明精细化定价是可行的,在合理的折扣区间制定高销的价格,增加GMV和利润。

2)品维度

统计各级品类/sku下子品类宽度(子品类个数)、sku宽度(个数)、sku总销量、sku价格等信息,画出分布图。由于篇幅有限,这里只列出sku维度下相关代码。

# 各sku历史价格数/总销量/日售价均值/售卖天数/日均销量分布  
ret_df = IOR_DP.group_agg(df=data_df,   grp_cols=['sku_id', 'sku_name'],   agg_dict={'sale_cnt': 'sum', 'sale_prc':  ['nunique', 'max', 'min', 'mean'],   'ori_prc': ['nunique', 'max', 'min', 'mean'], 'cost_prc':  ['nunique', 'max', 'min', 'mean']},  sort_dict={'sale_cnt_sum': 'desc'})  
ret_df = ret_df.head(50)  
pic1 = ret_df.plot(x='sku_name', y=['sale_prc_nunique', 'sale_cnt_sum'],  secondary_y= 'sale_cnt_sum', title = 'Top50总销量的sku的历史价格数/总销量(降序)分布',  kind='bar', figsize=(20, 5), fontsize=18)  top_sku = ret_df['sku_name']  
ret_df = IOR_DP.group_agg(df=data_df, grp_cols=['sku_id', 'sku_name'], agg_dict={ 'sale_dt': 'count',  'sale_cnt': 'mean'},  sort_dict={'sale_cnt_mean': 'desc'})  
ret_df = pd.merge(left=ret_df, right=top_sku, how='inner', on=['sku_name'])  
pic2 = ret_df.plot(x='sku_name', y=['sale_dt_count', 'sale_cnt_mean'], secondary_y= 'sale_cnt_mean',  title = 'Top50总销量的sku的历史售卖天数/日均销量(降序)分布',  kind='bar', figsize=(20, 5), fontsize=18)  ret_df = IOR_DP.group_agg(df=data_df,   grp_cols=['sale_dt', 'sku_name'],   agg_dict={ 'sale_prc': 'mean'},  sort_dict={'sale_dt': 'asc'})  
ret_df = pd.merge(left=ret_df, right=top_sku, how='inner', on=['sku_name'])  
ret_df = ret_df.pivot_table(values='sale_prc_mean', index='sale_dt', columns='sku_name').reset_index()  
pic3 = ret_df.plot(title = 'Top50总销量的sku日均售价均值分布', kind='box', rot=90, showfliers=False, figsize=(20, 5), fontsize=18)  plt.xlabel('sku_name')  
plt.show([pic1, pic2, pic3])  

图片图片图片图片图片图片图片我们发现:

  • 不同品类下的子品类和sku数量差异较大。以3级品类下sku数为例:最少1个,最多63个,中位值3个;

  • 不同sku的价格带不同。以售价均值为例:最小0.8元,最大1100元,中位值13.80元。这说明定价时每个sku的价格区间需要精细化制定

3)价格维度

统计不同价格区间下sku宽度、总销量、总gmv、总成本、总毛利,画出分布图。

ret_df = data_df[['sale_prc', 'sku_name', 'sale_cnt', 'gmv', 'cost', 'profit']]  
ret_df['sale_prc_range'] = pd.cut(ret_df['sale_prc'], bins)  
ret_df = IOR_DP.group_agg(df=ret_df,   grp_cols=['sale_prc_range'],   agg_dict={'sku_name': 'nunique', 'sale_cnt': 'sum', 'gmv': 'sum', 'cost': 'sum', 'profit': 'sum'},  sort_dict={'sale_prc_range': 'asc'})  
ret_df = ret_df.rename(columns={'sku_name_nunique':'sku_cnt'})  
pic1 = ret_df.plot(x='sale_prc_range', y=['sku_cnt', 'sale_cnt_sum', 'gmv_sum', 'cost_sum', 'profit_sum'],   secondary_y = 'sku_cnt', kind='bar', title='不同价格区间下sku宽度/销量/GMV/成本/毛利分布',   figsize=(20, 5), fontsize=18)  
plt.show(pic1)  

图片我们发现,绝大部分sku的价格分布在20元以下,5-10元区间的sku占比最多。

4)数量维度

分别统计不同历史售卖天数和不同历史价格数下的sku宽度分布,画出分布图。

# 不同历史售卖天数下sku宽度分布  
ret_df = IOR_DP.group_agg(df=data_df, grp_cols=['sku_id', 'sku_name'], agg_dict={ 'sale_dt': 'count'})  
ret_df = IOR_DP.group_agg(df=ret_df, grp_cols=['sale_dt_count'], agg_dict={ 'sku_id': 'count'}, sort_dict={'sale_dt_count':'asc'})  
ret_df = ret_df.head(70)  
pic1 = ret_df.plot(x='sale_dt_count', y='sku_id_count', kind='bar',   title='不同历史售卖天数下sku宽度分布', figsize=(20, 5), fontsize=18)  
plt.show(pic1)  
# 不同历史价格数下sku宽度分布  
ret_df = IOR_DP.group_agg(df=data_df, grp_cols=['sku_id', 'sku_name'], agg_dict={ 'sale_prc': 'nunique'})  
ret_df = IOR_DP.group_agg(df=ret_df, grp_cols=['sale_prc_nunique'], agg_dict={ 'sku_id': 'count'}, sort_dict={'sale_prc_nunique':'asc'})  
pic1 = ret_df.plot(x='sale_prc_nunique', y='sku_id_count', kind='bar',   title='不同历史价格数下sku宽度分布', figsize=(20, 5), fontsize=18)  
plt.show(pic1)  

图片图片

我们发现:不同sku的历史价格数量不同,绝大部分的sku历史价格数量只有1个。针对该现象需要进一步分析,有2种可能:

  • 这部分商品为低价格弹性商品,即价格改变不会引起销量的变化

  • 这部分商品是高价格弹性商品,但商家未进行太多的促销价格尝试,这会导致这部分商品精细化定价时样本不足,需要思考如何解决该问题。


03 相关分析

针对1级品类/2级品类/3级品类/sku,分别计算售价/折扣比例/折扣额与日销量间的pearson相关性系数,画出分布图。

1)1级品类

cate_level = 'cate1_name'  
corr_df = cal_corr_by_cate(data_df, cate_level = cate_level)  
feature_cols = list(corr_df.columns)[1:]  
corr_df = corr_df.sort_values(by=feature_cols, ascending=[True] * len(feature_cols))  
pic1 = corr_df.plot(x=cate_level, y=feature_cols, title = '1级品类售价/折扣比例/折扣额与日销量相关性',  kind='bar', figsize=(20, 5), fontsize=18)  

图片

2)2级品类

cate_level = 'cate2_name'  
ret_df = IOR_DP.group_agg(df=data_df,   grp_cols=[cate_level],   agg_dict={'sale_cnt': 'sum'},  sort_dict={'sale_cnt_sum': 'desc'})  
ret_df = ret_df.head(50)  
corr_df = cal_corr_by_cate(data_df, cate_level = cate_level)  
corr_df = pd.merge(left=ret_df, right=corr_df, how='inner', on=[cate_level])  
feature_cols = list(corr_df.columns)[2:]  
corr_df = corr_df.sort_values(by=feature_cols, ascending=[True] * len(feature_cols))  
pic1 = corr_df.plot(x=cate_level, y=feature_cols, title = 'Top50销量的2级品类售价/折扣比例/折扣额与日销量相关性',  kind='bar', figsize=(20, 5), fontsize=18)  

图片

3)3级品类

cate_level = 'cate3_name'  
ret_df = IOR_DP.group_agg(df=data_df,   grp_cols=[cate_level],   agg_dict={'sale_cnt': 'sum'},  sort_dict={'sale_cnt_sum': 'desc'})  
ret_df = ret_df.head(50)  
corr_df = cal_corr_by_cate(data_df, cate_level = cate_level)  
corr_df = pd.merge(left=ret_df, right=corr_df, how='inner', on=[cate_level])  
feature_cols = list(corr_df.columns)[2:]  
corr_df = corr_df.sort_values(by=feature_cols, ascending=[True] * len(feature_cols))  
pic1 = corr_df.plot(x=cate_level, y=feature_cols, title = 'Top50销量的3级品类售价/折扣比例/折扣额与日销量相关性',  kind='bar', figsize=(20, 5), fontsize=18)  

图片

4)sku

cate_level = 'sku_name'  
ret_df = IOR_DP.group_agg(df=data_df,   grp_cols=[cate_level],   agg_dict={'sale_cnt': 'sum'},  sort_dict={'sale_cnt_sum': 'desc'})  
ret_df = ret_df.head(50)  
corr_df = cal_corr_by_cate(data_df, cate_level = cate_level)  
corr_df = pd.merge(left=ret_df, right=corr_df, how='inner', on=[cate_level])  
feature_cols = list(corr_df.columns)[2:]  
corr_df = corr_df.sort_values(by=feature_cols, ascending=[True] * len(feature_cols))  
pic1 = corr_df.plot(x=cate_level, y=feature_cols, title = 'Top50销量的sku售价/折扣比例/折扣额与日销量相关性',  kind='bar', figsize=(20, 5), fontsize=18)  

图片

我们发现,不同品类/sku的售价/折扣比例/折扣额与日销量间相关性差异极大。如:

  • 对于可口可乐、散装东北大米等长保质期商品来说,售价越低/折扣比例越大/折扣额越大,销量越高。可能是因为该类商品可以囤货。

  • 对于进口香蕉、土鸡蛋等生鲜品来说,售价越低/折扣比例越大/折扣额越大,销量越高。可能是因为该类商品日常消耗较快。

  • 对于红枣风味酸牛奶等短保质期商品来说,售价越低,销量越高;折扣比例/折扣额和销量呈负相关,但相关性不大。可能是因为该类商品一旦打折就意味着临近保质期,大家不愿意购买。

  • 对于伊利高钙奶等高品质商品来说,则售价越高,销量越高,但相关性不大。可能是因为该类商品价格越高品质越佳。

因此,在促销定价时,需要根据不同的sku制定不同的定价策略


04 聚类分析

根据03节计算出来的3级品类平均售价/折扣比例/折扣额与日销量间的相关性系数,对3级品类进行聚类,画出聚类图。

cate_level = 'cate3_name'  
corr_df = cal_corr_by_cate(data_df, cate_level = cate_level)  
n_clusters = 4  
x_cols = list(corr_df.columns)[1:]  
x_df = corr_df[x_cols]  
from sklearn.cluster import KMeans#导入聚类模型  
model1=KMeans(n_clusters=n_clusters, n_init=1000).fit(x_df)#聚成3类传入自变量  
model1.labels_.size  
corr_df['label']=model1.labels_  # 3D  
fig =plt.figure(figsize=(20, 10))  
ax = Axes3D(fig)  
pic2 = ax.scatter(xs=corr_df['sale_prc&&sale_cnt'], ys=corr_df['discount&&sale_cnt'], cmap='jet',  zs=corr_df['discount_amount&&sale_cnt'], c = corr_df['label'], alpha=1)  
ax.set_xlabel('sale_prc&&sale_cnt', color='r')  
ax.set_ylabel('discount&&sale_cnt', color='g')  
ax.set_zlabel('discount_amount&&sale_cnt', color='b')  
plt.title('售价/折扣比例/折扣额与日销量相关性分类图')  
plt.show(pic2)  

图片图片经过实验我们发现,聚4类即可将样本较好的分开,聚类结果也符合业务常识。详情如下:

  • label=0分类的3级品类,平均售价与日销量弱负相关,折扣比例/折扣额与日销量弱正相关,多为保质期较长,购物频次一般的品类,如:‘一次性内裤’, ‘丸类’, ‘乌龙茶饮品’, ‘冰冻贝类’, '冰淇淋’等。

  • label=1分类的3级品类,平均售价与日销量强负相关,折扣比例/折扣额与日销量强正相关,多为保质期较短,购物频次较高的品类,如:‘中式点心’, ‘低温加味牛奶’, ‘可乐’, ‘叶菜类蔬菜’, ‘吐司类’, ‘国产季节性水果’, ‘国产梨类’ '婴儿卫生用品’等。

  • label=2分类的3级品类,平均售价与日销量强负相关,折扣比例/折扣额与日销量强不相关,多为购物频次一般,但平时很少有折扣促销的品类,如:‘其他冲饮粉’, ‘其他肉干’, ‘其他进口洋酒’, ‘名酒’, '味精’等。

  • label=3分类的3级品类,平均售价/折扣比例/折扣额与日销量强均不相关,多为购物频次较低,平时也很少有折扣促销的品类,如:‘LED灯泡’, ‘一口酥/酥饼’, ‘一次性卫生筷’, ‘一次性塑料口杯’, ‘一次性手套’, ‘一次性纸口杯’, '一次性纸碗’等。


05 核心结论

综上诉说,我们利用数据挖掘技术,从各个维度较为全面的分析了数据的全貌,并深度挖掘了价格/折扣和销量之间的关系。最终,我们得到了一个核心结论:不同的sku的价格/折扣与销量之间的关系不同,促销定价做的越精细,效果越好。而精细化正是算法相较人工的优势所在。


06 小结

第一篇(业务问题拆解):我们把一个实际的促销定价问题拆解成了一系列的数学问题。

第二篇(数据预处理生成):我们选择了一份公开的促销定价数据集,将其加工成了可分析求解的数据。

本篇(数据挖掘分析):我们对数据进行了全方位的挖掘和分析,介绍了数据挖掘分析和可视化方法。敬请期待~~~

下一篇(价格弹性模型):我们将介绍如何利用价格弹性模型量化商品价格与销量的关系。敬请期待~~~


参考文献

  1. Hua J, Yan L, Xu H,et al. Markdowns in E-Commerce Fresh Retail: A Counterfactual Prediction and Multi-Period Optimization Approach[J]. arxiv, 2021.(https://arxiv.org/pdf/2105.08313.pdf)

  2. Kui Zhao, Junhao Hua, Ling Yan, et al. A Unified Framework for Marketing Budget Allocation[J]. arxiv, 20.(https://arxiv.org/pdf/1902.01128.pdf)

  3. 用相关系数进行Kmeans聚类,利用利润率、打折率、销售额、毛利润得到商品价格弹性标签,建立价格折扣力度模型(https://blog.csdn.net/weixin_45934622/article/details/114382037)

  4. 2019全国大学生数学建模竞赛讲评:“薄利多销”分析(https://dxs.moe.gov.cn/zx/a/hd_sxjm_sxjmstjp_2019sxjmstjp/210604/1699445.shtml)

  5. 策略算法工程师之路-基于线性规划的简单价格优化模型(https://zhuanlan.zhihu.com/p/145192690)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/512142.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从零开始学单片机,该怎么入门?

从零开始学单片机,该怎么入门? 在开始前我分享下我的经历,我刚入行时遇到一个好公司和师父,给了我机会,一年时间从3k薪资涨到18k的, 我师父给了一些 电气工程师学习方法和资料,让我不断提升自己…

jquery 后台返回的单选框按照两列展示

jquery代码 <!DOCTYPE html> <html><head><!-- <meta charset"GBK"> --><meta charset"UTF-8"><title></title></head><form><body><table id"myTable"> <tbody …

如何搭建Nacos集群

1.搭建Nacos集群 众所周知&#xff0c;在实际的工作中&#xff0c;Nacos的生成环境下一定要部署为集群状态 其中包含3个nacos节点&#xff0c;然后一个负载均衡器代理3个Nacos。这里负载均衡器可以使用nginx。 我们计划的集群结构&#xff1a; 我就直接在本机上开三个Nacos来搭…

五、mysql 数据库体系结构

目录 MySQL体系结构 一、MySQL的Server层有七个组件 1、MySQL 向外提供的交互接口&#xff08;Connectors&#xff09; 2、连接池组件&#xff08;Connection Pool&#xff09; 3、管理服务组件和工具组件&#xff08;Management Service & Utilities&#xff09; 4、…

金三银四,程序员如何备战面试季

金三银四&#xff0c;程序员如何备战面试季 一个人简介二前言三面试技巧分享3.1 自我介绍 四技术问题回答4.1 团队协作经验展示 五职业规划建议5.1 短期目标5.2 中长期目标 六后记 一个人简介 &#x1f3d8;️&#x1f3d8;️个人主页&#xff1a;以山河作礼。 &#x1f396;️…

2张图2秒钟3D重建!这款AI工具火爆GitHub,网友:忘掉Sora

只需2张图片&#xff0c;无需测量任何额外数据—— 当当&#xff0c;一个完整的3D小熊就有了&#xff1a; 这个名为DUSt3R的新工具&#xff0c;火得一塌糊涂&#xff0c;才上线没多久就登上GitHub热榜第二。 ▲image 有网友实测&#xff0c;拍两张照片&#xff0c;真的就重建…

uniapp微信小程序获取当前位置

uni-app微信小程序uni.getLocation获取位置&#xff1b;authorize scope.userLocation需要在app.json中声明permission&#xff1b;小程序用户拒绝授权后重新授权-CSDN博客

详解Java中集合的List接口实现的ArrayList方法 | Set接口实现的HashSet方法

集合的概念 当我们需要保存一组一样&#xff08;类型相同&#xff09;的元素的时候&#xff0c;我们应该使用一个容器来存储&#xff0c;数组就是这样一个容器。 ● 数组的特点&#xff1a; 数组是一组数据类型相同的元素集合&#xff1b; 创建数组时&#xff0c;必须给定…

Stable Diffusion 模型分享:3D Animation Diffusion(3D动漫)

本文收录于《AI绘画从入门到精通》专栏&#xff0c;专栏总目录&#xff1a;点这里。 文章目录 模型介绍生成案例案例一案例二案例三案例四案例五案例六案例七案例八 下载地址 模型介绍 3D Animation Diffusion 是 Lykon 大神的 3D 动漫模型。 作者述&#xff1a;在迪士尼、皮…

SPI相关知识总结

一、SPI 1.1SPI概念及通讯方式 SPI&#xff1a;串行外设设备接口&#xff08;Serial Peripheral Interface&#xff09;&#xff0c;是一种高速的&#xff0c;全双工&#xff0c;同步的通信总线 2.1 SPI框图 1.3.数据发送与接收流程 1.4 SPI工作模式 1&#xff09;时钟极…

【OpenGL编程手册08】 摄像机

一、说明 前面的教程中我们讨论了观察矩阵以及如何使用观察矩阵移动场景&#xff08;我们向后移动了一点&#xff09;。OpenGL本身没有摄像机(Camera)的概念&#xff0c;但我们可以通过把场景中的所有物体往相反方向移动的方式来模拟出摄像机&#xff0c;产生一种我们在移动的感…