将观看时长作为连续值预测,会带来“回归问题”,即会放大对异常值和潜在预测偏差的敏感性,常见的一种方法是把时长分段转为分类问题来预估,CREAD正是提出了一种回归转分类的处理方法。
CREAD的流程如下图所示,把观看时长分为M个桶,在每个桶内预估 P(y>t|x)的概率
经过推导可以得到最后的观看时长计算方法:
论文亮点:
1. 对时长分桶预估之后不仅有分类损失,还加了两个类似保序回归的损失:
loss包含3个部分:
(1) classification loss
(2)restoration loss
论文指出这里采用了Huber loss
(3)保序loss
2. 目前常用的分桶方法是等频分桶和等距分桶,等频分桶的缺点是尾部桶距过大放大恢复误差,等距分桶的缺点是尾部桶内样本过少导致学习误差过大,CREAD提出一种平衡等距分桶和等频分桶误差方法的分桶方法
参考资料:
https://zhuanlan.zhihu.com/p/678883395
https://arxiv.org/pdf/2401.07521