【烂笔头系列】计算广告笔记14-点击率预测模型

news/2025/2/9 12:58:31/文章来源:https://www.cnblogs.com/notlate-cn/p/18706020

点击率预测模型

点击率:把点击事件h看成一个二元取值的随机变量,取值为真(h=1)的概率就是点击率

点击事件分布:表示成以点击率μ为参数的二项分布

点击率基础模型:逻辑回归(LR),在(a,u,c)组合与点击率μ之间建立函数关系,表示成对μ(a,u,c)=p(h=1|a,u,c)的概率建模问题

  • LR正是当目标值的分布服从伯努利分布时广义线性模型的特例,映射函数是logit(t)=log
  • L2-norm避免过拟合

LR模型优化

  • 梯度下降法
  • L-BFGS
  • 置信域法

工业界常用模型训练思路

  • 1.降低模型训练次数,通过特征侧的方法捕捉信号的快速变化
  • 2.增量求解,降低模型收敛所需的迭代次数
  • 3.精心设计最优化算法如ADMM,降低模型收敛所需的迭代次数

点击率模型的矫正:正负样本不平衡可能带来预估模型的偏差,原因如下:

  • 高斯分布方差的最大似然估计是有偏的(为了得到方差的无偏估计,需要将样本数目-1来计算方差)
  • 偏差的方向是对方差有所低估,且样本数目越少,低估越严重。
  • 由于正样本(h=1)远远小于负样本(h=0)的数据量,对前者的低估更严重。

其他点击率预估模型

  • 因子分解机FM
  • GBDT
  • 深度学习点击率预估模型

探索与利用

  • α贪婪法

    • 决策过程

      • 总是用比例为α的小部分流量做探索,在探索流量上随机选择A个广告中的1个;
      • 在剩余1-α比例的流量上,总是选择经验收益最高的那个。
  • 置信上界(UCB)方法

    • 概念:每次投放时,不但简单的选择经验最优广告,而且考虑到经验估计的不确定性,进而选择估计值有可能达到的上界最大的那个广告

    • UCB决策过程

      • 1.根据过去的观测值,利用某概率模型计算出每个a的期望回报的UCB
      • 2.选择UCB最大的a
    • UCB计算方法

  • 考虑上下文的bandit

    • LinUCB方法

点击率模型特征

基本特征:广告侧特征、用户侧特征、上下文特征

特征的非线性化

  • 特征离散化:将连续特征切成一组分区,当特征值落在某个区间时,对应区间离散特征值标1,否则标0
  • 引入特征的非线性变化,如平方、平方根、log等

特征组合

  • 静态特征组合:用户侧、广告侧、上下文侧的标签组合,如性别和地点、广告主题和性别等
  • 动态特征组合:如用户对某个广告的历史点击率,即当某个组合特征被触发时,不再标为1,而是使用历史点击率作为特征值

偏差特征

  • 常见的偏差特征包括广告位位置、广告位尺寸、广告投放延迟、日期和时间、浏览器

  • 如何消除?CoEC

    • 期望点击

      • 概念:将某广告位相当长一段时间内的平均点击数作为其关注程度的近似估计
      • 评估对象:在广告质量完全随机的情况下,广告位或其他属性对应的平均点击率
    • 偏差模型:从数据中近似学习除期望点击的方法是只用那些偏差因素作为特征,训练一个点击率模型,称为偏差模型

    • CoEC:归一化点击率指标,即点击与期望点击的比值

点击反馈的平滑

  • 当使用点击率或CoEC特征时,若展示数较小,可在分子和分母上各加上一个常数进行平滑

点击率模型评价

准确率Precision / 召回率Recall(PR):PR曲线下方面积无意义

ROC / AUC:把ROC曲线下的面积称为曲线下方面积(AUC),有明确的物理意义,在一定程度上能表征了对h=0和h=1事件估计值排序的正确性,是常用的量化指标

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/881206.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【烂笔头系列】推荐系统笔记10-经典深度学习推荐模型

特征组合和特征交叉问题非常常见,特征的种类非常多,特征交叉的复杂程度也要大得多。解决这类问题的关键,就是模型对于特征组合和特征交叉的学习能力,因为它决定了模型对于未知特征组合样本的预测能力,而这对于复杂的推荐问题来说,是决定其推荐效果的关键点之一。 那特征交…

【烂笔头系列】推荐系统笔记09-深度学习推荐模型发展脉络

1. 深度学习模型拟合能力更强 特征交叉方式中,点积等方式过于简单,在样本数据比较复杂的情况下,容易欠拟合。而深度学习可以大大提高模型的拟合能力,比如在 NeuralCF(神经网络协同过滤)模型中,点积层被替换为多层神经网络,理论上多层神经网络具备拟合任意函数的能力,所…

【烂笔头系列】推荐系统笔记12-模型评估

1. 离线评估 (1)介绍 离线评估是最常用、最基本的。顾名思义就是:我们将模型部署于线上环境之前,在离线环境下进行的评估。由于不用部署到生产环境,“离线评估”没有线上部署的工程风险,也不会浪费宝贵的线上流量资源,而且具有测试时间短,可多组并行,以及能够利用丰富…

【烂笔头系列】推荐系统笔记05-Embedding技术

1. Embedding是什么 Embedding 就是用一个数值向量“表示”一个对象(Object)的方法解读1:左边例子,从 king 到 queen 的向量和从 man 到 woman 的向量,无论从方向还是尺度来说它们都非常接近。 解读2:右边例子也很典型,从 walking 到 walked 和从 swimming 到 swam 的向…

【烂笔头系列】推荐系统笔记04-推荐系统有哪些可以利用的特征

1. 特征与工程 (1)特征就是对具体行为的抽象,但是抽象过程会造成信息的损失 ① 因为具体的推荐行为和场景中包含大量原始的场景、图片和状态信息,保存所有信息的存储空间过大,我们根本无法实现。 ② 因为具体的推荐场景中包含大量冗余的、无用的信息,把它们都考虑进来甚至…

1.AI 大模型的基本概念

1.目前AI 行业分类 2023年, AI 分 传统AI(机器学习、深度学习、强化学习) AI算法工程师 AI大模型(AI2.0)神经网络,自注意机制,Transform机制 AI应用开发工程师 2.什么是AI 大模型(LLM) 参数大,训练的数据集大 3.AI大模型最终价值 TOB 和 TOC 的应用 4.A…

【烂笔头系列】小红书推荐系统学习笔记06-冷启动

物品冷启动评价指标 物品冷启动目标精准推荐:新物品的推荐效果往往比较差 激励发布:新物品得到较多流量后,更容易激励作者。 挖掘高潜:从新物品中挖掘高质量物品。评价指标作者指标:发布渗透量、人均发布量等 用户指标:新笔记的交互率、大盘指标(比如日活、月活、时长)…

【烂笔头系列】小红书推荐系统学习笔记05-重排

重排是精排的后处理操作。 物品多样性 相似度度量基于物品属性标签基于物品向量表征 (1)双塔模型的物品塔,但是因为头部效应问题导致学不好物品向量表征 (2)基于图文内容学习CLIP - 基于图文内容的物品向量表征 原理 对于图片-文本二元组数据进行对比学习,预测图文是否匹…

小红书推荐系统学习笔记02-排序

精排 - 多目标模型 简单的多目标模型 模型结构损失函数和训练问题 数据集通常是类别及不平衡的,比如总共1000次曝光,其中只有100次点击,10次收藏,收藏次数对于曝光来说相差极大。 解决方案:通常使用负样本降采样的方法。 预估校准:负样本降采样之后,就改变了各个目标的实…

【烂笔头系列】小红书推荐系统学习笔记04-行为序列

简单平均 lastN特征 把用户最近n次交互的物品Embedding向量取平均,作为一个用户特征使用。 适用于召回双塔模型、粗排三塔模型、精排模型。 DIN 原理 本质:用加权平均代替平均,也就是注意力机制。注意力机制不适用于召回双塔和粗排三塔。因为需要用到候选物品,而用户塔看不…

dp 大典

作为 OI 里面分支最多的模块之一,dp 在 OI 中有着重要的作用,现在,让我们一起走进 dp 的世界: 注:我在每道题前面都标注了个人难度,范围大概是 \([1,50]\) 吧( AT_dp 系列 众所周知,Atcoder 中有一套全是 dp 的题目,难度大致逐渐增加,我们可以从中学到很多 dp 的知识…

htb Precious walkthrough

找到exp https://github.com/UNICORDev/exploit-CVE-2022-25765/blob/main/exploit-CVE-2022-25765.py 这个exp是有问题的 直接执行exp是没反应把他的payload cp出来手动粘贴到 框框里 然后就反弹shell成功flag在另一个用户里面 进过一番查找 在家目录的.bundle里的文件发现了…