Born to be proud
4/14
2018

计算广告

LR

  1. 变量范围是[-∞ ,+∞];同时和其他“广义线性回归”相比,值域是[0,1],因此形式上类似一个概率函数,适合分类问题;
  2. 可扩展性好,适合海量的特征;训练工具多样、可选
  3. online learning,能够进行增量学习;
  4. 线性模型,解释性强。当出现很大的波动(如发现某一天的预测结果非常差)时,这样的模型方便查找原因,越简单,解释性越好,就越方便debug

这些优点都让logisticregression在做ctr预估的时候特别有优势,尤其是可扩展性,可以简单地增加特征,不需要太多的工作。

FM

GBDT

MLR

DNN

商业模式

1.CPM,按展现付费,品牌广告
2.CPC,按点击付费,效果广告
3.CPA,按转化付费,效果广告
4.CPS,按销售分成,效果广告

算分排序

算分排序这个东西能综合考虑老板和用户的需求,具体操作方式是,一个用户来了,对于想向这个用户投的广告,都打一个分,根据这个分进行倒排序,排在最前面的广告就是对这两方最合适的广告。

Score=bid*ctr
- bid表示广告的出价
- ctr的含义比较丰富
  既表示了用户对广告的喜欢程度
  也表示了广告的质量
  还表示了这个广告的期望的点击率
  还希望这个ctr跟广告真实的点击率也是一致的

算分排序平衡了老板与用户的需求,也就平衡了收益和用户体验。

扣费方法

  • 广义一阶价格(GFP): 广告主开多少价,在广告投放后就收多少钱。
  • 广义二阶价格(GSP): 一个广告支付的钱是排在下一个位置的广告的出价

相关概念

  • 广告组
  • 广告计划:管理关键词/创意的单位。
  • 广告创意:广告展现的最终形式,包括创意素材、创意标题、附加创意、应用来源等。

FTRL 算法

FTRL 是综合了OGD的精度和RDA的稀疏性,适合在线增量学习,在处理诸如逻辑回归之类的带非光滑正则化项(例如1范数,做模型复杂度控制和稀疏化)的凸优化问题上性能非常出色。
img

AUC

  • 横轴:False Positive Rate(假阳率)FPR=FP/(TN+FP)
  • 纵轴:True Positive Rate(真阳率)TPR=TP/(TP+FN)

  • 为什么用AUC

    因为ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化。AUC对样本的比例变化有一定的容忍性。AUC的值通常在0.6-0.85之间。

学术与工程的区别

img