Born to be proud
5/27
2018

推荐系统笔记

基于物品的协同过滤推荐算法

  1. 根据行为列表,计算用户、物品评分矩阵
  2. 根据用户物品评分矩阵,计算物品物品相似度矩阵
  3. 物品物品相似度矩阵 * 用户物品评分矩阵 = 推荐列表
  4. 推荐列表中,用户之前有过的行为置0

基于用户的协同过滤推荐算法

  1. 根据行为列表,计算物品、用户评分矩阵
  2. 根据用户物品评分矩阵,计算用户用户相似度矩阵
  3. 用户用户相似度矩阵 * 物品用户评分矩阵 = 推荐列表
  4. 推荐列表中,用户之前有过的行为置0

5/10
2018

特征工程

根据特征来源分类

  • 场景: 当时场景,如何时何地,使用何种设备,使用什么浏览器等
  • 广告: 包括广告主特征,广告自身的特征如campaign、创意、类型,是否重定向等
  • 媒体: 包括媒体(网页、app等)的特征、广告位的特征等
  • 用户: 包括用户画像,用户浏览历史等

根据特征取值分类

连续(continuous)特征

连续特征 除了归一化(去中心,方差归一),不用做太多特殊处理,可以直接把连续特征扔到模型里使用。

4/14
2018

计算广告

LR

  1. 变量范围是[-∞ ,+∞];同时和其他“广义线性回归”相比,值域是[0,1],因此形式上类似一个概率函数,适合分类问题;
  2. 可扩展性好,适合海量的特征;训练工具多样、可选
  3. online learning,能够进行增量学习;
  4. 线性模型,解释性强。当出现很大的波动(如发现某一天的预测结果非常差)时,这样的模型方便查找原因,越简单,解释性越好,就越方便debug

这些优点都让logisticregression在做ctr预估的时候特别有优势,尤其是可扩展性,可以简单地增加特征,不需要太多的工作。

3/29
2018

Spark 笔记

Spark 特点

  • Spark是快速的. Spark是基于内存的计算,扩充了MapReduce.
  • Spark是通用的.容纳了其他分布式系统的功能.批处理,迭代计算,交互查询和流处理.降低了维护成本.
  • Spark是高度开放的.提供了JAVA,Python,Scala,SQL的API和丰富的内置库.和其他大数据工具整合很好,hadoop,kafca.

Spark 组件

  • Spark Core
  • Spark SQL
  • Spark Streaming
  • Spark Mlib
  • Spark Graphx
  • Cluster Manager

Spark 组件紧密集成的优点

  • Spark底层优化了,基于Spark底层的组件,也得到相应的优化
  • 节省了各组件部署,测试时间
  • 向Spark增加新组件时,其他组件可立即共享新组件功能