Tag: 计算广告 | Jackie Liu's Blog

Jackie Liu's Blog

Born to be proud

2018

6/23

2018

逻辑回归&特征框架分享

Tech

5/27

2018

推荐系统笔记

Tech

基于物品的协同过滤推荐算法

根据行为列表，计算用户、物品评分矩阵
根据用户物品评分矩阵，计算物品物品相似度矩阵
物品物品相似度矩阵 * 用户物品评分矩阵 = 推荐列表
推荐列表中，用户之前有过的行为置0

基于用户的协同过滤推荐算法

根据行为列表，计算物品、用户评分矩阵
根据用户物品评分矩阵，计算用户用户相似度矩阵
用户用户相似度矩阵 * 物品用户评分矩阵 = 推荐列表
推荐列表中，用户之前有过的行为置0

5/10

2018

特征工程

Tech

根据特征来源分类

场景: 当时场景，如何时何地，使用何种设备，使用什么浏览器等
广告: 包括广告主特征，广告自身的特征如campaign、创意、类型，是否重定向等
媒体: 包括媒体(网页、app等)的特征、广告位的特征等
用户: 包括用户画像，用户浏览历史等

根据特征取值分类

连续（continuous）特征

连续特征除了归一化（去中心，方差归一），不用做太多特殊处理，可以直接把连续特征扔到模型里使用。

4/14

2018

计算广告

Tech

LR

变量范围是[-∞ ,+∞]；同时和其他“广义线性回归”相比，值域是[0,1]，因此形式上类似一个概率函数，适合分类问题；
可扩展性好，适合海量的特征；训练工具多样、可选
online learning，能够进行增量学习；
线性模型，解释性强。当出现很大的波动（如发现某一天的预测结果非常差）时，这样的模型方便查找原因，越简单，解释性越好，就越方便debug

这些优点都让logisticregression在做ctr预估的时候特别有优势，尤其是可扩展性，可以简单地增加特征，不需要太多的工作。

3/29

2018

Spark 笔记

Tech

Spark 特点

Spark是快速的. Spark是基于内存的计算，扩充了MapReduce.
Spark是通用的.容纳了其他分布式系统的功能.批处理，迭代计算，交互查询和流处理.降低了维护成本.
Spark是高度开放的.提供了JAVA,Python,Scala,SQL的API和丰富的内置库.和其他大数据工具整合很好,hadoop,kafca.

Spark 组件

Spark Core
Spark SQL
Spark Streaming
Spark Mlib
Spark Graphx
Cluster Manager

Spark 组件紧密集成的优点

Spark底层优化了，基于Spark底层的组件，也得到相应的优化

节省了各组件部署，测试时间

向Spark增加新组件时，其他组件可立即共享新组件功能

友情链接

Jackie Liu's Blog