Born to be proud
5/10
2018

特征工程

根据特征来源分类

  • 场景: 当时场景,如何时何地,使用何种设备,使用什么浏览器等
  • 广告: 包括广告主特征,广告自身的特征如campaign、创意、类型,是否重定向等
  • 媒体: 包括媒体(网页、app等)的特征、广告位的特征等
  • 用户: 包括用户画像,用户浏览历史等

根据特征取值分类

连续(continuous)特征

连续特征 除了归一化(去中心,方差归一),不用做太多特殊处理,可以直接把连续特征扔到模型里使用。

4/14
2018

计算广告

LR

  1. 变量范围是[-∞ ,+∞];同时和其他“广义线性回归”相比,值域是[0,1],因此形式上类似一个概率函数,适合分类问题;
  2. 可扩展性好,适合海量的特征;训练工具多样、可选
  3. online learning,能够进行增量学习;
  4. 线性模型,解释性强。当出现很大的波动(如发现某一天的预测结果非常差)时,这样的模型方便查找原因,越简单,解释性越好,就越方便debug

这些优点都让logisticregression在做ctr预估的时候特别有优势,尤其是可扩展性,可以简单地增加特征,不需要太多的工作。

3/29
2018

Spark 笔记

Spark 特点

  • Spark是快速的. Spark是基于内存的计算,扩充了MapReduce.
  • Spark是通用的.容纳了其他分布式系统的功能.批处理,迭代计算,交互查询和流处理.降低了维护成本.
  • Spark是高度开放的.提供了JAVA,Python,Scala,SQL的API和丰富的内置库.和其他大数据工具整合很好,hadoop,kafca.

Spark 组件

  • Spark Core
  • Spark SQL
  • Spark Streaming
  • Spark Mlib
  • Spark Graphx
  • Cluster Manager

Spark 组件紧密集成的优点

  • Spark底层优化了,基于Spark底层的组件,也得到相应的优化
  • 节省了各组件部署,测试时间
  • 向Spark增加新组件时,其他组件可立即共享新组件功能

3/24
2018

Hadoop 笔记

Hadoop基础及演练

Hadoop 优点

  • 高扩展
  • 低成本
  • 成熟的生态圈
    • HIVE 降低了Hadoop使用门槛,可以将SQL语句转化为Hadoop任务
    • HBase 是一个存储结构化数据的分布式数据库,放弃了事务特性,追求更高的特战,HBase提供数据的随机读写和实时访问,实现了对表数据的读写功能
    • Zookeeper 监控Hadoop集群的一个状态,管理集群配置,维护节点间数据的一致性

Hadoop安装

  1. 安装JDK
  2. 安装Hadoop
  3. 配置Hadoop

    conf/start-all.sh

    jps 查看本地启动进程
    

HDFS 优点

  • 适合大文件存储,支持TB、PB级的数据存储,并有副本策略
  • 可以构建在廉价的机器上,并有一定的容错和恢复机制
  • 支持流式数据访问,一次写入,多次读取最高效

HDFS 缺点

  • 不适合大量小文件存储
  • 不适合并发写入,不支持文件随机修改
  • 不支持随机读低延时的访问方式