Born to be proud
3/24
2018

Hadoop 笔记

Hadoop基础及演练

Hadoop 优点

  • 高扩展
  • 低成本
  • 成熟的生态圈
    • HIVE 降低了Hadoop使用门槛,可以将SQL语句转化为Hadoop任务
    • HBase 是一个存储结构化数据的分布式数据库,放弃了事务特性,追求更高的特战,HBase提供数据的随机读写和实时访问,实现了对表数据的读写功能
    • Zookeeper 监控Hadoop集群的一个状态,管理集群配置,维护节点间数据的一致性

Hadoop安装

  1. 安装JDK
  2. 安装Hadoop
  3. 配置Hadoop

    conf/start-all.sh

    jps 查看本地启动进程
    

HDFS 优点

  • 适合大文件存储,支持TB、PB级的数据存储,并有副本策略
  • 可以构建在廉价的机器上,并有一定的容错和恢复机制
  • 支持流式数据访问,一次写入,多次读取最高效

HDFS 缺点

  • 不适合大量小文件存储
  • 不适合并发写入,不支持文件随机修改
  • 不支持随机读低延时的访问方式