大数据处理系统分析与设计

1 大数据处理系统架构

1.1 大数据特征(5V)

特征英文说明
大量Volume数据量大
高速Velocity数据产生速度快
多样Variety数据类型多样
价值Value价值密度低
真实Veracity数据质量参差不齐

1.2 大数据架构层次

数据采集层:Flume、Kafka、Sqoop 数据存储层:HDFS、HBase、MongoDB 数据处理层:MapReduce、Spark、Flink 数据分析层:Hive、Pig、Spark SQL 数据应用层:可视化、报表、API

2 大数据存储技术

2.1 分布式文件系统

HDFS(Hadoop Distributed File System)

  • 分布式存储
  • 高容错性
  • 高吞吐量
  • 适合大文件存储

2.2 NoSQL数据库

类型说明示例
键值存储简单快速Redis、Memcached
列存储大规模数据HBase、Cassandra
文档存储灵活schemaMongoDB、CouchDB
图数据库关系网络Neo4j、Titan

3 大数据处理技术

3.1 批处理

MapReduce

  • Map阶段:数据分片处理
  • Reduce阶段:结果汇总

优点

  • 适合大规模数据
  • 容错性好

缺点

  • 延迟高
  • 不适合迭代计算

3.2 流处理

Spark Streaming

  • 微批处理
  • 基于Spark

Flink

  • 真正的流处理
  • 低延迟
  • 高吞吐

3.3 实时处理

Lambda架构

  • 批处理层
  • 速度层
  • 服务层

Kappa架构

  • 只保留流处理层
  • 简化架构

4 数据仓库与数据湖

4.1 数据仓库

特点

  • 面向主题
  • 集成性
  • 非易失性
  • 时变性

架构

  • 操作数据存储(ODS)
  • 数据仓库(DW)
  • 数据集市(DM)

4.2 数据湖

数据湖:存储原始数据的存储库,可以是结构化、半结构化或非结构化数据。

特点

  • 存储原始数据
  • 模式在读时定义
  • 灵活性高
  • 成本低

5 数据挖掘

5.1 数据挖掘任务

任务说明
分类预测离散标签
回归预测连续值
聚类无监督分组
关联规则发现关联关系
异常检测发现异常数据

5.2 常用算法

类型算法
分类决策树、SVM、随机森林、神经网络
聚类K-Means、DBSCAN、层次聚类
关联规则Apriori、FP-Growth

参考资源

  • 系统分析师教材(第二版)相关章节
  • 文老师软考教育