# 数据处理流程
# 大数据生态体系
# 数据治理
数据质量管理
数据质量管理是指为了满足信息利用的需要,对信息系统的各个信息采集点进行规范,包括建立模式化的操作规程、原始信息的校验、错误信息的反馈、矫正等一系列的过程。
元数据管理
元数据即“描述数据的数据”,是为了描述数据的相关信息而存在的数据,例如记录数据的存储位置、模型定义、生命周期、血缘关系等信息。元数据管理即对“描述数据的数据”进行维护。
- name: 数据质量管理
desc: 数据质量管理是指为了满足信息利用的需要,对信息系统的各个信息采集点进行规范,包括建立模式化的操作规程、原始信息的校验、错误信息的反馈、矫正等一系列的过程。
link: /pages/d2fded/
bgColor: "#DFEEE7"
textColor: "#2A3344"
- name: 元数据管理
desc: 元数据即“描述数据的数据”,是为了描述数据的相关信息而存在的数据,例如记录数据的存储位置、模型定义、生命周期、血缘关系等信息。元数据管理即对“描述数据的数据”进行维护。
link: /pages/47e696/
bgColor: "#DFEEE7"
textColor: "#2A3344"
2
3
4
5
6
7
8
9
10
# 数据应用
数据仓库
数据仓库是用于报告和数据分析的系统,被认为是商业智能的核心组件。
用户画像
用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。
指标体系
指标体系是从不同维度梳理业务,把指标有系统地组织起来。
- name: 数据仓库
desc: 数据仓库是用于报告和数据分析的系统,被认为是商业智能的核心组件。
link: /pages/8cc3f6/
bgColor: "#DFEEE7"
textColor: "#2A3344"
- name: 用户画像
desc: 用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。
link: /pages/9e4c7c/
bgColor: "#DFEEE7"
textColor: "#2A3344"
- name: 指标体系
desc: 指标体系是从不同维度梳理业务,把指标有系统地组织起来。
link: /pages/13d5d6/
bgColor: "#DFEEE7"
textColor: "#2A3344"
2
3
4
5
6
7
8
9
10
11
12
13
14
15
# 协调管理
Yarn
Yarn 是 Hadoop 系统的核心组件,主要功能包括负责在 Hadoop 集群中的资源管理,负责对任务进行调度运行以及监控。
Zookeeper
ZooKeeper 是一个分布式、高可用性的协调服务。ZooKeeper 提供分布式配置服务、同步服务和命名注册等功能。
Maven
Maven 是 Apache 软件基金会组织维护的一款自动化构建工具,专注服务于 Java 平台的项目构建和依赖管理。
Git
Git 是一个免费和开源的分布式版本控制系统,旨在以速度和效率处理从小型到大型项目的所有内容。
- name: Yarn
desc: Yarn 是 Hadoop 系统的核心组件,主要功能包括负责在 Hadoop 集群中的资源管理,负责对任务进行调度运行以及监控。
link: /pages/260a29/
bgColor: "#DFEEE7"
textColor: "#2A3344"
- name: Zookeeper
desc: ZooKeeper 是一个分布式、高可用性的协调服务。ZooKeeper 提供分布式配置服务、同步服务和命名注册等功能。
link: /pages/f9d3a7/
bgColor: "#DFEEE7"
textColor: "#2A3344"
- name: Maven
desc: Maven 是 Apache 软件基金会组织维护的一款自动化构建工具,专注服务于 Java 平台的项目构建和依赖管理。
link: /pages/1150cb/
bgColor: "#DFEEE7"
textColor: "#2A3344"
- name: Git
desc: Git 是一个免费和开源的分布式版本控制系统,旨在以速度和效率处理从小型到大型项目的所有内容。
link: /pages/71cc86/
bgColor: "#DFEEE7"
textColor: "#2A3344"
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
# 数据处理
Spark
Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。
Flink
Flink 是一个在有界数据流和无界数据流上进行有状态计算分布式处理引擎和框架。
Hive
Hive 是一个款建立在 Hadoop 之上的开源数据仓库系统,为分布式文件提供了 SQL 处理的能力。
- name: Spark
desc: Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。
link: /pages/111405/
bgColor: "#DFEEE7"
textColor: "#2A3344"
- name: Flink
desc: Flink 是一个在有界数据流和无界数据流上进行有状态计算分布式处理引擎和框架。
link: /pages/df6a13/
bgColor: "#DFEEE7"
textColor: "#2A3344"
- name: Hive
desc: Hive 是一个款建立在 Hadoop 之上的开源数据仓库系统,为分布式文件提供了 SQL 处理的能力。
link: /pages/eb41c7/
bgColor: "#DFEEE7"
textColor: "#2A3344"
2
3
4
5
6
7
8
9
10
11
12
13
14
15
# 数据湖
- name: Iceberg
desc: Iceberg 是一种用于大型分析数据集的开放数据湖 Table Format。
link: /pages/891603/
bgColor: "#DFEEE7"
textColor: "#2A3344"
- name: Hudi
desc: Hudi 提供了更新数据和删除数据的能力以及消费变化数据的能力。
link: /pages/f6a4ec/
bgColor: "#DFEEE7"
textColor: "#2A3344"
2
3
4
5
6
7
8
9
10
# 数据存储
- name: MySQL
desc: MySQL 是使用最广泛的关系数据库管理系统。
link: /pages/1292f1/
bgColor: "#DFEEE7"
textColor: "#2A3344"
- name: Redis
desc: Redis 是一个基于内存的键值对数据库。
link: /pages/956359/
bgColor: "#DFEEE7"
textColor: "#2A3344"
2
3
4
5
6
7
8
9
10
HDFS
HDFS 是一个高容错的分布式文件系统。
HBase
HBase 是一个分布式的、面向列的开源数据库。
ClickHouse
ClickHouse 是一个用于联机分析处理的开源列式数据库。
Elasticsearch
Elasticsearch 是一个基于 Lucene 库的全文搜索引擎。
- name: HDFS
desc: HDFS 是一个高容错的分布式文件系统。
link: /pages/1853b5/
bgColor: "#DFEEE7"
textColor: "#2A3344"
- name: HBase
desc: HBase 是一个分布式的、面向列的开源数据库。
link: /pages/7472ea/
bgColor: "#DFEEE7"
textColor: "#2A3344"
- name: ClickHouse
desc: ClickHouse 是一个用于联机分析处理的开源列式数据库。
link: /pages/54c3ef/
bgColor: "#DFEEE7"
textColor: "#2A3344"
- name: Elasticsearch
desc: Elasticsearch 是一个基于 Lucene 库的全文搜索引擎。
link: /pages/a08d6e/
bgColor: "#DFEEE7"
textColor: "#2A3344"
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
# 采集传输
Kafka
Kafka 是一种高吞吐量的分布式发布订阅消息系统。
Flume
Flume 是一个分布式的海量日志采集、聚合和传输系统。
Datax
DataX 是阿里云 DataWorks 数据集成的开源版本。
Canal
阿里巴巴 MySQL binlog 增量订阅&消费组件。
- name: Kafka
desc: Kafka 是一种高吞吐量的分布式发布订阅消息系统。
link: /pages/15d01c/
bgColor: "#DFEEE7"
textColor: "#2A3344"
- name: Flume
desc: Flume 是一个分布式的海量日志采集、聚合和传输系统。
link: /pages/6f79fc/
bgColor: "#DFEEE7"
textColor: "#2A3344"
- name: Datax
desc: DataX 是阿里云 DataWorks 数据集成的开源版本。
link: /pages/09cc92/
bgColor: "#DFEEE7"
textColor: "#2A3344"
- name: Canal
desc: 阿里巴巴 MySQL binlog 增量订阅&消费组件。
link: /pages/bf4ed0/
bgColor: "#DFEEE7"
textColor: "#2A3344"
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
# 算法和编程基础
- name: 数据结构与算法
desc: 数据结构是相关之间存在一种或多种特定关系的数据元素的集合,算法是解决特定问题求解步骤的描述。
link: /pages/7bf289/
bgColor: "#DFEEE7"
textColor: "#2A3344"
- name: 设计模式
desc: 设计模式是一套被反复使用、多数人知晓的、经过分类编目的、代码设计经验的总结。
link: /pages/9635dc/
bgColor: "#DFEEE7"
textColor: "#2A3344"
2
3
4
5
6
7
8
9
10
JVM
JVM 即 Java 虚拟机,由于 JVM 的存在,Java 才能实现跨平台。
Java
Java 是一门面向对象的编程语言,也是目前使用最广泛的编程语言。
Scala
Scala 也是一门编程语言,同时具有面向对象和函数式编程的特点。
Python
Python 是一种代表简单主义思想的语言,使用门槛低。
- name: JVM
desc: JVM 即 Java 虚拟机,由于 JVM 的存在,Java 才能实现跨平台。
link: /pages/47df45/
bgColor: "#DFEEE7"
textColor: "#2A3344"
- name: Java
desc: Java 是一门面向对象的编程语言,也是目前使用最广泛的编程语言。
link: /pages/5f5e86/
bgColor: "#DFEEE7"
textColor: "#2A3344"
- name: Scala
desc: Scala 也是一门编程语言,同时具有面向对象和函数式编程的特点。
link: /pages/d640eb/
bgColor: "#DFEEE7"
textColor: "#2A3344"
- name: Python
desc: Python 是一种代表简单主义思想的语言,使用门槛低。
link: /pages/200e8b/
bgColor: "#DFEEE7"
textColor: "#2A3344"
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20