大数据知识体系
首页
数据结构与算法
  • JVM
  • Java
  • Scala
  • Python
设计模式
  • MySQL
  • Redis
  • HDFS
  • HBase
  • ClickHouse
  • ElasticSearch
  • Iceberg
  • Hudi
  • Spark
  • Flink
  • Hive
  • Yarn
  • Zookeeper
  • Maven
  • Git
  • 数据仓库
  • 用户画像
  • 指标体系
数据治理
关于
首页
数据结构与算法
  • JVM
  • Java
  • Scala
  • Python
设计模式
  • MySQL
  • Redis
  • HDFS
  • HBase
  • ClickHouse
  • ElasticSearch
  • Iceberg
  • Hudi
  • Spark
  • Flink
  • Hive
  • Yarn
  • Zookeeper
  • Maven
  • Git
  • 数据仓库
  • 用户画像
  • 指标体系
数据治理
关于

大数据知识体系

你的时间花在哪里,你的收获就在哪里

开始学习

理论扎实

万丈高楼平地起,夯实基础

体系全面

拒绝碎片化学习,拒绝一知半解

综合运用

整合各个组件,灵活运用,创造价值

理论扎实

万丈高楼平地起,夯实基础

体系全面

拒绝碎片化学习,拒绝一知半解

综合运用

整合各个组件,灵活运用,创造价值

# 数据处理流程


# 大数据生态体系

# 数据治理

数据质量管理

数据质量管理是指为了满足信息利用的需要,对信息系统的各个信息采集点进行规范,包括建立模式化的操作规程、原始信息的校验、错误信息的反馈、矫正等一系列的过程。

元数据管理

元数据即“描述数据的数据”,是为了描述数据的相关信息而存在的数据,例如记录数据的存储位置、模型定义、生命周期、血缘关系等信息。元数据管理即对“描述数据的数据”进行维护。

- name: 数据质量管理
  desc: 数据质量管理是指为了满足信息利用的需要,对信息系统的各个信息采集点进行规范,包括建立模式化的操作规程、原始信息的校验、错误信息的反馈、矫正等一系列的过程。
  link: /pages/d2fded/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
- name: 元数据管理
  desc: 元数据即“描述数据的数据”,是为了描述数据的相关信息而存在的数据,例如记录数据的存储位置、模型定义、生命周期、血缘关系等信息。元数据管理即对“描述数据的数据”进行维护。
  link: /pages/47e696/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
1
2
3
4
5
6
7
8
9
10

# 数据应用

数据仓库

数据仓库是用于报告和数据分析的系统,被认为是商业智能的核心组件。

用户画像

用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。

指标体系

指标体系是从不同维度梳理业务,把指标有系统地组织起来。

- name: 数据仓库
  desc: 数据仓库是用于报告和数据分析的系统,被认为是商业智能的核心组件。
  link: /pages/8cc3f6/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
- name: 用户画像
  desc: 用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。
  link: /pages/9e4c7c/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
- name: 指标体系
  desc: 指标体系是从不同维度梳理业务,把指标有系统地组织起来。
  link: /pages/13d5d6/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

# 协调管理

Yarn

Yarn 是 Hadoop 系统的核心组件,主要功能包括负责在 Hadoop 集群中的资源管理,负责对任务进行调度运行以及监控。

Zookeeper

ZooKeeper 是一个分布式、高可用性的协调服务。ZooKeeper 提供分布式配置服务、同步服务和命名注册等功能。

Maven

Maven 是 Apache 软件基金会组织维护的一款自动化构建工具,专注服务于 Java 平台的项目构建和依赖管理。

Git

Git 是一个免费和开源的分布式版本控制系统,旨在以速度和效率处理从小型到大型项目的所有内容。

- name: Yarn
  desc: Yarn 是 Hadoop 系统的核心组件,主要功能包括负责在 Hadoop 集群中的资源管理,负责对任务进行调度运行以及监控。
  link: /pages/260a29/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
- name: Zookeeper
  desc: ZooKeeper 是一个分布式、高可用性的协调服务。ZooKeeper 提供分布式配置服务、同步服务和命名注册等功能。
  link: /pages/f9d3a7/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
- name: Maven
  desc: Maven 是 Apache 软件基金会组织维护的一款自动化构建工具,专注服务于 Java 平台的项目构建和依赖管理。
  link: /pages/1150cb/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
- name: Git
  desc: Git 是一个免费和开源的分布式版本控制系统,旨在以速度和效率处理从小型到大型项目的所有内容。
  link: /pages/71cc86/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

# 数据处理

Spark

Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

Flink

Flink 是一个在有界数据流和无界数据流上进行有状态计算分布式处理引擎和框架。

Hive

Hive 是一个款建立在 Hadoop 之上的开源数据仓库系统,为分布式文件提供了 SQL 处理的能力。

- name: Spark
  desc: Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。
  link: /pages/111405/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
- name: Flink
  desc: Flink 是一个在有界数据流和无界数据流上进行有状态计算分布式处理引擎和框架。
  link: /pages/df6a13/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
- name: Hive
  desc: Hive 是一个款建立在 Hadoop 之上的开源数据仓库系统,为分布式文件提供了 SQL 处理的能力。
  link: /pages/eb41c7/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

# 数据湖

Iceberg

Iceberg 是一种用于大型分析数据集的开放数据湖 Table Format。

Hudi

Hudi 提供了更新数据和删除数据的能力以及消费变化数据的能力。

- name: Iceberg
  desc: Iceberg 是一种用于大型分析数据集的开放数据湖 Table Format。
  link: /pages/891603/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
- name: Hudi
  desc: Hudi 提供了更新数据和删除数据的能力以及消费变化数据的能力。
  link: /pages/f6a4ec/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
1
2
3
4
5
6
7
8
9
10

# 数据存储

MySQL

MySQL 是使用最广泛的关系数据库管理系统。

Redis

Redis 是一个基于内存的键值对数据库。

- name: MySQL
  desc: MySQL 是使用最广泛的关系数据库管理系统。
  link: /pages/1292f1/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
- name: Redis
  desc: Redis 是一个基于内存的键值对数据库。
  link: /pages/956359/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
1
2
3
4
5
6
7
8
9
10

HDFS

HDFS 是一个高容错的分布式文件系统。

HBase

HBase 是一个分布式的、面向列的开源数据库。

ClickHouse

ClickHouse 是一个用于联机分析处理的开源列式数据库。

Elasticsearch

Elasticsearch 是一个基于 Lucene 库的全文搜索引擎。

- name: HDFS
  desc: HDFS 是一个高容错的分布式文件系统。
  link: /pages/1853b5/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
- name: HBase
  desc: HBase 是一个分布式的、面向列的开源数据库。
  link: /pages/7472ea/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
- name: ClickHouse
  desc: ClickHouse 是一个用于联机分析处理的开源列式数据库。
  link: /pages/54c3ef/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
- name: Elasticsearch
  desc: Elasticsearch 是一个基于 Lucene 库的全文搜索引擎。
  link: /pages/a08d6e/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

# 采集传输

Kafka

Kafka 是一种高吞吐量的分布式发布订阅消息系统。

Flume

Flume 是一个分布式的海量日志采集、聚合和传输系统。

Datax

DataX 是阿里云 DataWorks 数据集成的开源版本。

Canal

阿里巴巴 MySQL binlog 增量订阅&消费组件。

- name: Kafka
  desc: Kafka 是一种高吞吐量的分布式发布订阅消息系统。
  link: /pages/15d01c/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
- name: Flume
  desc: Flume 是一个分布式的海量日志采集、聚合和传输系统。
  link: /pages/6f79fc/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
- name: Datax
  desc: DataX 是阿里云 DataWorks 数据集成的开源版本。
  link: /pages/09cc92/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
- name: Canal
  desc: 阿里巴巴 MySQL binlog 增量订阅&消费组件。
  link: /pages/bf4ed0/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

# 算法和编程基础

数据结构与算法

数据结构是相关之间存在一种或多种特定关系的数据元素的集合,算法是解决特定问题求解步骤的描述。

设计模式

设计模式是一套被反复使用、多数人知晓的、经过分类编目的、代码设计经验的总结。

- name: 数据结构与算法
  desc: 数据结构是相关之间存在一种或多种特定关系的数据元素的集合,算法是解决特定问题求解步骤的描述。
  link: /pages/7bf289/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
- name: 设计模式
  desc: 设计模式是一套被反复使用、多数人知晓的、经过分类编目的、代码设计经验的总结。
  link: /pages/9635dc/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
1
2
3
4
5
6
7
8
9
10

JVM

JVM 即 Java 虚拟机,由于 JVM 的存在,Java 才能实现跨平台。

Java

Java 是一门面向对象的编程语言,也是目前使用最广泛的编程语言。

Scala

Scala 也是一门编程语言,同时具有面向对象和函数式编程的特点。

Python

Python 是一种代表简单主义思想的语言,使用门槛低。

- name: JVM
  desc: JVM 即 Java 虚拟机,由于 JVM 的存在,Java 才能实现跨平台。
  link: /pages/47df45/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
- name: Java
  desc: Java 是一门面向对象的编程语言,也是目前使用最广泛的编程语言。
  link: /pages/5f5e86/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
- name: Scala
  desc: Scala 也是一门编程语言,同时具有面向对象和函数式编程的特点。
  link: /pages/d640eb/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
- name: Python
  desc: Python 是一种代表简单主义思想的语言,使用门槛低。
  link: /pages/200e8b/
  bgColor: "#DFEEE7"
  textColor: "#2A3344"
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Theme by Vdoing | Copyright © 2022-2023 Will 蜀ICP备2022002285号-1
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式