跳转至

技术资料库

大数据生态组件¶

概述¶

在大数据环境中，众多组件协同工作，共同构建了一个强大且高效的数据处理和分析生态系统。这些组件涵盖了从数据存储、处理、分析到安全、调度和可视化的各个方面，满足了企业级大数据应用的多样化需求。以下是我整理的大数据生态系统中的组件：

Hdfs || Yarn || Hive || Hudi || Kyuubi || Impala || Kudu || Spark || Flink || Dinky || MapReduce || Tez || Kafka || Hbase || Presto || Sentry || Ranger || Knox || Kerberos || Hawq || Greenplum || Doris || Clickhouse || Cassandra || Hue || Oozie || Azkaban || Airflow || XXL-Job || DolphinScheduler || Datax || Sqoop || X2doris || Kylin || Zookeeper || Alluxio || Celeborn || Gluten || HttpFS

分类与介绍¶

数据存储¶

Hdfs（Hadoop Distributed File System）：分布式文件系统，用于存储大规模数据。
Hudi（Hadoop Upsert Delete Insert）：数据湖框架，支持数据的更新、删除和插入操作。
Hive：基于Hadoop的数据仓库工具，支持SQL查询。
Doris：MPP架构的分析型数据库，支持实时数据分析。
Clickhouse：高性能的列式数据库，适合实时数据分析。
Greenplum：基于PostgreSQL的开源MPP数据库，用于大规模数据分析。
Hawq：基于HDFS的MPP SQL引擎，支持SQL查询。
Hbase：基于HDFS的分布式列存储数据库，适合存储海量稀疏数据。
Kudu：支持快速分析的存储引擎，适合存储结构化数据。
Cassandra：分布式NoSQL数据库，支持高可用性和可扩展性。
Alluxio：分布式缓存文件系统，用于加速数据访问。
Celeborn：分布式缓存存储系统，用于加速计算任务。
Zookeeper：分布式协调服务，用于集群管理和服务发现。

计算引擎¶

Yarn（Yet Another Resource Negotiator）：Hadoop的资源管理系统，用于资源调度。
MapReduce：Hadoop的计算框架，用于分布式数据处理。
Tez：优化的MapReduce框架，支持DAG（有向无环图）计算。
Spark：分布式计算框架，支持内存计算，适合快速迭代计算。
Gluten 一个为 Apache SparkSQL 设计的插件。
Flink：流处理和批处理统一的分布式计算框架。
Impala：基于HDFS和HBase的分布式SQL查询引擎，适合交互式查询。
Presto：分布式SQL查询引擎，支持跨多个数据源的查询。
Kyuubi：SQL引擎服务，支持多租户和资源隔离。
Kylin：分布式分析型数据仓库，支持预计算和快速查询。

数据同步与ETL¶

Sqoop：用于在Hadoop和关系型数据库之间传输数据。
Datax：阿里巴巴开源的数据同步工具，支持多种数据源之间的数据同步。
X2doris：将各种离线数据迁移到Doris中的工具。

调度与工作流¶

Oozie：Hadoop生态系统中的工作流调度工具。
Azkaban：轻量级的工作流调度工具。
Airflow：Apache开源的工作流调度平台。
XXL-Job：分布式任务调度平台。
DolphinScheduler：分布式易扩展的可视化工作流调度平台。

安全¶

Kerberos：网络认证协议，用于身份验证。
Sentry：Apache开源的授权框架，用于数据访问控制。
Ranger：Hadoop生态系统中的安全框架，用于集中管理权限。
Knox：Hadoop生态系统中的安全网关，用于集群的访问控制。

交互与管理¶

Hue：Hadoop生态系统中的用户界面，用于数据管理和查询。
Dinky：一个基于Apache Flink的开源实时计算平台。
HttpFS：基于HTTP协议的HDFS访问接口。

消息队列¶

Kafka：分布式消息队列，用于高吞吐量的消息传递。

返回：大数据首页 || 首页