关键词—分布式 化整为零,再化零为整 大数据的定义 传统数据库处理起来困难的数据集。 发展历程 中国开源生态图谱2023 参考内容 中国开源生态图谱 2023.pdf 技术组件说明 数据集成 sqoop、dataX、flume 数据存储 hdfs、kafka 数据处理 mapreduce、hive、impala、spark、flink 数据分析 hbase、mysql、greenplum(postgreSQL)、clickhouse 应用场景 数据分析——决策 大数据是一种解决方案,但不一定是最高效的方案。