Introduce

Last updated 5 years ago

Was this helpful?

Hadoop

Hadoop是什么？答：一个分布式系统基础架构。

Hadoop解决了什么问题？答：解决了大数据（大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处理）的可靠存储(HDFS)和处理(MapReduce)。

Hive是什么？答：Hive是建立在Hadoop之上的，使用Hadoop作为底层存储的批处理系统。（可以理解为MapReduce的一层壳）

Hive解决了什么问题？答：Hive是为了减少MapReduce jobs的编写工作。

HBase是什么？答：HBase是一种Key/Value系统，它运行在HDFS之上。

HBase解决了什么问题？答：Hbase是为了解决Hadoop的实时性需求。

是什么？答：Spark和Storm都是通用的并行计算框架。

解决了什么问题？答：解决Hadoop只适用于离线数据处理，而不能提供实时数据处理能力的问题。

Hadoop：硬盘

Spark：内存

Hadoop：单一

Spark：丰富

Hadoop：非迭代

Spark：迭代

Hadoop：离线批处理。（面对SQL交互式查询、实时处理及机器学习等需要和第三方框架结合。多种数据格式转换，导致消耗大量资源）

Spark：批处理、实时处理

Hadoop架构图

Next大数据

Last updated 5 years ago

Was this helpful?