概述
Apache Spark 是大规模数据处理的统一分析引擎,提供 Java、Scala、Python 和 R 的高级 API 以及优化的执行引擎。
主要特性
- 高速处理:内存处理速度比 Hadoop MapReduce 快 100 倍
- 统一引擎:SQL、流处理、ML 和图处理集于一体
- 多语言:支持 Python、Scala、Java、R 和 SQL API
- 丰富生态:Spark SQL、MLlib、GraphX、Structured Streaming
Apache Spark 是大规模数据处理的统一分析引擎,提供 Java、Scala、Python 和 R 的高级 API 以及优化的执行引擎。