【组件】大数据开发常考题之介绍一下 Spark - 博客

[{"createTime":1735734952000,"id":1,"img":"hwy_ms_500_252.jpeg","link":"https://activity.huaweicloud.com/cps.html?fromacct=261f35b6-af54-4511-a2ca-910fa15905d1&utm_source=V1g3MDY4NTY=&utm_medium=cps&utm_campaign=201905","name":"华为云秒杀","status":9,"txt":"华为云38元秒杀","type":1,"updateTime":1735747411000,"userId":3},{"createTime":1736173885000,"id":2,"img":"txy_480_300.png","link":"https://cloud.tencent.com/act/cps/redirect?redirect=1077&cps_key=edb15096bfff75effaaa8c8bb66138bd&from=console","name":"腾讯云秒杀","status":9,"txt":"腾讯云限量秒杀","type":1,"updateTime":1736173885000,"userId":3},{"createTime":1736177492000,"id":3,"img":"aly_251_140.png","link":"https://www.aliyun.com/minisite/goods?userCode=pwp8kmv3","memo":"","name":"阿里云","status":9,"txt":"阿里云2折起","type":1,"updateTime":1736177492000,"userId":3},{"createTime":1735660800000,"id":4,"img":"vultr_560_300.png","link":"https://www.vultr.com/?ref=9603742-8H","name":"Vultr","status":9,"txt":"Vultr送$100","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":5,"img":"jdy_663_320.jpg","link":"https://3.cn/2ay1-e5t","name":"京东云","status":9,"txt":"京东云特惠专区","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":6,"img":"new_ads.png","link":"https://www.iodraw.com/ads","name":"发布广告","status":9,"txt":"发布广告","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":7,"img":"yun_910_50.png","link":"https://activity.huaweicloud.com/discount_area_v5/index.html?fromacct=261f35b6-af54-4511-a2ca-910fa15905d1&utm_source=aXhpYW95YW5nOA===&utm_medium=cps&utm_campaign=201905","name":"底部","status":9,"txt":"高性能云服务器2折起","type":2,"updateTime":1735660800000,"userId":3}]

Spark 是大数据开发的必会技能。面试中经常被问到的问题就是 Spark 是什么，或者请介绍一下
Spark，今天的文章主要对这个问题做出讲解。很多人的回答都不够准确，这个问题最为准确的描述可以在官网寻找。

<>1.整体介绍

打开官网可以看到一行醒目的表与：

Unified engine for large-scale data analytics

翻译一下就是：用于大规模数据分析的统一引擎。继续往下看：

What is Apache Spark™?
Apache Spark™ is a multi-language engine for executing data engineering, data
science, and machine learning on single-node machines or clusters.

这里对我们的问题做出了回答：Apache Spark™ 是一种多语言引擎，用于在单节点机器或集群上执行数据工程、数据科学和机器学习。

归纳一下要点：Spark 是一个计算引擎，用于大规模数据的计算，支持多种编程语言。

<>2.特征

上面给出的是一个总体的描述，对于更加具体的一些特征的介绍，官网也做出了回答：

Key features
Simple. Fast. Scalable. Unified.

Spark的特征用四个词语概括就是：简单、速度快、可扩展、统一性。更加具体的描述官网也给出了说明：

Batch/streaming data

Unify the processing of your data in batches and real-time streaming, using
your preferred language: Python, SQL, Scala, Java or R.

批处理/流处理：可以使用 Python、SQL、Scala、Java 或 R，通过批量处理和实时流式处理的方式统一处理数据。

SQL analytics

Execute fast, distributed ANSI SQL queries for dashboarding and ad-hoc
reporting. Runs faster than most data warehouses.

SQL 分析：为仪表板和临时报告执行快速、分布式的 ANSI SQL 查询。比大多数数据仓库运行得更快。

Data science at scale

Perform Exploratory Data Analysis (EDA) on petabyte-scale data without having
to resort to downsampling

大规模数据科学：对 PB 级数进行探索性数据分析 (EDA)，而无需进行下采样

Machine learning

Train machine learning algorithms on a laptop and use the same code to scale
to fault-tolerant clusters of thousands of machines.

机器学习：在笔记本电脑上训练机器学习算法，并使用相同的代码扩展到数千台机器的容错集群。

<>3.生态

Apache Spark™ integrates with your favorite frameworks, helping to scale them
to thousands of machines.

Data science and Machine learning

SQL analytics and BI

Storage and Infrastructure

Spark 整合了多种框架，能够将这些框架扩展到数千台机器。这些框架包括：

* 数据科学和机器学习：scikit-learn，pandas，TensorFlow，PyTorch，mlflow，R
* SQL 分析和 BI：Superset，Power BI，Looker，redash，tableau，dbt
* 存储和基础设施：Elasticsearch，MongoDB，Kafka，delta
lake，kubernetes，Airflow，Parquet，SQL Server，cassandra，orc
<>4.核心模块

Spark Core：提供了 Spark 最基础与最核心的功能，Spark 其他的功能如：Spark SQL，Spark
Streaming，GraphX，MLlib 都是在Spark Core 的基础上进行扩展的。

Spark SQL：Spark 用来操作结构化数据的组件。通过 Spark SQL，用户可以使用 SQL 或者 Apache Hive 版本的 SQL
方言（HQL）来查询数据。

Spark Streaming：Spark 平台上针对实时数据进行流式计算的组件，提供了丰富的处理数据流的 API。

Spark MLlib：MLlib 是 Spark 提供的一个机器学习算法库。MLlib
不仅提供了模型评估、数据导入等额外的功能，还提供了一些更底层的机器学习原语。

Spark GraphX：GraphX 是 Spark 面向图计算提供的框架与算法库。

<>5.总结

文章的最后对 Spark 是什么这个问题做一个总结：

* Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。
* Spark Core 中提供了 Spark 最基础与最核心的功能。
* Spark SQL 是 Spark 用来操作结构化数据的组件。通过 Spark SQL，用户可以使用 SQL 或者 Apache Hive 版本的
SQL 方言（HQL）来查询数据。
* Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件，提供了丰富的处理数据流的 API。

技术

Java1212 篇
Python927 篇
开发语言608 篇
c语言463 篇
算法461 篇
MySQL438 篇
数据库394 篇
前端387 篇
更多...