们可以通过这个元数据存储
Posted: Sun Jan 05, 2025 5:49 am
我们确实失去了传统 Spark 作业提交所提供的细粒度控制。然而,考虑到保持所有作业提交参数与集群功能和可用性保持一致的复杂性,这似乎更像是一种优势。 AWS Glue 的另一个有趣的功能是数据目录。 我库轻松建立与 Hive Metastore 的并行,它可以保存来自不同系统(包括 AWS S3)的数据源的模式和连接信息。 为了更新这个存储库,Glue 包含一个爬虫,它可以通过扫描源系统自动维护模式。 为了在工作中使用这些数据源,我们可以轻松地引用目录。这使得我们的 Glue 作业中的代码与数据源无关。
,由于数据目录可以从不同的系统收集模式,因此它 芬兰电话营销数据 提供了一个可以描述我们所有数据的统一位置。 我们还大量使用 Lambda 来支持多种编程语言。 对于分析,我们使用 Python,但其他部门使用不同的编程语言。Lambda 提供了极大的灵活性,因为您可以选择最适合给定问题的编程语言,而无需在任何服务器或实例上安装任何东西。只需创建 Lambda 函数并开始编码! 在我们的例子中,我们需要从Elasticsearch和Cassandra读取数据,对该数据进行一些处理,然后将其加载到我们的数据仓库中。
从这些系统读取数据时,我们需要非常小心,保持其负载较低,以免影响它们为客户提供服务的方式。 但与此同时,这些系统拥有的数据量是巨大的,自然成为我们产品分析的巨大价值来源。 为了在保持低负载的同时提取数据,我们提取了许多小批量的数据。 Lambda 的最大执行时间限制为 15 分钟,因此我们无法通过一次函数执行从每个源提取所有数据。 为了解决这个问题,我们链接 Lambda 执行。
,由于数据目录可以从不同的系统收集模式,因此它 芬兰电话营销数据 提供了一个可以描述我们所有数据的统一位置。 我们还大量使用 Lambda 来支持多种编程语言。 对于分析,我们使用 Python,但其他部门使用不同的编程语言。Lambda 提供了极大的灵活性,因为您可以选择最适合给定问题的编程语言,而无需在任何服务器或实例上安装任何东西。只需创建 Lambda 函数并开始编码! 在我们的例子中,我们需要从Elasticsearch和Cassandra读取数据,对该数据进行一些处理,然后将其加载到我们的数据仓库中。
从这些系统读取数据时,我们需要非常小心,保持其负载较低,以免影响它们为客户提供服务的方式。 但与此同时,这些系统拥有的数据量是巨大的,自然成为我们产品分析的巨大价值来源。 为了在保持低负载的同时提取数据,我们提取了许多小批量的数据。 Lambda 的最大执行时间限制为 15 分钟,因此我们无法通过一次函数执行从每个源提取所有数据。 为了解决这个问题,我们链接 Lambda 执行。