论坛

数据流字数统计...
 
通知事项
全部清除

数据流字数教程  


太极
帖子:83
主持人
(@太极)
会员
已加入:8个月前

介绍

在本教程中,您将通过以下方法了解中国体育彩票开奖 数据流服务的基础知识 使用Apache Beam Python SDK运行一个简单的示例管道。这个 管道将向您展示从Google 云 读取文本文件的基础知识 存储,计算文件中唯一单词的数量,最后写入 这个词可以追溯到Google 云储存。

要查看我们今天将运行的代码,可以访问Apache Beam GitHub 仓库的例子 字数.

数据流管道是  批量  (处理有界输入,例如文件或 数据库表)或 流媒体 (处理来自诸如 云发布/订阅)。本教程中的示例是一个批处理管道, 莎士比亚作品集中的文字。

在开始之前,您需要检查中国体育彩票开奖 Platform中的先决条件。 项目并执行初始设置。

项目设置

Google 云 Platform将资源组织到项目中。这使您能够 在一个地方收集单个应用程序的所有相关资源。

选择一个项目,或

设置云数据流

要使用Dataflow,请打开中国体育彩票开奖 数据流API,然后打开中国体育彩票开奖 Shell。

开启Google 云 API

数据流处理许多GCP数据存储和消息传递服务中的数据, 包括BigQuery,Google 云储存和中国体育彩票开奖 Pub / Sub。为启用API 这些服务可以利用Dataflow的数据处理功能。

这将启用Google 云 API。

  • 计算引擎API
  • 数据流API
  • 云资源管理器API
  • 云日志API
  • 云储存
  • Google 云储存 JSON API
  • BigQuery API
  • 云发布/订阅API

开放云壳

云 Shell是控制台的内置命令行工具。您将要使用  云 Shell来部署您的应用程序。

通过单击打开中国体育彩票开奖 Shell   控制台右上角导航栏中的按钮。

在中国体育彩票开奖 Shell上安装中国体育彩票开奖 数据流示例

数据流运行使用 Apache Beam SDK。提交 使用Python向Dataflow服务添加作业,您的开发环境将 需要Python,Google 云 SDK和适用于Python的Apache Beam SDK。 此外,中国体育彩票开奖 数据流使用Python的包管理器pip3来管理SDK 依赖项和virtualenv来创建隔离的Python环境。

本教程使用已安装Python和pip3的中国体育彩票开奖 Shell。如果 如果您愿意,可以完成本教程 在您当地 .

安装virtualenv并激活Python虚拟环境

如果尚未安装virtualenv版本13.1.0或更高版本,请安装它。

pip3 install --upgrade virtualenv \-用户
 
 

创建一个Python虚拟环境

python3 -m virtualenv环境
 
 

并激活它。

源环境/ bin /激活
 
 

使用pip3命令下​​载示例和适用于Python的Apache Beam SDK

为了编写Python 数据流作业,您首先需要下载SDK 从存储库中。

当您运行此命令时,pip3将下载并安装适当的版本 Apache Beam SDK。

pip3 install --quiet \ apache-beam [gcp]
 

在中国体育彩票开奖 Shell中运行pip3命令。

 

设置云存储桶

云 数据流使用中国体育彩票开奖 存储存储桶来存储输出数据并缓存您的 管道代码。

运行gsutil mb

在中国体育彩票开奖 Shell中,使用以下命令 gsutil mb 创建一个云存储桶。

gsutil mb \ gs:// 角度定理281823
 
有关的更多信息gsutil tool, see the 文件资料.

 

创建并启动管道

在中国体育彩票开奖 数据流中,数据处理工作由 管道 。 一种  管道读取输入数据,对该数据执行转换,然后 产生输出数据。管道的转换可能包括过滤, 分组,比较或合并数据。

此示例的代码位于Apache Beam GitHub中 资料库.

在Dataflow服务上启动管道

使用Python在中国体育彩票开奖 数据流服务上启动管道。跑步 管道称为  工作 .

python3 -m \ apache_beam.examples.wordcount \ --project \ 角度定理281823 \ --runner 数据流运行器 \ --temp_location \ gs:// 角度定理281823 / temp \ --output \ gs:// angular -theorem-281823 /结果/输出\ --job_name 数据流介绍 \ --region us-central1
 
  • project 是GCP项目。

  • runner 是用于运行管道的特定执行引擎。的 数据流运行器 使用数据流服务作为执行引擎。

  • temp_location 是中国体育彩票开奖 数据流将用于的存储桶 二进制文件和用于运行管道的其他数据。这个位置可以是 在多个工作中共享。

  • output 是“字数统计”示例用于存储作业的存储桶 结果。

  • 工作 _name 是用户提供的唯一标识符。只能执行一项作业 同名。

  • region 指定一个 区域终点 用于部署 您的数据流作业。

您的工作正在运行

恭喜你!现在,您的二进制文件已登台到您的存储桶中  较早地创建,并且正在创建Compute Engine实例。云数据流 将拆分您的输入文件,以便您的数据可以被多个 机器并行。

当您在中看到“ JOB_STATE_RUNNING”消息时,可以移至下一部分。 控制台。

监控你的工作

在“ 云 数据流”页面上检查管道的进度。

转到“ 云 数据流监视UI”页面

如果还没有,请导航到中国体育彩票开奖 数据流 Monitoring UI页面。

打开  在控制台的左侧。

然后选择 数据流 部分。

数据流

选择你的工作

点击工作名称“数据流介绍以查看其详细信息。

探索管道详细信息和指标

在左侧浏览管道,在右侧浏览作业信息。查看 详细工作状态,请点击 。尝试点击一个步骤 管道以查看其指标。

工作完成后,您会看到工作状态更改和Compute Engine 作业使用的实例将自动停止。

注意:当您看到“ JOB_STATE_DONE”消息时,可以关闭中国体育彩票开奖 Shell。

查看您的输出

现在您的作业已经运行,您可以在中国体育彩票开奖 存储中浏览输出文件。

转到“云存储”页面

打开  在控制台的左侧。

然后选择 存储 部分,然后单击 浏览器。您可以验证 如果您可以看到以前创建的GCS,则您在正确的屏幕上 斗'角度定理281823 '。

 

存储

 

转到存储桶

在存储桶列表中,选择您之前创建的存储桶。如果您使用了 建议的名称,它将被命名 角度定理281823.

存储桶包含“结果”文件夹和“临时”文件夹。数据流保存 输出为分片,因此您的存储桶中将包含多个输出文件 “结果”文件夹。

“ temp”文件夹用于暂存工作人员所需的二进制文件,并用于 作业执行所需的临时文件。

 

清理

为了避免对中国体育彩票开奖 存储的使用收费,请删除您 创建。

返回水桶浏览器

点击   链接。

选择桶

选中您创建的存储桶旁边的框。

删除存储桶

请点击   并确认您的删除。

 

结论

 

您如何评价本教程?

接下来,您可以执行以下操作:

设置您的本地环境:

分享: