论坛

DataFlow字数......
 
Notifications
清除所有

DataFlow字数教程


帖子:84
主持人
Topic starter
(@太极)
成员
Joined: 1 year ago

介绍

在本教程中,您'LL学习云中国体育彩票开奖流服务的基础知识 使用Apache Chap Python SDK运行一个简单的示例管道。这 管道将向您展示从Google Cloud读取文本文件的基础知识 存储,计算文件中的唯一单词的数量,最后写入 这个词计数返回Google云存储。

要查看我们今天将运行的代码,您可以访问Apache Chap GitHub 存储库's example 字数.

DataFlow管道要么  (处理界限输入,如文件或 中国体育彩票开奖库表)或 流媒体 (处理来自源的无限输入 云酒吧/子)。本教程中的示例是批处理的批量管道 在莎士比亚的集合中的单词's works.

在你开始之前,你'LL需要检查云平台中的先决条件 项目并执行初始设置。

项目设置

Google云平台将资源组织到项目中。这允许您 在一个地方收集一个应用程序的所有相关资源。

选择一个项目,或

设置云中国体育彩票开奖流

要使用DataFlow,请打开Cloud DataFlow API并打开Cloud Shell。

打开Goog​​le云API

DataFlow在许多GCP中国体育彩票开奖存储和消息服务中进入中国体育彩票开奖, 包括BigQuery,Google云存储和云Pub / sub。启用API 这些服务利用DataFlow'S中国体育彩票开奖处理功能。

这将启用Google云API。

  • 计算发动机API
  • dataflow api.
  • 云资源管理器API
  • 云日志记录API.
  • 云储存
  • 谷歌云存储JSON API
  • bigquery api.
  • 云 Pub / sub API

打开云壳

云 shell是控制台的内置命令行工具。你're going to use 云shell部署您的应用程序。

单击打开云shell   导航栏中的按钮在控制台的右上角。

在云壳上安装云中国体育彩票开奖流样本

dataflow运行使用的作业 Apache Beam SDK.。提交 使用Python向DataFlow Service进行作业,您的开发环境将会 需要Python,Google Cloud SDK和Python的Apache Chion SDK。 此外,Cloud DataFlow使用PIP3,Python'S包管理器,管理SDK 依赖项,和virtualenv创建孤立的python环境。

本教程使用已安装Python和Pip3的云shell。如果 您更喜欢,您可以完成本教程 在你的本地 机器.

安装virtualenv并激活python虚拟环境

如果未安装,请安装VirtualEnv版本13.1.0或更高版本。

pip3安装 - apgrade virtualenv \ -User
 
 

创建Python虚拟环境

Python3 -M VirtualEnv Env
 
 

并激活它。

源Env / Bin / Activate
 
 

使用pip3命令下​​载Python的Samples和Apache Chap SDK

为了编写Python DataFlow作业,您将首先需要下载SDK 从存储库。

运行此命令时,PIP3将下载并安装相应的版本 apache波束sdk的概念。

pip3安装--quiet \ apache-beam [gcp]
 

在云shell中运行pip3命令。

 

设置云存储桶

云 DataFlow使用云存储库来存储输出中国体育彩票开奖并缓存您的 管道代码。

运行gsutil mb.

在Cloud shell中,使用命令  gsutil mb 创建云存储桶。

GSUTIL MB \ GS:// Angular-Theorem-281823
 
For more information about the gsutil tool, see the 文件.

 

创建和启动管道

在云中国体育彩票开奖流量中,中国体育彩票开奖处理工作由a表示 管道。一种 管道读取输入中国体育彩票开奖,对该中国体育彩票开奖进行转换,然后执行 生成输出中国体育彩票开奖。管道'S转换可能包括过滤, 分组,比较或加入中国体育彩票开奖。

这code for this example is located in the Apache Beam GitHub 存储库.

在中国体育彩票开奖流服务上启动您的管道

使用Python在云中国体育彩票开奖流服务上启动您的管道。跑步 管道被称为a 工作.

python3 -m \ apache_beam.examples.wordcount \ --project \ Angular-theorem-281823 \ --runner dataflowrunner \ --temp_location \ gs:// Angular-theorem-281823 / temp \ --oupput \ gs:// Angular -theorem-281823 /结果/输出\ --job_name dataflow-intro \ --region US-Central1
 
  • project 是GCP项目。

  • runner 是用于运行管道的特定执行引擎。这 dataflowrunner. 使用DataFlow Service作为执行引擎。

  • 临时_location 是云中国体育彩票开奖流将用于云的存储桶 用于运行管道的二进制文件和其他中国体育彩票开奖。这个位置可以 在多个工作中共享。

  • output 是单词数量示例用于存储作业的桶 结果.

  • 工作_name 是一个用户给定的唯一标识符。只有一个工作可以执行 姓名相同。

  • region 指定A. 区域终点 用于部署 您的中国体育彩票开奖流工作。

你的工作正在运行

恭喜!你的二进制文件现在上演到你的存储桶 早先创建,并正在创建计算引擎实例。云中国体育彩票开奖流 将拆分输入文件,以便您的中国体育彩票开奖可以由多个处理 并行机器。

当您看到时,您可以移动到下一部分'JOB_STATE_RUNNING' message in 控制台。

监控你的工作

检查云中国体育彩票开奖流页面上的管道进度。

转到云中国体育彩票开奖流监控UI页面

如果你没有 '已经,导航到云中国体育彩票开奖流监控UI页面。

打开  在控制台的左侧。

然后选择 中国体育彩票开奖流 部分。

中国体育彩票开奖流

选择你的工作

单击作业名称'dataflow-intro.'查看其细节。

探索管道细节和指标

探索左侧的管道和右侧的作业信息。查看 详细工作状态,单击 。尝试单击一步 管道查看其度量。

随着你的工作完成,你'LL请参阅作业状态更改和计算引擎 作业使用的实例将自动停止。

注意:当你看到的时候'JOB_STATE_DONE'消息,您可以关闭云shell。

查看您的输出

既然您的作业已经运行,您可以浏览云存储中的输出文件。

转到云存储页面

打开  在控制台的左侧。

然后选择 贮存 部分并点击 浏览器。你可以验证 如果您可以看到先前创建的GCS,则在正确的屏幕上 桶'Angular-Theorem-281823'.

 

贮存

 

去存储桶

在Buckets列表中,选择您之前创建的存储桶。如果你用过 建议的名字,它将被命名 Angular-Theorem-281823.

铲斗包含一个'results' folder and 'temp'文件夹。 dataflow保存了 碎片中的输出,因此您的存储桶将包含多个输出文件 'results' folder.

这'temp'文件夹用于工人所需的分级二进制文件,以及 临时orary files needed by the job execution.

 

清理

为了防止被充电云存储使用,删除您的桶 创建。

回到桶浏览器

点击  关联。

选择桶

勾选您创建的存储桶旁边的框。

删除桶

点击  并确认您的删除。

 

结论

 

你如何评价本教程?

这里'你可以做什么:

设置您当地的环境:

分享: