部署Samza Job到CDH

2018-08-21 18:26 更新

本教程假设您已成功运行 hello-samza,现在您要将作业部署到 Cloudera 数据中心(CDH)。本教程基于CDH 5.4.0,并使用 hello-samza 作为示例作业。

CDH 5.4.0编译软件包

我们需要使用特定的编译选项来构建CDH 5.4.0的 hello-samza 包

mvn clean package -Dhadoop.version=cdh5.4.0

将包上传到群集

有几种方法将软件包上传到集群的 HDFS。如果你没有工作包集群,SCP 的从你的本地计算机的集群。然后跑

hadoop fs -put path/to/hello-samza-0.12.0-dist.tar.gz /path/for/tgz

获取部署脚本

解除作业包(假设您将从当前目录运行)

tar -xvf path/to/samza-job-package-0.12.0-dist.tar.gz -C ./

添加包路径到属性文件

vim config/wikipedia-parser.properties

更换 Yarn 包装路径:

yarn.package.path=hdfs://<hdfs name node ip>:<hdfs name node port>/path/to/tgz

设置 Yarn 环境变量

export HADOOP_CONF_DIR=/etc/hadoop/conf

运行 Samza Job

bin/run-job.sh --config-factory=org.apache.samza.config.factories.PropertiesConfigFactory --config-path=file://$PWD/config/wikipedia-parser.properties
以上内容是否对您有帮助:
在线笔记
App下载
App下载

扫描二维码

下载编程狮App

公众号
微信公众号

编程狮公众号