部署Samza Job到CDH
2018-08-21 18:26 更新
本教程假设您已成功运行 hello-samza,现在您要将作业部署到 Cloudera 数据中心(CDH)。本教程基于CDH 5.4.0,并使用 hello-samza 作为示例作业。
CDH 5.4.0编译软件包
我们需要使用特定的编译选项来构建CDH 5.4.0的 hello-samza 包
mvn clean package -Dhadoop.version=cdh5.4.0
将包上传到群集
有几种方法将软件包上传到集群的 HDFS。如果你没有工作包集群,SCP 的从你的本地计算机的集群。然后跑
hadoop fs -put path/to/hello-samza-0.12.0-dist.tar.gz /path/for/tgz
获取部署脚本
解除作业包(假设您将从当前目录运行)
tar -xvf path/to/samza-job-package-0.12.0-dist.tar.gz -C ./
添加包路径到属性文件
vim config/wikipedia-parser.properties
更换 Yarn 包装路径:
yarn.package.path=hdfs://<hdfs name node ip>:<hdfs name node port>/path/to/tgz
设置 Yarn 环境变量
export HADOOP_CONF_DIR=/etc/hadoop/conf
运行 Samza Job
bin/run-job.sh --config-factory=org.apache.samza.config.factories.PropertiesConfigFactory --config-path=file://$PWD/config/wikipedia-parser.properties
以上内容是否对您有帮助:
更多建议: