在没有联网的情况下运行Samza
2018-08-21 18:39 更新
本教程将帮助您运行 Hello Samza,如果您无法连接到互联网。
测试您的连接
Ping irc.wikimedia.org,有时公司的防火墙会阻止这项服务。
telnet irc.wikimedia.org 6667
你应该看到这样的东西:
Trying 208.80.152.178...
Connected to ekrem.wikimedia.org.
Escape character is '^]'.
NOTICE AUTH :*** Processing connection to irc.pmtpa.wikimedia.org
NOTICE AUTH :*** Looking up your hostname...
NOTICE AUTH :*** Checking Ident
NOTICE AUTH :*** Found your hostname
否则,您可能有连接问题。
使用本地数据运行 Hello Samza
我们提供了一个选择, 以获取维基百科提供的数据,而不是运行:
deploy/samza/bin/run-job.sh --config-factory=org.apache.samza.config.factories.PropertiesConfigFactory --config-path=file://$PWD/deploy/samza/config/wikipedia-feed.properties
你会运行:
bin/produce-wikipedia-raw-data.sh
该脚本将从本地文件读取维基百科提供的数据,并将其产生到 Kafka 代理。默认情况下,它生成本地主机:9092作为 Kafka 代理,并使用 localhost:2181 作为 zookeeper。您可以覆盖它们:
bin/produce-wikipedia-raw-data.sh -b yourKafkaBrokerAddress -z yourZookeeperAddress
现在您可以回到 Hello Samza中的 Generate Wikipedia Statistics 部分,并按照剩余的步骤进行。
一点解释
下述代码的目标:
deploy/samza/bin/run-job.sh --config-factory=org.apache.samza.config.factories.PropertiesConfigFactory --config-path=file://$PWD/deploy/samza/config/wikipedia-feed.properties
要部署一个听 Wi-Fi API 的 Samza 工作,可以实时获取 Feed,并生成 Kafka 主题维基百科的源文件。本教程中的替代方法是在无限循环中阅读本地维基百科 Feed,并将数据生成给 Kafka维基百科。后续工作,维基百科解析器正在从 Kafka 主题维基百科原始获取数据,所以只要我们在 Kafka 主题维基百科原始中有正确的数据,就可以。所有 Samza 的工作由 Kafka 连接,不依赖于彼此。
以上内容是否对您有帮助:
更多建议: