Flume如何对接HDFS

最近在做日志分析工作,日志分析的第一步就是要收集日志,我们选择的使用Flume进行收集。收集之后将日志存储到HDFS上,然后跑Hadoop任务。

我使用的Hadoop和Flume版本分别时2.7.3和1.7。

如果要想把Flume收集到的日志信息存储到HDFS上,Flume需要一些jar包,在Flume安装目录下新建一个plugins.d文件夹,按照Flume的约定,第三方扩展jar包都放在这个目录下,在该目录下新建custom-hadoop目录,在该目录下建立 lib,libext, native
并将以下jar包放到lib目录下

1
2
3
4
5
6
7
commons-configuration-1.6.jar
commons-io-2.4.jar
hadoop-auth-2.7.3.jar
hadoop-common-2.7.3.jar
hadoop-hdfs-2.7.3.jar
hadoop-nfs-2.7.3.jar
htrace-core-3.1.0-incubating.jar

这些jar包都可以在hadoop的安装目录里面找到.

同时需要将core-site.xml和hdfs-site.xml
放到flume的conf目录下,这两个配置文件的内容和Hadoop主节点的配置内容一样。具体配置信息可以参照我另外一篇博客。

-------------本文结束-------------
坚持原创技术分享,您的支持将鼓励我继续创作!
0%