最近在做日志分析工作,日志分析的第一步就是要收集日志,我们选择的使用Flume进行收集。收集之后将日志存储到HDFS上,然后跑Hadoop任务。
我使用的Hadoop和Flume版本分别时2.7.3和1.7。
如果要想把Flume收集到的日志信息存储到HDFS上,Flume需要一些jar包,在Flume安装目录下新建一个plugins.d文件夹,按照Flume的约定,第三方扩展jar包都放在这个目录下,在该目录下新建custom-hadoop目录,在该目录下建立 lib,libext, native
并将以下jar包放到lib目录下
1 | commons-configuration-1.6.jar |
这些jar包都可以在hadoop的安装目录里面找到.
同时需要将core-site.xml和hdfs-site.xml
放到flume的conf目录下,这两个配置文件的内容和Hadoop主节点的配置内容一样。具体配置信息可以参照我另外一篇博客。