大数据技术之Flume

鸡汤: 你努力过只能算及格，你拼过命才称得上优秀。

1.1 Flume定义¶

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。

flume的这样作用就是，实时读取服务器本地磁盘的数据，将数据写入到HDFS,Kafka等中

1.2 Flume组成架构¶

Flume组成架构如下图【摘自官网】

Source数据输入端的常见类型

spooling、directory、exec、syslog、avro、netcat等

Channel是位于Source额Sink之间的缓冲区

flume 自带: Memory Channel和File Channel
1. Memory Channel是基于内存缓存，在不需要关系数据丢失的情景下使用
2. File Channel是持久化Channel，系统断电后数据不丢失

Sink组件常见的目的地包括

HDFS、Kafka、logger、avro、File和自定义

Put事务

Put 事务流程
1. doPut： 将数据先写入临时缓冲区Putlist
2. doCommit： 检查channel内存队列是否足够合并
3. doRollback： channel内存队列空间不足，回滚数据

Take事务

Take 事务流程
1. doTake： 先将数据取到临时缓冲区takeList
2. doCommit： 如果数据全部发送成功，则清楚临时缓冲区takeList
3. doRollback： 数据发送过程中如果出现异常，
   rollback将临时缓冲区takelist的数据归还给channel内存队列。

1.2.1 Agent¶

Agent是一个JVM进程，它以事件的形式将数据从源头送至目的，是Flume数据传输的基本单元。

Agent主要有3个部分组成，Source、Channel、Sink。

1.2.2 Source¶

Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据，包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。

1.2.3 Channel¶

Channel是位于Source和Sink之间的缓冲区。因此，Channel允许Source和Sink运作在不同的速率上。Channel是线程安全的，可以同时处理几个Source的写入操作和几个Sink的读取操作。

Flume自带两种Channel：Memory Channel和File Channel。

Memory Channel是内存中的队列。Memory Channel在不需要关心数据丢失的情景下适用。如果需要关心数据丢失，那么Memory Channel就不应该使用，因为程序死亡、机器宕机或者重启都会导致数据丢失。

File Channel将所有事件写到磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据。

1.2.3 Sink¶

Sink不断地轮询Channel中的事件且批量地移除它们，并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。

Sink是完全事务性的。在从Channel批量删除数据之前，每个Sink用Channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flume Agent，Sink就利用Channel提交事务。事务一旦被提交，该Channel从自己的内部缓冲区删除事件。

Sink组件目的地包括hdfs、logger、avro、thrift、ipc、file、null、HBase、solr、自定义。

1.2.3 Event¶

传输单元，Flume数据传输的基本单元，以事件的形式将数据从源头送至目的地。

1.3 Flume拓扑结构¶

Flume的拓扑结构如图

Flume Agent连接

单source，多channel、sink

负载均衡

Flume Agent聚合