数据的采集,实时的反馈信息,能够支撑大量的数据,高容错
由Linkedin公司研发
分布式 发布和订阅 海量日志采集系统
工作模式:发布和订阅 ,将采集的数据存储到内部的消息队列中,在有效的时间内不会失效
特点:
高吞吐量:每秒处理数十万条消息,和分布式kafka规模有关(broker的个数)
缓存TB级别数据量
支持分区,支持压缩... ...
分布式:易扩展,高容错
由producer生产者、broker代理、consumer消费者组成 ,三者的个数不定
生产者:flume/java程序/service
消费者:storm/hbase/hdfs
代理节点:broker , 缓存kafka中传递的数据到broker节点上