Flume-摩杜云开发者社区

Flume

hKj4Sm9ejVao 2023年11月02日 76 0

kafka flume Hadoop flume hadoop kafka

概述

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。
Flume可以采集文件，socket数据包、文件、文件夹、kafka等各种形式源数据，又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中
一般的采集需求，通过对flume的简单配置即可实现
Flume针对特殊场景也具备良好的自定义扩展能力，因此，flume可以适用于大部分的日常数据采集场景

应用

官方文档: https://flume.apache.org/releases/content/1.11.0/FlumeUserGuide.html
流程图
示例：

source：

taildir：实时读取文件的信息，并且支持断点续存
avro:flume：之间的传输，一般跟avro sink 并用
nc：接收网络端口
exec：可用于监控文件，不支持断点续存
spooling：监控文件夹，支持断点续存
kafka：

channel:

file：读写慢，安全，可以索引
memory：读写快，容易丢数据
kafka：

sink:

hdfs：
kafka：
avro

完整配置(flume>>kafka)

//定义组件
a1.sources = r1 f1
a1.channels = c1
//配置sources
# Describe/configure the source
a1.sources.r1.type = TALLDIR
a1.sources.r1.filegroups = f1
a1.sources.r1.filegroups.f1 = 填写需要监控的文件
a1.sources.r1.positionFile = /usr/local/flume/taildir_position.json

//配置channel
# Use a channel which buffers events in memory
a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel
a1.channels.c1.kafka.bootstrap.servers = hadoop-master:9092,hadoop-slave1:9092,hadoop-slave2:9092
a1.channels.c1.kafka.topic = topic_logv
a1.channels.c1.parseAsFlumeEvent = false //不以FlumeEvent的形式写入
//组装
# Bind the source and sink to the channel
a1.sources.r1.channels = c1

运行

flume bin/flume-ng agent -c conf/ -f 配置文件路径 -n a1 -Dflume.root.logger=info,console

启动一个kafka的消费

kafka-console-consumer.sh --bootstrap-server hadoop-master:9092 --topic topic_log

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇：微信头像更新延迟？下一篇： 11个经典的Apache开源项目

分享：

最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读

kafka入门：简介、使用场景、设计原理、主要配置及集群搭建（转）

UMG78UIvW0PY 2023年11月02日 68 0 0 zookeeper kafka 服务器

Kafka 负载均衡在 vivo 的落地实践

1e1eAFDdY2vd 2023年11月02日 51 0 0 集群 kafka 集群 kafka 负载均衡负载均衡

聊聊分布式应用中的消息中间件

wROjKzsxjeRY 2023年11月02日 63 0 0 消息队列 kafka Java 消息中间件

Flume之负载均衡Load balancing Sink Processor和案例 *

i1kyfCuzqmm7 2023年11月02日 40 0 0 apache flume 属性值负载均衡 Apache 负载均衡属性值 flume

如何使用HAProxy实现Kerberos环境下的Impala负载均衡

pdddowW4fPp8 2023年11月02日 39 0 0 cloudera Java hadoop Hadoop java cloudera

flume高级配置——数据流的复制、分流、负载均衡、故障转移

tdJcRsFnVfPo 2023年11月02日 43 0 0 选择器 flume 数据源数据选择器数据源数据 flume

基于 Kubernetes 的微服务项目设计与实现

qmj2xyt4e0cp 2023年11月02日 59 0 0 高可用 kafka 微服务

【可扩展性】谷歌可扩展和弹性应用的模式

WuI4stbRPSwJ 2023年11月02日 68 0 0 大数据大数据分布式 hadoop 编程语言 Hadoop 数据库分布式编程语言数据库

kafka——消费者原理解析

vxNQtvtQlfbi 2023年11月02日 79 0 0 消息队列 kafka 数据 kafka 偏移量偏移量数据消息队列

Kafka——一致性重要机制之ISR(kafka replica)

vxNQtvtQlfbi 2023年11月02日 45 0 0 消息队列 kafka 数据 kafka Java 数据 java 消息队列

flume 隐藏文件.flumespool-main.meta (系统找不到指定的路径。)

ehrZuhofWJiC 2024年05月17日 52 0 0 flume

kafka——原理解析

vxNQtvtQlfbi 2023年11月02日 44 0 0 zookeeper 消息队列 kafka 数据 zookeeper kafka 数据消息队列

[Kafka错误]timeout expired while fetching topic metadata

i1kyfCuzqmm7 2023年11月02日 34 0 0 百度 kafka properties文件

SpringBoot整合Kafka集群

vxNQtvtQlfbi 2023年11月02日 50 0 0 消息队列 kafka kafka json spring spring json 消息队列

在Windows环境下安装运行Kafka

vxNQtvtQlfbi 2023年11月02日 71 0 0 zookeeper 消息队列 kafka zookeeper kafka Java java 消息队列

#云原生征文#高效、可扩展的【云原生】 PubSub 系统

TGzdIuZKxWkS 2023年11月02日 62 0 0 kafka 数据 kafka 批处理批处理数据

kafka安装

2QrAa7u9TTys 2023年11月02日 45 0 0 消息队列 kafka 消息中间件 kafka安装 kafka下载

Will not attempt to authenticate using SASL (unknown error) (org.apache.zookeeper.ClientCnxn)

2QrAa7u9TTys 2023年11月02日 46 0 0 消息队列 kafka 消息中间件 sasl MQ

kafka_2.12-3.0.0 版本Topic、producer 命令记录

qaXee3gSvBFs 2023年11月02日 32 0 0 bootstrap kafka 服务器

如何在Hue中配置Impala的负载均衡

pdddowW4fPp8 2023年11月02日 49 0 0 hadoop 负载均衡 Hadoop 配置项负载均衡配置项

hKj4Sm9ejVao

作者其他文章更多

Flume

2023-11-02

最新推荐更多

Centos yum install和yum groupinstall的区别

2024-05-31

系统概要设计

2024-05-31

配置过滤器（解决乱码）

2024-05-31

【前端传过来三次请求，主键为业务系统，三次以后就停止发送】

2024-05-31

力扣数据中心有 n 台服务器，分别按从 0 到 n-1 的方式进行了编号

2024-05-17

remix-ide是浏览器的ide，官方已经提供地址，但是需要连接外网。如果是内网，需要自己在服务器里搭建remix-ide；另一种方式是用remix-ide的桌面版。

2024-05-17

Linux：Centos9：配置固定ip

2024-05-17

Linux：shell脚本：基础使用（4）《正则表达式-grep工具》

2024-05-17

MDM（移动设备管理策略系统）、MAM、MCM作用

2024-05-17

Linux配置yum源(本地源和网络源)

2024-05-17

iOS调用系统相册、相机显示中文标题

2024-05-17

linux 新增磁盘通过fstab自动挂载重启系统后系统故障案例

2024-05-17

Linux网络配置文件:MAC,UUID,设备名,子网掩码,网关,DNS等底层结构、架构图，工作原理，使用场景详解

2024-05-17

系统时间正常日志时间不正常

2024-05-17

吃透nginx 403 forbidden报错

2024-05-17

linux系统中解决docker: command not found

2024-05-17

#yyds干货盘点# Go+ HTTP 服务器教程（5.2）

2024-05-17

如何避免Win10监控你的一举一动

2024-05-17

flume 隐藏文件.flumespool-main.meta (系统找不到指定的路径。)

2024-05-17

使用adb命令抓取崩溃日志

2024-05-17