Tendon 数据接入模块,包含数据源定义、数据集成、数据目标定义。数据接入有时也叫数据采集、ETL等。
Agent数据探针
“探针”也叫数据代理,部署到目标机器中,用来收集目标机器的数据。
常见的Agent有:Filebeat(推荐)、logstash等
Source定义
用来描述数据在什么存储系统中,常见的如:KAFKA、文件系统等。
通常,如果数据以日志的形式存储在业务系统中,需要安装Agent数据代理,Agent可以实时读取日志,然后发送到KAFKA中。所以,我们的数据源需要支持KAFKA。
数据集成
- 对于KAFKA中数据,需要解析成键值对。
- 键映射:将键值对的键映射到标准字段库中。
- 例如:标准字段库中来源地址字段叫src_ip,如果日志中来源地址叫source_ip,需要将键名source_ip 改名为 src_ip。
- 值映射:将键值对中特定键对应的值映射到标志字段库中的定义。
- 例如:标准字段库中字段 性别(sex) ,用 m 代表男;如果日志中用 1 或 "male" 或 “男”,需要将值该为“m”。
- 为映射的建制对,移动到一个溯源字段中,用JSON格式化,用于后续分析。
Sink定义
将解析、映射后的数据,存储到目标系统中。使用Sink定义存储目标系统。