大家好,我是独孤风。 又到了本周的开源项目推荐。最近推荐的元数据管理项目很多,但是很多元数据管理平台的功能复杂难用。那么有没有轻量一点的元数据管理项目呢?今天为大家推荐的开源项目,就是一个轻量级的元数据管理工具。虽然轻量,但是元数据的收集、展示、数据血缘等功能都是支持的。让我们一起来看看吧 Marquez概述 今天为大家推荐的开源项目名为Marquez。这是WeWork开源的元数据管理工具,可以对元数据进行收集,聚合和可视化。Marquez提供了开源的元数据服务,用于数据生态系统元数据的收集、聚合和可视化。通过它可以对数据集整体的产生和消费情况进行把控。并提供数据处理全过程的数据可视化,并...

  Quc7vC5U2WsX   2024年01月10日   37   0   0 大数据

大家好,我是独孤风。元数据管理平台层出不穷,但目前主流的还是Atlas、Datahub、Openmetadata三家,那么我们该如何选择呢? 本文就带大家对比一下。要了解元数据管理平台,先要从架构说起。 元数据管理的架构与开源方案 下面介绍元数据管理的架构实现,不同的架构都对应了不同的开源实现。 下图描述了第一代元数据架构。它通常是一个经典的单体前端(可能是一个Flask应用程序),连接到主要存储进行查询(通常是MySQL/Postgres),一个用于提供搜索查询的搜索索引(通常是Elasticsearch),并且对于这种架构的第1.5代,也许一旦达到关系数据库的“递归查询”限制,就使用了处理...

  Quc7vC5U2WsX   2024年01月09日   32   0   0 大数据

大家好,我是独孤风。 又到了本周的开源项目推荐。数据质量是企业进行数据治理非常重要的一个环节,高质量的数据对管理决策,业务支撑都有非常重要的作用。只有持续的数据质量改进才能推动数据治理体系的完善,差劲的数据质量就如同顽固的疾病一样,如果不能得到及时的改善,最终可能会导致重大的问题。近几年来,管理数据质量的工具层出不穷,但是能够全面的对企业数据质量进行分析与洞察的工具并不多见。那么,有没有好用的开源的数据质量项目呢?今天为大家推荐的开源项目,就是一个极为优秀的数据质量检查工具,开源的数据质量管理项目。让我们一起来看看吧 概述 今天为大家推荐的开源项目名为GreatExpectations。G...

  Quc7vC5U2WsX   2024年01月05日   62   0   0 大数据

大家好,我是独孤风,从本周开始,争取每周为大家带来一个优秀的开源项目推荐。 开源项目不仅促进了技术的发展和普及,还为全球范围内的开发者和用户社区建立了一个共享知识、协作和创新的平台。站在巨人的肩膀上才能看的更远,我们平时也应该多多关注开源项目,不仅学习其丰富的知识,也要找机会为开源事业做出自己的贡献。 话不多说,今天为大家推荐的开源项目名为SQLLineage。 SQLLineage是一个使用Python开发的SQL血缘分析工具。它专注于提供SQL查询的血缘关系和依赖关系的深入分析。 Github首页地址为:https://github.com/reata/sqllineage 目前标星89...

  Quc7vC5U2WsX   2023年12月05日   28   0   0 大数据

ApachePaimon是一个流式数据湖平台。致力于构建一个实时、高效的流式数据湖平台。这个项目采用了先进的流式计算技术,使企业能够实时处理和分析大量数据。ApachePaimon的核心优势在于它对于大数据生态系统中流式处理的支持,尤其是在高并发和低延迟方面表现出色。 目前业界主流数据湖存储格式项目都是面向Batch场景设计的,在数据更新处理时效性上无法满足StreamingLakehouse的需求,因此Flink社区在一年多前内部孵化了FlinkTableStore(简称FTS)子项目,一个真正面向Streaming以及Realtime的数据湖存储项目。 为了让FlinkTableStor...

  Quc7vC5U2WsX   2023年12月01日   48   0   0 大数据

大家好,我是独孤风。 近期Datahub进行了一次大的版本更新,从0.9版本以后Datahub也正式发布了列级别数据血缘的功能。 0.9.1版本又增加了,列的影响分析这个功能。 这样Datahub对于列级别数据血缘的功能支撑就非常完善了。 目前Datahub支持列级别数据血缘的主要功能有。 1、建立列级别数据血缘的API2、Snowflake和Looker,Tableau的列级别数据血缘实现3、列级别数据血缘的可视化4、列的影响分析 列级别的数据血缘非常的重要。主要是从“来”和“去”两个方向对于数据血缘进行分析。 1、理解列如何计算产生的。 该列是否由敏感数据计算产生。计算该列数据都进行...

  Quc7vC5U2WsX   2023年11月01日   70   0   0 大数据

大家好,我是独孤风,大数据流动的作者。 最近几个概念频繁出现在大家的视野内。 什么是数据管理,数据治理,数据中心,数据中台,数据湖? 他们之间又有怎么样的区别和联系呢? 这几个概念常常让人混淆,今天我们就来详细解析一下。 一、数据管理 数据管理是指组织对其整个数据生命周期进行的规划、执行和控制,以期最大化数据的价值。它涵盖了从数据采集、存储、处理到最终使用等全部过程。 良好的数据管理需要进行全面的战略规划,包括确定组织的数据需求、数据架构的设计、明确数据收集方式、建立数据安全与监控措施等。同时还需要具体的执行方案,如数据采集系统的搭建、存储介质的选择、数据处理流程的设定、以及数据分析和应用平台...

  Quc7vC5U2WsX   2023年11月01日   48   0   0 大数据
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~