摩杜云开发者社区-摩杜云

FFA 2023 「核心技术」专场： Flink 核心技术动向深度解读

今年FlinkForwardAsia（以下简称FFA）重新回归线下，将于12月89日在北京望京凯悦酒店举办。FlinkForwardAsia2023大会议程现已正式上线！ FFA2023官网：flink-forward.org.cn/ FFA2023核心技术专场由ApacheFlink核心贡献者与来自阿里云智能、字节跳动、网易、美团、蚂蚁金服等公司的一线技术专家解析Flink技术动向与应用实践。流计算需要什么样的流存储？伍翀｜阿里云智能FlinkSQL团队负责人，阿里巴巴高级技术专家，ApacheFlinkPMCmember&Committer FlinkSQL在流计算场景中已经...

SpPEKzKl7ngi 2023年11月28日 33 0 0 大数据 flink 大数据 flink SQL SQL apache sed sed apache

Paimon+StarRocks 湖仓一体数据分析方案

摘要：本文整理自阿里云高级开发工程师曾庆栋（曦乐）在StreamingLakehouseMeetup的分享。内容主要分为四个部分：传统数据仓库分析实现方案简介 Paimon+StarRocks构建湖仓一体数据分析实现方案 StarRocks与Paimon结合的使用方式与实现原理 StarRocks社区湖仓分析未来规划一、传统数据仓库分析实现方案简介传统数据仓库分析的实现是一个典型Lambda架构，通过下图我们可以看出传统架构主要分为两层：上层是实时链路层，下层是离线链路层。它们的数据通过左侧的数据摄入层，通过不同路径将数据统一整合到像Kafka这样的消息队列中间件中，然后将数据...

SpPEKzKl7ngi 2023年11月19日 31 0 0 大数据 flink 大数据 flink 后端后端数据数据物化视图物化视图

幸福里基于 Flink & Paimon 的流式数仓实践

摘要：本文整理自字节跳动基础架构工程师李国君，在StreamingLakehouseMeetup的分享。幸福里业务是一种典型的交易、事务类型的业务场景，这种业务场景在实时数仓建模中遇到了诸多挑战。本次分享主要介绍幸福里业务基于Flink&Paimon构建流式数仓的实践经验，从业务背景、流批一体数仓架构、实践中遇到的问题和解决方案，借助Paimon最终能拿到的收益，以及未来规划方面进行介绍。一、业务背景幸福里业务是字节旗下关于房产的业务线，围绕这个业务有很多针对BP支持的方向，其中最重要的方向之一就是工单系统。工单系统面向的用户是幸福里业务线一线的经纪人和门店经理等。如下图所示...

SpPEKzKl7ngi 2023年11月19日 26 0 0 大数据 flink 大数据 flink 后端后端链路数据数据链路

SmartNews 基于 Flink 的 Iceberg 实时数据湖实践

摘要：本文整理自SmartNews数据平台架构师ApacheIcebergContributor戢清雨，在FlinkForwardAsia2022实时湖仓专场的分享。本篇内容主要分为五个部分： SmartNews数据湖介绍基于Icebergv1格式的数据湖实践基于Flink实时更新的数据湖（Icebergv2）解决方案实时更新小文件问题的优化总结与展望一、SmartNews数据湖介绍 2012年，SmartNews公司在日本东京成立。一直专注于PGC新闻，是一款在日本处于领先地位的新闻APP。目前，服务的客户主要集中在日本、欧美等国家。SmartNews公司在日本、美国和...

SpPEKzKl7ngi 2023年11月19日 25 0 0 大数据 flink 数据主键 flink 解决方案数据主键大数据解决方案

深入解读 MongoDB CDC 的设计与实现

作者:千浪@阿里云研发工程师 MongoDBCDC概述 MongoDB是当下流行的一个基于文档的非关系性数据库。MongoDBCDC[1]是FlinkCDC社区[2]提供的一个用于捕获变更数据（ChangeDataCapturing）的Flink连接器，可连接到MongoDB数据库和集合，并捕获其中的文档增加、更新、替换、删除等变更操作，生成标准的FlinkChangelog事件流，支持通过FlinkSQL或DataStreamAPI进行数据加工，加工之后可以方便地写入到Flink所支持的各种下游系统中。 MongoDBCDC核心功能全增量一体化读取在实际的业务场景中，常常需要同时采集...

SpPEKzKl7ngi 2023年11月15日 30 0 0 后端时间戳 flink 大数据后端大数据数据 flink 时间戳数据

美团 Flink 资源调度优化实践

摘要：本文整理自美团数据平台计算引擎组工程师冯斐，在FlinkForwardAsia2022生产实践专场的分享。本篇内容主要分为四个部分：相关背景和问题解决思路分析资源调度优化实践后续规划一、相关背景和问题在计算规模方面，目前我们有7w多作业，部署在1.7w台机器上，高峰期流量达到每秒9亿条。在部署方式上，目前我们主要还是在Yarn上使用Session模式部署作业。大量的作业和机器也带来很多资源相关的问题，我们把问题分成两类。一类是硬件问题，比如磁盘故障、机器宕机、内存故障导致的机器卡顿等等。另一类是软件问题，包括磁盘IO被打满、作业间相互竞争影响等等。这两类问题，...

SpPEKzKl7ngi 2023年11月15日 28 0 0 大数据资源管理后端重启大数据后端 flink flink 重启资源管理

Apache Celeborn 让 Spark 和 Flink 更快更稳更弹性

摘要：本文整理自阿里云/数据湖Spark引擎负责人周克勇（一锤）在StreamingLakehouseMeetup的分享。内容主要分为五个部分： ApacheCeleborn的背景 ApacheCeleborn——快 ApacheCeleborn——稳 ApacheCeleborn——弹 Evaluation 一、背景大数据引擎的中间数据有两个来源:Shuffle和Spill，其中最重要的是Shuffle，据统计有超过15%的资源消耗在Shuffle。 1.1传统Shuffle的问题下图右侧结构图是传统Shuffle的过程，左边是MapperTask，基于PartitionID对...

SpPEKzKl7ngi 2023年11月15日 45 0 0 大数据后端大数据 apache 后端 flink 数据 flink 数据 apache

基于 Flink CDC 高效构建入湖通道

本文整理自阿里云Flink数据通道负责人、FlinkCDC开源社区负责人，ApacheFlinkPMCMember&Committer徐榜江（雪尽），在StreamingLakehouseMeetup的分享。内容主要分为四个部分： FlinkCDC核心技术解析数据入湖入仓的挑战基于FlinkCDC的入湖入仓方案 FlinkCDC+Paimon最佳实践一、FlinkCDC核心技术解析 FlinkCDC是基于数据库日志的CDC技术，实现了全增量一体化读取的数据集成框架。配合Flink优秀的管道能力和丰富的上下游生态，FlinkCDC可以高效实现海量数据的实时集成。如上图...

SpPEKzKl7ngi 2023年11月15日 40 0 0 flink MySQL 大数据大数据 SQL sql mysql 数据 flink 数据

Flink Batch SQL Improvements on Lakehouse

本文整理自阿里云研发工程师刘大龙（风离），在StreamingLakehouseMeetup的分享。内容主要分为三个部分： FlinkBatchonPaimon挑战 FlinkBatch核心优化后续规划一、FlinkBatchonPaimon挑战众所周知，Paimon在创立之初就是为了解决流式数仓场景的问题。从下面的架构图里我们可以看到，这里有FlinkCDC的高效入湖，FlinkSQL进行流式、批式的ETL、Ad-hoc分析，用一套引擎完成数据的入湖、分析与查询，整个架构上非常简洁，语义统一，解决了传统lambda架构下实时离线的数据一致性问题。 Flink作为一个流批一体...

SpPEKzKl7ngi 2023年11月15日 37 0 0 flink 大数据大数据 SQL sql 数据 API flink 数据 API

Apache Paimon 实时数据湖 Streaming Lakehouse 的存储底座

摘要：本文整理自阿里云开源大数据表存储团队负责人，阿里巴巴高级技术专家李劲松（之信），在StreamingLakehouseMeetup的分享。内容主要分为四个部分：流计算邂逅数据湖 PaimonCDC实时入湖 Paimon不止CDC入湖总结与生态一、流计算邂逅数据湖流计算1.0实时预处理流计算1.0架构截止到现在也是非常主流的实时数仓中的一个实时预处理的功能，可以通过流计算把消息队列中的数据（比如：日志数据，CDC数据等等），通过消息队列将数据读过来，通过流计算，进行数据预处理，最终把结果写到MySQL中。这个系统的典型特点是，它可以面向在线服务的实时查询，这就意味着用...

SpPEKzKl7ngi 2023年11月14日 41 0 0 大数据 flink 大数据 flink 后端后端离线离线数据数据

Flink_state 的优化与 remote_state 的探索

摘要：本文整理自bilibili资深开发工程师张杨，在FlinkForwardAsia2022核心技术专场的分享。本篇内容主要分为四个部分：相关背景 state压缩优化 Remotestate探索未来规划一、相关背景 1.1业务概况从业务规模来讲，B站目前大约是4000+的Flink任务，其中95%是SQL类型。从部署模式来讲，B站有80%的部署是onyarnapplication部署，我们的yarn集群和离线的yarn是分开的，是实时专用的yarn集群。剩下的20%作业，为了响应公司降本增效的号召，目前是在线集群混部。这个方案的采用主要是从成本考虑，目前在使用yarn...

SpPEKzKl7ngi 2023年11月14日 29 0 0 大数据 flink 重启重启大数据 flink 后端后端缓存缓存

PyFlink + 区块链？揭秘行业领头企业 BTC.com 如何实现实时计算

概要：大家好，我们是BTC.com团队。2020年，我们有幸接触到了Flink和PyFlink生态，从团队自身需求出发，完善了团队内实时计算的任务和需求，搭建了流批一体的计算环境。在实现实时计算的过程中，我们在实践中收获了一些经验，在此分享一些这方面的心路历程。 0x01TOC 困惑•描述•思考•行动流批一体的架构架构效果 zeppelin，PyFlinkonk8s等实践 zeppelin PyFlinkonk8s 区块链领域实践展望•总结 0x02困惑•描述•思考•行动作为工程师，我们每天都在不断地了解需求，研发业务。有一天，我们被拉到了一次团队总结会议上...

SpPEKzKl7ngi 2023年11月02日 116 0 0 数据区块链 flink