今年FlinkForwardAsia(以下简称FFA)重新回归线下,将于12月89日在北京望京凯悦酒店举办。FlinkForwardAsia2023大会议程现已正式上线! FFA2023官网:flink-forward.org.cn/ FFA2023核心技术专场由ApacheFlink核心贡献者与来自阿里云智能、字节跳动、网易、美团、蚂蚁金服等公司的一线技术专家解析Flink技术动向与应用实践。 流计算需要什么样的流存储? 伍翀|阿里云智能FlinkSQL团队负责人,阿里巴巴高级技术专家,ApacheFlinkPMCmember&Committer FlinkSQL在流计算场景中已经...

摘要:本文整理自阿里云高级开发工程师曾庆栋(曦乐)在StreamingLakehouseMeetup的分享。内容主要分为四个部分: 传统数据仓库分析实现方案简介 Paimon+StarRocks构建湖仓一体数据分析实现方案 StarRocks与Paimon结合的使用方式与实现原理 StarRocks社区湖仓分析未来规划 一、传统数据仓库分析实现方案简介 传统数据仓库分析的实现是一个典型Lambda架构,通过下图我们可以看出传统架构主要分为两层:上层是实时链路层,下层是离线链路层。它们的数据通过左侧的数据摄入层,通过不同路径将数据统一整合到像Kafka这样的消息队列中间件中,然后将数据...

摘要:本文整理自字节跳动基础架构工程师李国君,在StreamingLakehouseMeetup的分享。幸福里业务是一种典型的交易、事务类型的业务场景,这种业务场景在实时数仓建模中遇到了诸多挑战。本次分享主要介绍幸福里业务基于Flink&Paimon构建流式数仓的实践经验,从业务背景、流批一体数仓架构、实践中遇到的问题和解决方案,借助Paimon最终能拿到的收益,以及未来规划方面进行介绍。 一、业务背景 幸福里业务是字节旗下关于房产的业务线,围绕这个业务有很多针对BP支持的方向,其中最重要的方向之一就是工单系统。工单系统面向的用户是幸福里业务线一线的经纪人和门店经理等。如下图所示...

摘要:本文整理自SmartNews数据平台架构师ApacheIcebergContributor戢清雨,在FlinkForwardAsia2022实时湖仓专场的分享。本篇内容主要分为五个部分: SmartNews数据湖介绍 基于Icebergv1格式的数据湖实践 基于Flink实时更新的数据湖(Icebergv2)解决方案 实时更新小文件问题的优化 总结与展望 一、SmartNews数据湖介绍 2012年,SmartNews公司在日本东京成立。一直专注于PGC新闻,是一款在日本处于领先地位的新闻APP。目前,服务的客户主要集中在日本、欧美等国家。SmartNews公司在日本、美国和...

作者:千浪@阿里云研发工程师 MongoDBCDC概述 MongoDB是当下流行的一个基于文档的非关系性数据库。MongoDBCDC[1]是FlinkCDC社区[2]提供的一个用于捕获变更数据(ChangeDataCapturing)的Flink连接器,可连接到MongoDB数据库和集合,并捕获其中的文档增加、更新、替换、删除等变更操作,生成标准的FlinkChangelog事件流,支持通过FlinkSQL或DataStreamAPI进行数据加工,加工之后可以方便地写入到Flink所支持的各种下游系统中。 MongoDBCDC核心功能 全增量一体化读取 在实际的业务场景中,常常需要同时采集...

摘要:本文整理自美团数据平台计算引擎组工程师冯斐,在FlinkForwardAsia2022生产实践专场的分享。本篇内容主要分为四个部分: 相关背景和问题 解决思路分析 资源调度优化实践 后续规划 一、相关背景和问题 在计算规模方面,目前我们有7w多作业,部署在1.7w台机器上,高峰期流量达到每秒9亿条。在部署方式上,目前我们主要还是在Yarn上使用Session模式部署作业。 大量的作业和机器也带来很多资源相关的问题,我们把问题分成两类。一类是硬件问题,比如磁盘故障、机器宕机、内存故障导致的机器卡顿等等。另一类是软件问题,包括磁盘IO被打满、作业间相互竞争影响等等。这两类问题,...

摘要:本文整理自阿里云/数据湖Spark引擎负责人周克勇(一锤)在StreamingLakehouseMeetup的分享。内容主要分为五个部分: ApacheCeleborn的背景 ApacheCeleborn——快 ApacheCeleborn——稳 ApacheCeleborn——弹 Evaluation 一、背景 大数据引擎的中间数据有两个来源:Shuffle和Spill,其中最重要的是Shuffle,据统计有超过15%的资源消耗在Shuffle。 1.1传统Shuffle的问题 下图右侧结构图是传统Shuffle的过程,左边是MapperTask,基于PartitionID对...

本文整理自阿里云Flink数据通道负责人、FlinkCDC开源社区负责人,ApacheFlinkPMCMember&Committer徐榜江(雪尽),在StreamingLakehouseMeetup的分享。内容主要分为四个部分: FlinkCDC核心技术解析 数据入湖入仓的挑战 基于FlinkCDC的入湖入仓方案 FlinkCDC+Paimon最佳实践 一、FlinkCDC核心技术解析 FlinkCDC是基于数据库日志的CDC技术,实现了全增量一体化读取的数据集成框架。配合Flink优秀的管道能力和丰富的上下游生态,FlinkCDC可以高效实现海量数据的实时集成。 如上图...

本文整理自阿里云研发工程师刘大龙(风离),在StreamingLakehouseMeetup的分享。内容主要分为三个部分: FlinkBatchonPaimon挑战 FlinkBatch核心优化 后续规划 一、FlinkBatchonPaimon挑战 众所周知,Paimon在创立之初就是为了解决流式数仓场景的问题。从下面的架构图里我们可以看到,这里有FlinkCDC的高效入湖,FlinkSQL进行流式、批式的ETL、Ad-hoc分析,用一套引擎完成数据的入湖、分析与查询,整个架构上非常简洁,语义统一,解决了传统lambda架构下实时离线的数据一致性问题。 Flink作为一个流批一体...

摘要:本文整理自阿里云开源大数据表存储团队负责人,阿里巴巴高级技术专家李劲松(之信),在StreamingLakehouseMeetup的分享。内容主要分为四个部分: 流计算邂逅数据湖 PaimonCDC实时入湖 Paimon不止CDC入湖 总结与生态 一、流计算邂逅数据湖 流计算1.0实时预处理 流计算1.0架构截止到现在也是非常主流的实时数仓中的一个实时预处理的功能,可以通过流计算把消息队列中的数据(比如:日志数据,CDC数据等等),通过消息队列将数据读过来,通过流计算,进行数据预处理,最终把结果写到MySQL中。 这个系统的典型特点是,它可以面向在线服务的实时查询,这就意味着用...

摘要:本文整理自bilibili资深开发工程师张杨,在FlinkForwardAsia2022核心技术专场的分享。本篇内容主要分为四个部分: 相关背景 state压缩优化 Remotestate探索 未来规划 一、相关背景 1.1业务概况 从业务规模来讲,B站目前大约是4000+的Flink任务,其中95%是SQL类型。 从部署模式来讲,B站有80%的部署是onyarnapplication部署,我们的yarn集群和离线的yarn是分开的,是实时专用的yarn集群。剩下的20%作业,为了响应公司降本增效的号召,目前是在线集群混部。这个方案的采用主要是从成本考虑,目前在使用yarn...

概要: 大家好,我们是BTC.com团队。2020年,我们有幸接触到了Flink和PyFlink生态,从团队自身需求出发,完善了团队内实时计算的任务和需求,搭建了流批一体的计算环境。 在实现实时计算的过程中,我们在实践中收获了一些经验,在此分享一些这方面的心路历程。 0x01TOC 困惑•描述•思考•行动 流批一体的架构 架构 效果 zeppelin,PyFlinkonk8s等实践 zeppelin PyFlinkonk8s 区块链领域实践 展望•总结 0x02困惑•描述•思考•行动 作为工程师,我们每天都在不断地了解需求,研发业务。 有一天,我们被拉到了一次团队总结会议上...

  SpPEKzKl7ngi   2023年11月02日   116   0   0 数据区块链flink
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~