大数据
数据研发 标签描述

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 随着数据规模的迅速增长和数据处理需求的不断演进,云原生架构和湖仓分析成为了现代数据处理的重要趋势。在这个数字化时代,企业面临着海量数据的挑战和机遇,而构建可扩展、灵活且高效的数据分析平台成为了迫切的需求。 文章主要介绍了火山引擎湖仓一体分析服务LAS(下文以LAS指代)基于Spark的云原生湖仓分析实践,利用Spark的强大功能和云原生技术的优势,构建高效、可扩展、灵活的数据分析平台,满足现代企业对数据洞察的迫切需求,为企业提供了强大的解决方案。文末更有专属彩蛋,新人优惠购福利,等着你来解锁! 本篇文章提...

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 DataLeap是火山引擎数智平台VeDI旗下的大数据研发治理套件产品,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。 数据血缘是帮助用户找数据、理解数据以及使数据发挥价值的基础能力。本文将聚焦数据血缘存储和血缘导出,分享数据血缘的模型设计以及优化,并介绍字节跳动在数据血缘建设过程中所遇到的挑战和技术实现以及数据血缘的具体用例,具体包括数据血缘模型、数据血缘优化、数据血缘用例、未来展望四个部分。本文介绍的数据血缘...

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 近日,火山引擎大数据研发治理套件DataLeap上线整库搬迁解决方案,包括整库离线同步、整库实时同步两大能力,大大提升数据上云便捷性,降低数据迁移成本,使用户易上手,低运维。 该解决方案基于成熟的技术引擎底座,同时支持可视化任务创建和运维,经抖音和头条等多个业务线亿级用户反复锤炼夯实,内部已完成成熟度与价值的验证,现正式对外开放。 在整库离线同步方面,用户可通过火山引擎DataLeap周期性或一次性将整库表数据同步到目标端,方案包括“一次性全量、周期性全量、一次性增量、周期性增量、一次性全量周期性增...

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 自上世50年代,以“计算机”作为代表性象征的信息革命开始,社会对于先进生产力的认知便开始逐步更迭——从信息化(通常认为是把企业中的信息资源与信息技术有机结合,从而提高企业的管理水平和效率)到数字化(普遍认为是以数据分析为核心,利用各种业务数据去反哺和优化业务过程)转变。 企业希望通过数字化来突破业务瓶颈,实现转型升级。而这期间,数据作为新的生产要素,其重要性毋庸置疑。 9月19日,2023火山引擎数据驱动科技峰会发布数据产品大语言模型(LargeLanguageModels)应用:DataLeap-...

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 在字节跳动内部,DataLeap数据平台数据治理团队致力于建立一站式、全链路的数据治理解决方案平台。 数据治理的概念 数据治理是一种数据管理的概念,确保组织能在数据的全生命周期中具有高质量的数据质量能力,并且实现对数据的完全管理,以支持业务的目标。 在这里面有些关键词:在一些组织、一些公司内部关注的是数据全生命周期,希望它有一个较高的质量,目标则是用来支持业务。 所以数据治理的目标主要由以下几点构成: 第一,最大化数据价值。 第二,管理数据的风险。 第三,降低数据的成本。 数据治理是一个比较大的概念。它包...

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 背景 某企业实时数仓团队通过数据收集、整合、计算和存储构建实时数据仓库,为企业提供快速、准确、可靠的实时数据分析和决策支持。目前该实时数仓团队已运行了上万的实时任务,依赖的组件繁多(例如:Flink、Yarn、Abase、Doris等)、开发人员众多、开发习惯和经验程度参差不齐等各类主客观因素,导致任务稳定性、资源浪费等问题频出。因此,任务治理已是势在必行,但纵观整个治理过程,仍存在以下矛盾: 1.业务阶段与数据治理的矛盾 业务阶段大致可以分为两个阶段:发展期,成熟期。发展期:产品不断迭代,需求不断新增,...

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 背景介绍 业务场景 在日常工作中,我们时不时需要对某些逻辑进行重复调度,这时我们就需要一个调度系统。根据不同的调度需求,可以广义分为两类: 定时调度 根据一定的周期对任务进行重复调度。这类比较容易实现,通常一个crontab就可以对任务进行定期调度。但是简单的crontab任务在实际生产中应用会有一些挑战,包括失败处理、监控以及部署、跨机器部署、重试等。 依赖调度 依赖调度类型,通常是指某个逻辑的触发需要在特定的“事件”发生之后,这个事件可以是上游某个任务完成,也可以是某个指定路径数据就绪,或者其他外部触...

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 背景 业务背景 随着字节业务的高速增长,业务场景越来越丰富,业务基于数据做的决策也越来越多,对数据的时效性要求也越来越高。原有离线批处理的数据仓库已经无法满足诉求,因此需要打造一套同时具备高时效性和高稳定性的计算能力快速完成对数据的处理,即实时数仓。 团队介绍 直播实时数仓团队隶属于Data-数据平台部门,负责为直播中台业务建设实时数据仓库,为业务侧数据产品提供实时数据能力。 痛点 高收益意味着高风险也同时存在,例如数据时效性方面更新延迟超过15分钟,就会有高客诉、甚至资损风险。 2023年之前,各业...

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 摘要 火山引擎大数据研发治理套件DataLeap的DataCatalog系统通过汇总和组织各种元数据,解决了数据生产者梳理数据、数据消费者找数和理解数的业务场景,其中搜索是DataCatalog的主要功能之一。本文详细介绍了火山引擎DataLeap的DataCatalog系统的搜索功能的设计与实现。 背景 DataCatalog能够帮助大公司更好地梳理和管理自己的资产,是Data-drvien公司的重要平台。一个通用的DataCatalog平台通常包含元数据管理,搜索,血缘,标签,术语等功能。其中,搜索是...

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 近日,联合火山引擎开发者社区,火山引擎数智平台(VeDI)《数智化转型背景下的火山引擎大数据技术揭秘》主题Meetup暨超话数据特别场正式在深圳举办,邀请到了Datasail、DataLeap、ByteHouse、EMR、LAS等多条数智平台(VeDI)产品线的专家带来大数据技术干货分享。 如今各个企业面临的是更变幻莫测的市场、更复杂的内部架构、更进退失据的现状。在这种现状下,各个企业如何顺利的完成数字化转型? 今年4月上海举办的春季FORCE原动力大会上,火山引擎正式提出了“数据飞轮”的数字化建...

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 Notebook是一种支持REPL模式的开发环境。所谓「REPL」,即「读取-求值-输出」循环:输入一段代码,立刻得到相应的结果,并继续等待下一次输入。Notebook通常使得探索性的开发和调试更加便捷,在Notebook环境,用户可以交互式地在其中编写你的代码、运行代码、查看输出、可视化数据并查看结果,使用起来非常灵活。 在数据开发领域,Notebook广泛应用于数据清理和转换、数值模拟、统计建模、数据可视化、构建和训练机器学习模型等方面。 但是显然做数据开发,只有Notebook是不够的。目前,火山引...