软件工程
大数据 标签描述

索引原理 倒排索引 倒排索引(InvertedIndex)也叫反向索引,有反向索引必有正向索引。通俗地来讲,正向索引是通过key找value,反向索引则是通过value找key。ES底层在检索时底层使用的就是倒排索引。 索引模型 现有索引和映射如下: { "products":{ "mappings":{ "properties":{ "description":{ "type":"text" }, "price":{ "type":"float" }, "title":{ "type":"keyword" } } } } } 先录入如下数据,有三个字段title、price、descri...

  ej6Fb1sGOJN2   2023年11月01日   331   0   0 大数据

本文分享自华为云社区 《实战指南,SpringBoot+Mybatis如何对接多数据源》,作者:战斧。 在我们开发一些具有综合功能的项目时,往往会碰到一种情况,需要同时连接多个数据库,这个时候就需要用到多数据源的设计。而Spring与Myabtis其实做了多数据源的适配,只需少许改动即可对接多数据源。本期我们就贴近实战,以一个单数据源的Demo为例,讲述将其改为多数据源项目的过程,希望大家能有所体会。 一、数据源的定义   数据源(DataSource)是指数据存储的地方,大多数情况是指数据库,不过文件服务器、传感器、API等也能算数据源,主要是提供了对数据的访问和...

  YqbaJkf98QJO   2023年11月01日   148   0   0 大数据

质量是产品的生命线,代码检查是软件开发过程中至关重要的一环,它可以帮助我们发现并纠正潜在的错误,提高软件质量,降低维护成本。 在袋鼠云产品中也存在这个问题,由于离线数据开发人员SQL水平不一,导致代码书写混乱、SQL代码运行问题较多。本文将介绍在离线产品中如何利用SQL检查规则规范化SQL代码,对代码书写问题进行拦截,便于统一管理,用于预防引入需要治理的问题。 通过本文的介绍,我们希望您能够认识到代码检查的重要性,并了解如何通过最佳实践来提高代码质量和开发效率。 何时进行代码规则检查? SQL任务在离线产品界面开发完成之后,点击运行的按钮,会先经过代码规则检查,如果代码规则不满足则会提示到用户...

  b5JnreLK4zaN   2023年11月01日   56   0   0 大数据

本文将从e2e的基本介绍,e2e的使用与扩展,session日志隔离三个维度为大家带来ChunJune2e&session日志隔离的分享。 大量具体代码和演示请看视频教程⬇️ 视频课程: https://www.bilibili.com/video/BV1ru411P7oZ/?spm_id_from=333.999.0.0 课件获取: https://www.dtstack.com/resources/1052?src=szsm ChunJun为何选择e2e测试 ChunJun项目是基于Flink进行扩展,并开发了大量插件来支持数据同步和SQL执行,当前支持的数据源插件已经超过...

  b5JnreLK4zaN   2023年11月01日   63   0   0 大数据

近日,袋鼠云大数据引擎专家郝卫亮,为大家带来了《袋鼠云在实时数据湖上的探索与实践》主题分享,帮助大家能了解到什么是实时数据湖、如何进行数据湖选型及数据平台建设数据湖的经验。 如今,大规模、高时效、智能化数据处理已是“刚需”,企业需要更强大的数据处理能力,来应对数据查询、数据处理、数据挖掘、数据展示以及多种计算模型并行的挑战。 因此,袋鼠云基于自研的一站式大数据基础软件——数栈提出相应的实时数据湖解决方案,能够兼容Iceberg、Hudi等数据湖平台。实时数据湖提供了多样化的分析能力,而不限于批处理、流处理、交互式查询和机器学习;提供了ACID事物能力,可以更好的保障数据质量;提供了完善的数据管...

  b5JnreLK4zaN   2023年11月01日   65   0   0 大数据

ApacheSeaTunnel是一个非常易于使用的、超高性能的分布式数据集成平台,支持海量数据的实时同步。每天可稳定高效同步数百亿数据,已被近百家企业投入生产使用。 现在的版本不支持通过jtds的方式链接sqlserver,我们来自己写代码来实现它,并把代码提交给apacheseatunnel。 1.下载源代码 1.首先从远端仓库https://github.com/apache/seatunnelfork一份代码到自己的仓库中 2.远端仓库中目前有超过30个分支: dev:日常开发分支 其他分支:发布版本分支 3.把自己仓库clone到本地 gitclonegit@github.c...

  NCZdV8CZSb34   2023年11月01日   267   0   0 大数据

通过API对外提供数据服务是大部分企业中比较常见的数据应用方式,对于API台管理者、开发者和调用者来说,API的调用性能、安全性和稳定性是在台选型时最需要考虑的三个因素。 袋鼠云API开发及管理台【数栈-数据服务DataAPI】通过多种手段标准化管控服务,可完成从API创建、发布、申请/审批、调用的全生命周期管控,至今已经服务于300+客户。本文将为大家分享DataAPI是如何实现这三方面保障的。 DataAPI的调用性能 在数据库和网络状况良好的情况下,DataAPI目前的API调用性能在5kQPS时单次调用耗时最小可在30-80ms内。期台不仅从多个后端调用链路环节做了优化,也在产品层支持...

  b5JnreLK4zaN   2023年11月01日   51   0   0 大数据

业务挑战与痛点 随着互联网技术的发展、云计算技术的成熟、人工智能技术的兴起和数字化经济的崛起,数据已成为企业的核心资产。在金融行业中,数字化已成为了支撑各类业务场景的核心力量,包括个人理财、企业融资、股票交易、保险理赔、贷款服务、支付结算、投资咨询、资产管理等等。然而,在基于大数据分析与处理技术的业务建设中,当下的金融企业也面临许多挑战与不足: 实时与查询性能不足,高并发支持挑战大:金融行业中常见的风控、决策分析、高管看板、实时营销等业务场景均要求数据的高时效性以及秒级甚至毫秒级的查询性能;同时金融行业常见的支付、转账、账务业务场景均对吞吐量有很高的要求,需要稳定的高并发数据服务支持。然而...

  sFKdtsnoEZdx   2023年11月01日   44   0   0 大数据

ApacheDolphinScheduler是一款开源的分布式任务调度系统,旨在帮助用户实现复杂任务的自动化调度和管理。DolphinScheduler支持多种任务类型,可以在单机或集群环境下运行。下面将介绍如何实现DolphinScheduler的自动化打包和单机/集群部署。 自动化打包 所需环境:maven、jdk 执行以下shell完成代码拉取及打包,打包路径:/opt/action/dolphinscheduler/dolphinscheduler-dist/target/apache-dolphinscheduler-dev-SNAPSHOT-bin.tar.gz sudosuro...

  sFKdtsnoEZdx   2023年11月01日   63   0   0 大数据

2022年4月,在FlinkX进行初版开源的整整四年后,技术团队决定对FlinkX进行整体升级,并更名为ChunJun。到目前为止,ChunJun正式更名上线已经过了一年多了。作为一款稳定、易⽤、⾼效、批流⼀体的数据集成框架,相信各位关注着、喜爱着、使用着ChunJun的开发者们在过去的这段日子里肯定和ChunJun发生了众多有趣的故事。 本着促进社区活跃,倾听用户诉求的目的,我们将举办一场名为“我与ChunJun的故事”有奖征稿活动。这是一场专为热爱开源,对ChunJun有热情的你们设计的活动,我们希望能看到各位开发者们与ChunJun之间的故事,也希望各位开发者们在彼此故事的分享中有所交流...

  b5JnreLK4zaN   2023年11月01日   57   0   0 大数据

Flink是一个分布式系统,要求有效地分配和管理计算资源以执行流式应用程序。它集成了所有常见的集群资源管理器,如HadoopYARN和Kubernetes,但也可以设置为作为standalone甚至库运行。 本节概述了Flink的体系结构,并描述了其主要组件如何交互以执行应用程序以及从故障中恢复。 Flink集群解析 Flink运行时由两种类型的进程组成:一个JobManager和一个或多个TaskManager。 Client不是运行时和程序执行的一部分,而是用于准备数据流并将其发送到JobManager。之后,Client可以断开连接(分离模式),或者保持连接以接收进度报告(附加模式)。...

  FGTdbwjSrhj4   2023年11月01日   44   0   0 大数据

pentaho使用 先展示一下用途和效果 1.环境准备 1.1pentaho是什么? pentaho可读作“彭塔湖”,原名keetle在keetle被pentaho公司收购后改名而来。 pentaho是一款开源ETL工具,纯java编写的C/S模式的工具,可绿色免安装,开箱即用。支持Windows、macOS、Linux平台。 pentaho有2个核心设计,即转换和作业。 转换是一个包含输入、逻辑处理、输出的完整过程,即ETL。 作业是一个提供定时执行转换的机制,即定时服务调度。 pentaho官网下载链接:PentahoCommunityEditionDownload|HitachiV...

  Q3ziskbOaHqk   2023年11月01日   58   0   0 大数据

导读 蜀海供应链是集销售、研发、采购、生产、品保、仓储、运输、信息、金融为一体的餐饮供应链服务企业。2021年初,蜀海信息技术中心大数据技术研发团队开始测试用DolphinScheduler作为数据中台和各业务产品项目的任务调度系统工具。本文主要分享了蜀海供应链在海豚早期旧版本实践过程中的探索创新和在跨大版本升级部署过程中的经验,希望对大家有所启发和帮助。 作者简介 杜全,蜀海供应链大数据工程师,参与蜀海大数据平台和数据中台建设。 业务背景介绍 我们公司的主要业务如下图所示: 领导驾驶舱:提供给高层领导查看的数据准实时分析,T+1经营分析、产品毛利类、市场价格等报表 财务:各类日报、月...

  sFKdtsnoEZdx   2023年11月01日   57   0   0 大数据