一个偶然的机会,发现一条SQL语句在不同的MySQL实例上执行得到了不同的结果。 问题描述 创建门店维表表dim_store,来模拟下业务场景,结构和数据如下: SELECTstore_id, seller_id, GROUP_CONCAT(org_name,'-')ASorg_path FROM(SELECTstore_id,seller_id,org_name FROMcanytest.`dim_store` WHEREseller_idIN(211302)ANDstore_id=144994 ORDERBYorg_levelDESC)t GROUPBYstore_id, selle...

  GPYyDLfgzzIb   2023年11月02日   52   0   0 sqlsql子查询MySQL子查询MySQL

背景 OceanBase在支付宝其实已经服务多年,是一款非常有实力的国产分布式数据库,主打高性能、高可用、低成本和线性扩展。尤其在金融领域有丰富的经验。现在也已经开源。本文基于一些公开资料的学习给自己做个总结 基本架构 上图有些组件没有显示全,下图作为一个补充 整体是一个share-nothing架构,具备良好的并行和扩展性。下面介绍下其核心的组件: 集群:一个集群下可以有属于多个可用区的节点共同组成 region:物理地域,可以是一个城市或者地域 可用区:一个region由多个zone组成,一个可用区下可以有多个节点 observer节点:一个observer实例相当于一个节点,...

  GPYyDLfgzzIb   2023年11月02日   59   0   0 缓存SQLsql数据缓存数据

1背景 TiUP是TiDB4.0版本引入的集群运维工具,TiUPcluster是TiUP提供的使用Golang编写的集群管理组件,通过TiUPcluster组件就可以进行日常的运维工作,包括部署、启动、关闭、销毁、弹性扩缩容、升级TiDB集群,以及管理TiDB集群参数。TiDB架构见:TiDB分布式数据库架构介绍 部署环境说明见下图: 1添加数据盘EXT4文件系统生产环境部署,建议使用EXT4类型文件系统的NVME类型的SSD磁盘存储TiKV数据文件。这个配置方案为最佳实施方案,其可靠性、安全性、稳定性已经在大量线上场景中得到证实。使用root用户登录目标机器,将部署目标机器数据盘格式...

问题描述:   通过Azkaban调Sqoop,将Mysql数据导入Hive,报BadconnectackwithfirstBadLinkas×.×.×.×:50010(×.×.×.×为Hadoop集群其中一个DataNode的IP,我这里隐去了实际值)错误,如下: 26-04-202319:17:52PDTrun_get_result_diffINFODiagnosticMessagesforthisTask: 26-04-202319:17:52PDTrun_get_result_diffINFOError:java.lang.RuntimeException:Hi...

  GPYyDLfgzzIb   2023年11月02日   60   0   0 javaHadoopjavaHadoopapacheapache

背景: Hive:由FaceBook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质 Hive本质是将HQL转化为MapReduce程序: Hive处理的数据存储在HDFS Hive分析数据底层的实现是MapReduce 执行程序运行在Yarn上 示意图: 优点 Hive的执行延迟比较高,所以Hive常用语数据分析,对实时性要求不高的场合 Hive优势在于处理大数据,对于处理小数据没有优势,因为执行延迟比较高 Hive支持用户自定义函数,用户可以根据自己的需求来实现自己...

  GPYyDLfgzzIb   2023年11月02日   34   0   0 hive数据数据hive数据库数据库

一个偶然的机会,发现一条SQL语句在不同的MySQL实例上执行得到了不同的结果。 问题描述 创建门店维表表dim_store,来模拟下业务场景,结构和数据如下: SELECTstore_id, seller_id, GROUP_CONCAT(org_name,'-')ASorg_path FROM(SELECTstore_id,seller_id,org_name FROMcanytest.`dim_store` WHEREseller_idIN(211302)ANDstore_id=144994 ORDERBYorg_levelDESC)t GROUPBYstore_id, selle...

  GPYyDLfgzzIb   2023年11月02日   62   0   0 sqlsql子查询MySQL子查询MySQL

概述 这周在工作中需要去修改nginx的配置,发现了同事在使用ansible管理者系统几乎所有的配置,从数据库的安装、nginx的安装及配置。于是这周研究起了ansible的基础用法。回过头再去看他的工程,终于能看明白了,嘿嘿 前面已经总结了三篇文章了,本章做个总结: 首先是列一下不错的ansible教程,也是我学习过程中主要的参考文章 然后列出一个用到了ansible-playbookroleinclude的demo,稍微复杂的一个目录结构示例 教程资料 shijingjingAnsible入门我学习时候的主要参考 朱双印-ansible系列这个博主貌似主要是搞运维的,博客上总结了很...

  GPYyDLfgzzIb   2023年11月02日   59   0   0 githubAnsibleAnsiblegithubmongodbmongodb

线上查询及帮助命令(2个) man 查看命令帮助,命令的词典,更复杂的还有info,但不常用。 help 查看Linux内置命令的帮助,比如cd命令。 文件和目录操作命令(18个) ls 全拼list,功能是列出目录的内容及其内容属性信息。 cd 全拼changedirectory,功能是从当前工作目录切换到指定的工作目录。 cp 全拼copy,其功能为复制文件或目录。 find 查找的意思,用于查找目录及目录下的文件。 mkdir 全拼makedirectories,其功能是创建目录。 mv 全拼move,其功能是移动或重命名文件...

1.日期函数 获取当前日期是第几周:from_unixtime(unix_timestamp('20210909','yyyyMMdd'),'ww'); 下面这种方式获取周,会少了一周: weekofyear(from_unixtime(unix_timestamp(cast('20210809'asstring),'yyyyMMdd'),'yyyy-MM-dd')); 日期范围当前月的第一天到最后一天: anda.day>=date_format(DATE_SUB(FROM_UNIXTIME(UNIX_TIMESTAMP()),DAYOFMONTH(FROM_UNIXTIME(U...

  GPYyDLfgzzIb   2023年11月02日   55   0   0 字段数据unix数据unix字段

报错结果: Causedby:java.lang.RuntimeException:java.lang.ClassNotFoundException:Classcom.aliyun.jindodata.oss.JindoOssFileSystemnotfound atorg.apache.hadoop.conf.Configuration.getClass(Configuration.java:2349) atorg.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2790) atorg.apache.had...

  GPYyDLfgzzIb   2023年11月02日   65   0   0 javaHadoopjavaHadoopapacheapache

一、Hive是什么 1、Hive的概念 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更进一步可以说hive就是一个MapReduce的客户端 2、Hive与数据库的区别 Hive具有SQL数据库的外表,但应用场景完全不同。 Hive只适合用来做海量离线数据统计分析,也就是数据仓库。 3、Hive的优缺点 优点 操作接口采用类SQL语法,提供快速开发...

  GPYyDLfgzzIb   2023年11月02日   57   0   0 hivehive数据库数据库

一、数据块(block) HDFS原理白话讲就是将大文件分为若干个块,将这些块散落在不同的服务器上进行存储。 1.1数据块大小如何设置 在hdfs配置文件hdfs-site.xml中,通过dfs.blocksize参数配置 1.2为什么hdfs的数据块这么大 hadoop1.x默认块大小为64M,hadoop2.x默认块大小为128M,hadoop3.x默认块大小为256M 数据块大小设置部分原因是和磁盘平均输出速率有关。例如寻址时间是10ms,磁盘平均输出速率为125M/s,假如让寻址时间占总传输时间的1%,那么传输时间即为1s,以这个磁盘平均输出速率计算,大概可以传输125M的数据。...

一、sqoop是什么 Sqoop是apache旗下的一款”Hadoop和关系数据库之间传输数据”的工具 导入数据import 将MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统 导出数据export 从Hadoop的文件系统中导出数据到关系数据库 二、sqoop的工作机制 将导入和导出的命令翻译成mapreduce程序实现 在翻译出的mapreduce中主要是对inputformat和outputformat进行定制 三、sqoop的基本架构 sqoop在发展中的过程中演进出来了两种不同的架构.架构演变史 sqoop...

  GPYyDLfgzzIb   2023年11月02日   54   0   0 hivesqoophivesqoopmysqlMySQL

一、sqoop是什么 Sqoop是apache旗下的一款”Hadoop和关系数据库之间传输数据”的工具 导入数据import 将MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统 导出数据export 从Hadoop的文件系统中导出数据到关系数据库 二、sqoop的工作机制 将导入和导出的命令翻译成mapreduce程序实现 在翻译出的mapreduce中主要是对inputformat和outputformat进行定制 三、sqoop的基本架构 sqoop在发展中的过程中演进出来了两种不同的架构.架构演变史 sqoop...

  GPYyDLfgzzIb   2023年11月02日   64   0   0 hivesqoophivesqoopmysqlMySQL

一、flume是什么 在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架。 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统 Flume支持在日志系统中定制各类数据发送方,用于收集数据; Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 二、Flume的架构 Flume的核心是把数据从数据源收集过来,再送到目的地。为了保证输送一定成功,在送到目的地...

一、为什么需要工作流调度系统 一个完整的数据分析系统通常都是由大量任务单元组成; shell脚本程序、java程序、mapreduce程序、hive脚本等 各任务单元之间存在时间先后及前后依赖关系 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行 二、azkaban是什么 Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。 Azkaban定义了一种KV文件(properties)格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。 https://az...

  GPYyDLfgzzIb   2023年11月02日   53   0   0 服务器服务器HadoopmysqlMySQLHadoop

一、kafka概述 1.1、为什么有消息系统 解耦允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。 冗余消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕。 扩展性因为消息队列解耦了你的处理过程,所以增大消息入队和处理的频率是很容易的,只要另外增加处理过程即可。 灵活性&峰值处理能力在访问量剧增的情况下,应用仍然需要继续发挥作用,但是这样的突发流量并不常见。如果为以能...

  GPYyDLfgzzIb   2023年11月02日   62   0   0 数据数据kafkaapacheapachekafka

一、datax概述 1.1、什么使datax DataX是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 1.2、datax的设计 为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。 1.3、框架设计 1.4、运行原理 二、快速入门 2.1、官方地址 下载地址:htt...

  GPYyDLfgzzIb   2023年11月02日   41   0   0 HadoopHDFSMySQLhadoopHDFSMySQL

原因:HIve-MR报错权限不足 Causedby:java.lang.RuntimeException:java.lang.ClassNotFoundException:Classcom.aliyun.jindodata.oss.JindoOssFileSystemnotfound atorg.apache.hadoop.conf.Configuration.getClass(Configuration.java:2349) atorg.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2790) atorg.a...

  GPYyDLfgzzIb   2023年11月02日   72   0   0 jarHadoopjavaJavahadoopjar

数据仓库的两个重要的概念是: 进入仓库的数据不可变;记录数据的变化历史。如何理解呢?不可变,意味着进到仓库的数据就类似归档了。原则上,不能对仓库里面的数据进行修改;如果随意的对仓库里面的数据进行修改,这个“仓库”就和交易系统没区别了,无法起到正确反映业务过程的作用。此外,适合于数据仓库的存储服务,如早年Oracle和DB2都有针对数据仓库的DataWarehouse产品,以及Hadoop体系的一系列组件,都是针对“批量插入,无更改或少量更改”而专门设计的,所以才能达到查询效率的最优化。也因此产生了OLTP系统和OLAP系统的两大模式。 因此,“数据不可变”这是一个基准原则。 但是业务系统(...

关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~