摩杜云开发者社区-摩杜云

MySQL 子查询中order by不生效问题

一个偶然的机会，发现一条SQL语句在不同的MySQL实例上执行得到了不同的结果。问题描述创建门店维表表dim_store，来模拟下业务场景，结构和数据如下： SELECTstore_id, seller_id, GROUP_CONCAT(org_name,'-')ASorg_path FROM(SELECTstore_id,seller_id,org_name FROMcanytest.`dim_store` WHEREseller_idIN(211302)ANDstore_id=144994 ORDERBYorg_levelDESC)t GROUPBYstore_id, selle...

GPYyDLfgzzIb 2023年11月02日 52 0 0 sql sql 子查询 MySQL 子查询 MySQL

OceanBase 入门篇（一）

背景 OceanBase在支付宝其实已经服务多年，是一款非常有实力的国产分布式数据库，主打高性能、高可用、低成本和线性扩展。尤其在金融领域有丰富的经验。现在也已经开源。本文基于一些公开资料的学习给自己做个总结基本架构上图有些组件没有显示全，下图作为一个补充整体是一个share-nothing架构，具备良好的并行和扩展性。下面介绍下其核心的组件：集群：一个集群下可以有属于多个可用区的节点共同组成 region：物理地域，可以是一个城市或者地域可用区:一个region由多个zone组成，一个可用区下可以有多个节点 observer节点：一个observer实例相当于一个节点，...

GPYyDLfgzzIb 2023年11月02日 59 0 0 缓存 SQL sql 数据缓存数据

TiDB分布式数据库部署与安装详解

1背景 TiUP是TiDB4.0版本引入的集群运维工具，TiUPcluster是TiUP提供的使用Golang编写的集群管理组件，通过TiUPcluster组件就可以进行日常的运维工作，包括部署、启动、关闭、销毁、弹性扩缩容、升级TiDB集群，以及管理TiDB集群参数。TiDB架构见：TiDB分布式数据库架构介绍部署环境说明见下图： 1添加数据盘EXT4文件系统生产环境部署，建议使用EXT4类型文件系统的NVME类型的SSD磁盘存储TiKV数据文件。这个配置方案为最佳实施方案，其可靠性、安全性、稳定性已经在大量线上场景中得到证实。使用root用户登录目标机器，将部署目标机器数据盘格式...

GPYyDLfgzzIb 2023年11月02日 85 0 0 linux 用户登录 linux 文件系统用户登录文件系统

Hadoop 错误解决：Bad connect ack with firstBadLink as ×.×.×.×:50010

问题描述：   通过Azkaban调Sqoop，将Mysql数据导入Hive，报BadconnectackwithfirstBadLinkas×.×.×.×:50010（×.×.×.×为Hadoop集群其中一个DataNode的IP，我这里隐去了实际值）错误，如下： 26-04-202319:17:52PDTrun_get_result_diffINFODiagnosticMessagesforthisTask: 26-04-202319:17:52PDTrun_get_result_diffINFOError:java.lang.RuntimeException:Hi...

GPYyDLfgzzIb 2023年11月02日 60 0 0 java Hadoop java Hadoop apache apache

Hive 基础篇概述《一》

背景： Hive：由FaceBook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质 Hive本质是将HQL转化为MapReduce程序： Hive处理的数据存储在HDFS Hive分析数据底层的实现是MapReduce 执行程序运行在Yarn上示意图：优点 Hive的执行延迟比较高，所以Hive常用语数据分析，对实时性要求不高的场合 Hive优势在于处理大数据，对于处理小数据没有优势，因为执行延迟比较高 Hive支持用户自定义函数，用户可以根据自己的需求来实现自己...

GPYyDLfgzzIb 2023年11月02日 34 0 0 hive 数据数据 hive 数据库数据库

MySQL 子查询中order by不生效问题

一个偶然的机会，发现一条SQL语句在不同的MySQL实例上执行得到了不同的结果。问题描述创建门店维表表dim_store，来模拟下业务场景，结构和数据如下： SELECTstore_id, seller_id, GROUP_CONCAT(org_name,'-')ASorg_path FROM(SELECTstore_id,seller_id,org_name FROMcanytest.`dim_store` WHEREseller_idIN(211302)ANDstore_id=144994 ORDERBYorg_levelDESC)t GROUPBYstore_id, selle...

GPYyDLfgzzIb 2023年11月02日 62 0 0 sql sql 子查询 MySQL 子查询 MySQL

Ansible 入门篇《一》

概述这周在工作中需要去修改nginx的配置，发现了同事在使用ansible管理者系统几乎所有的配置，从数据库的安装、nginx的安装及配置。于是这周研究起了ansible的基础用法。回过头再去看他的工程，终于能看明白了，嘿嘿前面已经总结了三篇文章了，本章做个总结：首先是列一下不错的ansible教程，也是我学习过程中主要的参考文章然后列出一个用到了ansible-playbookroleinclude的demo，稍微复杂的一个目录结构示例教程资料 shijingjingAnsible入门我学习时候的主要参考朱双印-ansible系列这个博主貌似主要是搞运维的，博客上总结了很...

GPYyDLfgzzIb 2023年11月02日 59 0 0 github Ansible Ansible github mongodb mongodb

Linux 基础命令

线上查询及帮助命令(2个) man 查看命令帮助，命令的词典，更复杂的还有info，但不常用。 help 查看Linux内置命令的帮助，比如cd命令。文件和目录操作命令(18个) ls 全拼list，功能是列出目录的内容及其内容属性信息。 cd 全拼changedirectory，功能是从当前工作目录切换到指定的工作目录。 cp 全拼copy，其功能为复制文件或目录。 find 查找的意思，用于查找目录及目录下的文件。 mkdir 全拼makedirectories，其功能是创建目录。 mv 全拼move，其功能是移动或重命名文件...

GPYyDLfgzzIb 2023年11月02日 78 0 0 文件系统命令行命令行显示文件显示文件文件系统

Hive SQL常用的函数记录

1.日期函数获取当前日期是第几周：from_unixtime(unix_timestamp('20210909','yyyyMMdd'),'ww'); 下面这种方式获取周，会少了一周： weekofyear(from_unixtime(unix_timestamp(cast('20210809'asstring),'yyyyMMdd'),'yyyy-MM-dd')); 日期范围当前月的第一天到最后一天： anda.day>=date_format(DATE_SUB(FROM_UNIXTIME(UNIX_TIMESTAMP()),DAYOFMONTH(FROM_UNIXTIME(U...

GPYyDLfgzzIb 2023年11月02日 55 0 0 字段数据 unix 数据 unix 字段

CDH-5.14.2使用阿里的jindoFS文件系统访问OSS数据时报错

报错结果： Causedby:java.lang.RuntimeException:java.lang.ClassNotFoundException:Classcom.aliyun.jindodata.oss.JindoOssFileSystemnotfound atorg.apache.hadoop.conf.Configuration.getClass(Configuration.java:2349) atorg.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2790) atorg.apache.had...

GPYyDLfgzzIb 2023年11月02日 65 0 0 java Hadoop java Hadoop apache apache

Hive 面试篇《一》

一、Hive是什么 1、Hive的概念 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。其本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据的存储，说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具，甚至更进一步可以说hive就是一个MapReduce的客户端 2、Hive与数据库的区别 Hive具有SQL数据库的外表，但应用场景完全不同。 Hive只适合用来做海量离线数据统计分析，也就是数据仓库。 3、Hive的优缺点优点操作接口采用类SQL语法，提供快速开发...

GPYyDLfgzzIb 2023年11月02日 57 0 0 hive hive 数据库数据库

HDFS 面试篇《一》

一、数据块（block） HDFS原理白话讲就是将大文件分为若干个块，将这些块散落在不同的服务器上进行存储。 1.1数据块大小如何设置在hdfs配置文件hdfs-site.xml中，通过dfs.blocksize参数配置 1.2为什么hdfs的数据块这么大 hadoop1.x默认块大小为64M，hadoop2.x默认块大小为128M，hadoop3.x默认块大小为256M 数据块大小设置部分原因是和磁盘平均输出速率有关。例如寻址时间是10ms，磁盘平均输出速率为125M/s，假如让寻址时间占总传输时间的1%，那么传输时间即为1s，以这个磁盘平均输出速率计算，大概可以传输125M的数据。...

GPYyDLfgzzIb 2023年11月02日 58 0 0 元数据数据元数据客户端客户端数据

Sqoop 面试篇《一》

一、sqoop是什么 Sqoop是apache旗下的一款”Hadoop和关系数据库之间传输数据”的工具导入数据import 将MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统导出数据export 从Hadoop的文件系统中导出数据到关系数据库二、sqoop的工作机制将导入和导出的命令翻译成mapreduce程序实现在翻译出的mapreduce中主要是对inputformat和outputformat进行定制三、sqoop的基本架构 sqoop在发展中的过程中演进出来了两种不同的架构.架构演变史 sqoop...

GPYyDLfgzzIb 2023年11月02日 54 0 0 hive sqoop hive sqoop mysql MySQL

Sqoop 面试篇《一》

一、sqoop是什么 Sqoop是apache旗下的一款”Hadoop和关系数据库之间传输数据”的工具导入数据import 将MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统导出数据export 从Hadoop的文件系统中导出数据到关系数据库二、sqoop的工作机制将导入和导出的命令翻译成mapreduce程序实现在翻译出的mapreduce中主要是对inputformat和outputformat进行定制三、sqoop的基本架构 sqoop在发展中的过程中演进出来了两种不同的架构.架构演变史 sqoop...

GPYyDLfgzzIb 2023年11月02日 64 0 0 hive sqoop hive sqoop mysql MySQL

Flume 面试篇《一》

一、flume是什么在一个完整的离线大数据处理系统中，除了hdfs+mapreduce+hive组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统，而这些辅助工具在hadoop生态体系中都有便捷的开源框架。 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统 Flume支持在日志系统中定制各类数据发送方，用于收集数据； Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。二、Flume的架构 Flume的核心是把数据从数据源收集过来，再送到目的地。为了保证输送一定成功，在送到目的地...

GPYyDLfgzzIb 2023年11月02日 61 0 0 hdfs 数据配置文件配置文件 HDFS 数据

Azkaban 面试篇《一》

一、为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成； shell脚本程序、java程序、mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行二、azkaban是什么 Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。 Azkaban定义了一种KV文件(properties)格式来建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。 https://az...

GPYyDLfgzzIb 2023年11月02日 53 0 0 服务器服务器 Hadoop mysql MySQL Hadoop

Kafka 面试篇《一》

一、kafka概述 1.1、为什么有消息系统解耦允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。冗余消息队列把数据进行持久化直到它们已经被完全处理，通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中，在把一个消息从队列中删除之前，需要你的处理系统明确的指出该消息已经被处理完毕，从而确保你的数据被安全的保存直到你使用完毕。扩展性因为消息队列解耦了你的处理过程，所以增大消息入队和处理的频率是很容易的，只要另外增加处理过程即可。灵活性&峰值处理能力在访问量剧增的情况下，应用仍然需要继续发挥作用，但是这样的突发流量并不常见。如果为以能...

GPYyDLfgzzIb 2023年11月02日 62 0 0 数据数据 kafka apache apache kafka

Datax 面试篇《一》

一、datax概述 1.1、什么使datax DataX是阿里巴巴开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 1.2、datax的设计为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候，只需要将此数据源对接到DataX，便能跟已有的数据源做到无缝数据同步。 1.3、框架设计 1.4、运行原理二、快速入门 2.1、官方地址下载地址：htt...

GPYyDLfgzzIb 2023年11月02日 41 0 0 Hadoop HDFS MySQL hadoop HDFS MySQL

CDHCDH-5.14、jindo-sdk-4.6.5 执行sql 报错权限不足

原因：HIve-MR报错权限不足 Causedby:java.lang.RuntimeException:java.lang.ClassNotFoundException:Classcom.aliyun.jindodata.oss.JindoOssFileSystemnotfound atorg.apache.hadoop.conf.Configuration.getClass(Configuration.java:2349) atorg.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2790) atorg.a...

GPYyDLfgzzIb 2023年11月02日 72 0 0 jar Hadoop java Java hadoop jar

数据仓库-增量抽取与全量抽取

数据仓库的两个重要的概念是：进入仓库的数据不可变；记录数据的变化历史。如何理解呢？不可变，意味着进到仓库的数据就类似归档了。原则上，不能对仓库里面的数据进行修改；如果随意的对仓库里面的数据进行修改，这个“仓库”就和交易系统没区别了，无法起到正确反映业务过程的作用。此外，适合于数据仓库的存储服务，如早年Oracle和DB2都有针对数据仓库的DataWarehouse产品，以及Hadoop体系的一系列组件，都是针对“批量插入，无更改或少量更改”而专门设计的，所以才能达到查询效率的最优化。也因此产生了OLTP系统和OLAP系统的两大模式。因此，“数据不可变”这是一个基准原则。但是业务系统（...

GPYyDLfgzzIb 2023年11月02日 40 0 0 数据仓库数据仓库时间戳数据数据时间戳