本文已收录至GitHub,推荐阅读👉Java随想录微信公众号:Java随想录 原创不易,注重版权。转载请注明原作者和原文链接 注:原文字数过多,单篇阅读时间过长,故将文章拆分为上下两篇 在大数据技术栈的探索中,我们曾讨论了离线计算的Spark,而当谈到实时计算,就不得不提Flink。本文将集中讨论Flink,旨在详尽展示其核心概念,从而助力你在大数据旅程中向前迈进。 值得注意的是,Flink和Spark有许多相似的概念。因此,在深入学习Flink之前,建议先浏览我之前关于Spark的文章,这将为你提供扎实的基础,并帮助在学习Flink时能更好地举一反三,加深对其理解。 话不多说,开启我们...

本文已收录至GitHub,推荐阅读👉Java随想录微信公众号:Java随想录 原创不易,注重版权。转载请注明原作者和原文链接 承接上篇未完待续的话题,我们一起继续Flink的深入探讨 FlinkState状态 Flink是一个有状态的流式计算引擎,所以会将中间计算结果(状态)进行保存,默认保存到TaskManager的堆内存中。 但是当Task挂掉,那么这个Task所对应的状态都会被清空,造成了数据丢失,无法保证结果的正确性,哪怕想要得到正确结果,所有数据都要重新计算一遍,效率很低。 想要保证At-least-once和Exactly-once,则需要把数据状态持久化到更安全的存储介质中...

  i1llovnjgAgW   2023年11月05日   50   0   0 大数据大数据flinkJavaJavaflink

本文已收录至GitHub,推荐阅读👉Java随想录 微信公众号:Java随想录 原创不易,注重版权。转载请注明原作者和原文链接 在日常生活和工作中,我们经常需要处理海量的数据,筛选出有用的信息。 这个时候,布隆过滤器(BloomFilter)就派上了用场。作为一种空间高效的概率型数据结构,布隆过滤器能够快速有效地检测一个元素是否属于一个集合。其应用广泛,从网络爬虫的网页去重,到数据库查询优化,都离不开它的身影。 本文将深入解析布隆过滤器的原理以及如何在实际情况中进行使用,希望能帮助你更好地理解和运用这种强大的工具。 布隆过滤器简介 在开发过程中,经常要判断一个元素是否在一个集合中。假设你...

  i1llovnjgAgW   2023年11月02日   49   0   0 大数据Java数组位图布隆过滤器

本文已收录至GitHub,推荐阅读👉Java随想录 微信公众号:Java随想录 原创不易,注重版权。转载请注明原作者和原文链接 在数据库系统的世界中,保障数据的完整性和稳定性是至关重要的任务。为了实现这一目标,MySQL内部使用了许多精巧而高效的机制。 InnoDB是MySQL中一种常用的事务性存储引擎,它具有很多优秀的特性。其中,DoublewriteBuffer是InnoDB的一个重要特性之一,本文将介绍DoublewriteBuffer的原理和应用,帮助读者深入理解其如何提高MySQL的数据可靠性并防止可能的数据损坏。 为什么需要DoublewriteBuffer 我们常见的服务器...

  i1llovnjgAgW   2023年11月02日   50   0   0 MySQLJava表空间数据

本文已收录至GitHub,推荐阅读👉Java随想录 微信公众号:Java随想录 原创不易,注重版权。转载请注明原作者和原文链接 在数据库处理中,Join操作是最基本且最重要的操作之一,它能将不同的表连接起来,实现对数据集的更深层次分析。 MySQL作为一款流行的关系型数据库管理系统,其在执行Join操作时使用了多种高效的算法,包括IndexNested-LoopJoin(NLJ)和BlockNested-LoopJoin(BNL)。这些算法各有优缺点,本文将探讨这两种算法的工作原理,以及如何在MySQL中使用它们。 什么是Join 在MySQL中,Join是一种用于组合两个或多个表中数据...

  i1llovnjgAgW   2023年11月02日   45   0   0 MySQLSQL数据

本文已收录至GitHub,推荐阅读👉Java随想录 微信公众号:Java随想录 原创不易,注重版权。转载请注明原作者和原文链接 在探索数据库优化的广阔领域中,我们不可避免地会遇到一系列独特的概念和技术。其中之一就是MySQL的多范围读取(Multi-RangeRead,MRR)。 这种技术为我们提供了在处理大量数据时提高查询效率的强大手段。它通过改变数据检索的顺序,并利用操作系统缓存进行预读,从而显著减少I/O操作数量,提高查询速度。本文将深入探讨MRR的内部工作原理,以及如何在日常数据库管理中有效地应用这种技术。 什么是MRR MRR是优化器将随机IO转化为顺序IO以降低查询过程中IO...

  i1llovnjgAgW   2023年11月02日   44   0   0 MySQL主键Java

本文已收录至GitHub,推荐阅读👉Java随想录 微信公众号:Java随想录 原创不易,注重版权。转载请注明原作者和原文链接 在日常的应用开发中,我们经常会遇到需要使用多种不同类型的数据库管理系统来满足各种业务需求。其中最典型的就是Redis和MySQL的组合使用。 这两者拥有各自的优点,例如Redis为高性能的内存数据库提供了极快的读写速度,而MySQL则是非常强大的关系型数据库,支持事务处理,并且提供了很好的数据一致性。 然而,在实际应用过程中,如何保证Redis和MySQL双写时的数据一致性问题成为了开发者们面临的重要挑战。本文即将针对这个问题进行深入探讨,希望能为广大开发者们提...

  i1llovnjgAgW   2023年11月02日   96   0   0 redis数据库数据缓存

本文已收录至GitHub,推荐阅读👉Java随想录 微信公众号:Java随想录 原创不易,注重版权。转载请注明原作者和原文链接 Groovy是一种基于Java平台的动态编程语言,它结合了Python、Ruby和Smalltalk等语言的特性,同时与Java无缝集成。在本篇博客中,我们将探讨Groovy与Java之间的联系与区别,深入了解Groovy的语法,并展示如何在Java中使用GroovyShell来运行Groovy脚本。 Groovy&Java Groovy与Java之间有着紧密的联系,同时也存在一些重要的区别。 首先,Groovy是一种动态语言,它允许在运行时动态修改代码...

  i1llovnjgAgW   2023年11月02日   57   0   0 JavaGroovy字符串

本文已收录至GitHub,推荐阅读👉Java随想录 微信公众号:Java随想录 原创不易,注重版权。转载请注明原作者和原文链接 HBase是一个开源的非关系型分布式数据库,设计初衷是为了解决大量结构化数据存储与处理的需求。 它的核心理念、特性以及应用领域在当今的大数据环境中都发挥着至关重要的作用,这也是我们需要深入理解HBase的原因。在这篇文章中,我们将探讨HBase的基础概念,通过这些知识,读者将能够理解HBase的基本工作原理以及如何利用它处理数据问题。 HBase特性 以下是HBase的一些关键特性和概念: 分布式架构:HBase是一个分布式数据库,它可以在一个集群中运行在多个...

  i1llovnjgAgW   2023年11月02日   44   0   0 客户端hadoopJava数据

本文已收录至GitHub,推荐阅读👉Java随想录 微信公众号:Java随想录 原创不易,注重版权。转载请注明原作者和原文链接 在我们日常处理海量数据的过程中,如何有效管理和优化数据库一直是一个既重要又具有挑战性的问题。 分区表技术就为此提供了一种解决方案,尤其是在使用MySQL这类关系型数据库时。该技术将大型表的数据切割成更易于管理和查询的小块,从而提高了整体数据库操作的性能。 本文将详细探讨MySQL分区表的概念、实现方式以及具体应用场景,帮助读者更好地理解并运用这一高效的数据库优化策略。 分区表介绍 MySQL数据库中的数据是以文件的形势存在磁盘上的,默认放在/var/lib/my...

  i1llovnjgAgW   2023年11月02日   55   0   0 MySQL分区表数据

本文已收录至GitHub,推荐阅读👉Java随想录 微信公众号:Java随想录 原创不易,注重版权。转载请注明原作者和原文链接 在现今的数据驱动世界中,数据持久化成为了一项至关重要的任务。它不仅需要保证数据的安全,还要提供快速读写的功能。 对于许多现代化应用程序和服务来说,Redis被广泛使用作为一个高性能的键值存储系统。Redis以其卓越的性能和灵活性赢得了开发者们的青睐。然而,这些优点都离不开它强大的持久化机制。 通过本文,我们将深入探讨Redis的持久化策略,包括RDB(RedisDataBase)快照和AOF(AppendOnlyFile)日志,并解析如何根据自己的业务需求选择合...

  i1llovnjgAgW   2023年11月02日   48   0   0 redis持久化数据

本文已收录至GitHub,推荐阅读👉Java随想录 微信公众号:Java随想录 原创不易,注重版权。转载请注明原作者和原文链接 当我们谈论Redis数据处理和存储的优化方法时,「RedisPipeline」无疑是一个不能忽视的重要技术。 在使用Redis的过程中,频繁的网络往返操作可能会引发严重的性能问题,尤其是当大量并发操作需要快速响应的时候。这就是我们需要使用RedisPipeline的原因。 RedisPipeline是Redis提供的一种功能,主要用于优化大量命令的执行。通过将多个命令组合到一起,进而一次发送到服务器,Pipeline可以显著减少网络延迟带来的影响。 在本文中,我...

  i1llovnjgAgW   2023年11月02日   43   0   0 客户端redis服务器

本文已收录至GitHub,推荐阅读👉Java随想录 微信公众号:Java随想录 原创不易,注重版权。转载请注明原作者和原文链接 在处理大型数据时,Redis作为我们的非关系型数据库经常出现在解决方案之中。然而,在使用Redis的过程中,有一些问题可能会悄无声息地影响我们的系统性能,其中最具代表性的就是BigKey问题。 这个问题往往被低估,BigKey会对Redis的效率和整体性能产生重大影响。在本文中,我们将深入探索BigKey问题的源头,讨论它如何影响系统性能,并提供相应的解决策略。通过了解和解决BigKey问题,我们可以更有效地利用Redis,优化我们的系统并提高性能。 BigKe...

  i1llovnjgAgW   2023年11月02日   89   0   0 redisJava字段Big

本文已收录至GitHub,推荐阅读👉Java随想录 微信公众号:Java随想录 原创不易,注重版权。转载请注明原作者和原文链接 在计算机编程的世界里,Scala是一个不可或缺的语言。 作为一种在Java虚拟机(JVM)上运行的静态类型编程语言,Scala结合了面向对象和函数式编程的特性,使它既有强大的表达力又具备优秀的型态控制。 对于初学者来说,理解Scala的基本语法是掌握这门语言的关键步骤。本文将带领大家逐步了解Scala的基础知识,无论你是编程新手还是想要扩展技能集的专业开发者,都可以在这篇文章中找到有用的信息。 先分享Scala的官方网站:https://docs.scala-l...

  i1llovnjgAgW   2023年11月02日   68   0   0 ScalaJava

本文已收录至GitHub,推荐阅读👉Java随想录 微信公众号:Java随想录 原创不易,注重版权。转载请注明原作者和原文链接 在这个数据驱动的时代,信息的处理和分析变得越来越重要。而在众多的大数据处理框架中,「ApacheSpark」以其独特的优势脱颖而出。 本篇文章,我们将一起走进Spark的世界,探索并理解其相关的基础概念和使用方法。本文主要目标是让初学者能够对Spark有一个全面的认识,并能实际应用到各类问题的解决之中。 Spark是什么 学习一个东西之前先要知道这个东西是什么。 Spark是一个开源的大数据处理引擎,它提供了一整套开发API,包括流计算和机器学习。它支持批处理和...

  i1llovnjgAgW   2023年11月02日   60   0   0 应用程序数据集数据spark
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~