摩杜云开发者社区-摩杜云

大数据面试题：Spark和MapReduce之间的区别？各自优缺点？

可回答： 1）spark和maprecude的对比；2）mapreduce与spark优劣好处问过的一些公司：阿里云(2022.10)，银联(2022.10)，携程(2022.09)，vivo(2022.09)，滴滴(2022.09)(2020.09)，网易云音乐(2022.09)，快手(2022.08)，字节(2022.08)x2(2022.05)(2020.09)(2020.06)(2019.11)x4，快手(2022.08)，星环科技(2022.07)，海康威视(2022.06)，字节日常实习(2022.03)，思科cisco(2021.11)，腾讯PCG(2021.10)，腾讯云...

bTaanShaN9kt 2023年11月02日 63 0 0 大数据数据数据集迭代数据集面试数据大数据迭代面试

HDFS的block为什么是128M？增大或减小有什么影响？

1、首先先来了解几个概念寻址时间：HDFS中找到目标文件block块所花费的时间。原理：文件块越大，寻址时间越短，但磁盘传输时间越长；文件块越小，寻址时间越长，但磁盘传输时间越短。 2、为什么block不能设置过大，也不能设置过小如果块设置过大，如果块设置的太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时，会非常慢；另一方面，MapReduce中的map任务通常一次只处理一个块中的数据，如果块过大运行速度也会很慢。如果设置过小，一方面存放大量小文件会占用NameNode中大量内存来存储元数据，而NameNode的内存是有限的（主要原因），不可取...

bTaanShaN9kt 2023年11月02日 62 0 0 面试题 HDFS 面试题 Hadoop 大数据开发 Hadoop HDFS 大数据开发

《阿里大数据之路》读书笔记：第二章日志采集

一、浏览器的页面日志采集浏览器的页面型产品/服务的日志采集可分为两大类：页面浏览（展现）日志采集指一个页面被浏览器加载呈现时采集的日志此类日志是最基础的互联网日志此类日志是目前所有互联网产品的两大基本指标（页面浏览量（PageView，PV）和访客数（UniqueVisitors，UV））的统计基础页面交互日志采集用户操作记录 1.1页面浏览日志采集流程主要是为了对指标网页浏览量（PV）和访客数（UV）进行分析。采集页面被浏览器加载展现的记录，这是最原始的互联网日志采集需求，也是一切互联网数据分析得以展开的基础和前提。一次典型的页面访问（请求-响应）过程： ...

bTaanShaN9kt 2023年11月02日 161 0 0 大数据开发数据仓库数据仓库阿里大数据之路读书笔记阿里大数据之路读书笔记大数据开发

《阿里大数据之路》读书笔记：第一章总述

第一章总述阿里巴巴大数据系统体系架构图阿里数据体系主要分为数据采集、数据计算、数据服务和数据应用四大层次。一、数据采集层阿里巴巴建立了一套标准的数据采集体系方案，致力全面、高性能、规范地完成海量数据的采集，并将其传输到大数据平台。数据来源主要有两部分：业务数据：主要存在数据库中日志数据：主要来自于日志文件日志采集技术： Aplus.JS：Web端日志采集技术方案 UserTrack：APP端日志采集技术方案消息中间件（离线/实时）： TimeTunnel(TT）：既包括数据库的增量数据传输，也包括日志数据的传输数据库同步工具（离线）：直连异构数据库（备库）来抽...

bTaanShaN9kt 2023年11月02日 56 0 0 大数据开发数据仓库数据仓库阿里大数据之路阿里大数据之路大数据开发

大数据面试题：HBase的RegionServer宕机以后怎么恢复的？

可回答：1）HBase一个节点宕机了怎么办；2）HBase故障恢复参考答案： 1、HBase常见故障导致RegionServer故障的原因： FullGc引起长时间停顿 HBase对Jvm堆内存管理不善，未合理使用堆外内存 Jvm启动参数配置不合理业务写入或吞吐量太大写入读取字段太大 HDFS异常读取写入数据都是直接操作hdfs的，若hdfs发生异常，会导致regionserver直接宕机机器宕机物理节点直接宕机虚拟云主机不稳定，包括网络环境等 2、HBase常见故障恢复 Master故障恢复原理在HBase体系结构中，Master主要负责实现集群的负载均衡和...

bTaanShaN9kt 2023年11月02日 61 0 0 大数据面试题 HBase 大数据面试题 Hbase

《阿里大数据之路》读书笔记：第三章数据同步

第三章数据同步数据同步技术含义：不同系统间的数据流转，有多种不同的应用场景。应用场景：同类型不同集群数据库之间的数据同步主数据库与备份数据库之间的数据备份主系统与子系统之间的数据更新不同地域、不同数据库类型之间的数据传输交换大数据系统中的数据同步数据从业务系统同步进入数据仓库数据从数据仓库同步进入数据服务或数据应用一、数据同步基础源业务系统的数据类型：关系型数据库的结构化数据：MySQL、Oracle等，数据存储在数据库表中非关系型数据库的非结构化数据：HBase、MongoDB等，数据存储在数据库表中文件系统的结构化或非结构化据：阿里云对象存储OSS、文...

bTaanShaN9kt 2023年11月02日 46 0 0 大数据开发数据仓库数据仓库大数据开发

大数据面试题：Spark和MapReduce之间的区别？各自优缺点？

可回答：1）spark和maprecude的对比；2）mapreduce与spark优劣好处问过的一些公司：阿里云(2022.10)，银联(2022.10)，携程(2022.09)，vivo(2022.09)，滴滴(2022.09)(2020.09)，网易云音乐(2022.09)，快手(2022.08)，字节(2022.08)x2(2022.05)(2020.09)(2020.06)(2019.11)x4，快手(2022.08)，星环科技(2022.07)，海康威视(2022.06)，字节日常实习(2022.03)，思科cisco(2021.11)，腾讯PCG(2021.10)，腾讯云(20...

bTaanShaN9kt 2023年11月02日 42 0 0 大数据面试题大数据面试题

Zookeeper的选举机制

1、半数机制         集群中半数以上机器存活，集群可用。所以Zookeeper适合安装奇数台服务器。 2、Zookeeper虽然在配置文件中并没有指定Master和Slave。但是，Zookeeper工作时，是有一个节点为Leader，其他则为Follower，Leader是通过内部的选举机制临时产生的。 3、选举过程         假设有五台服务器组成的Zookeeper集群，它们的id从1-5，同时它们都是最新启动的，也...

bTaanShaN9kt 2023年11月02日 55 0 0 zookeeper 服务器历史数据

MQTT协议结合OneNET平台提供的虚拟设备工具进行操作介绍

关于MQTT协议的相关问题，本文结合OneNET平台提供的虚拟设备工具进行操作介绍，希望对大家有所帮助。本文主要涉及如下内容：为什么选择MQTT 标准的MQTT与OneNET的MQTT实现有何差异如何使用平台提供的MQTT虚拟设备工具       1、为什么选择MQTT协议？       OneNET平台的公开协议类型有HTTP、EDP、MQTT、MDOBUS等多种，我们可以选择其中任何一种协议实现和平台对接，那我们的终端设备开发中到底选择哪一种会好一点呢？这个到...

bTaanShaN9kt 2023年11月02日 91 0 0 OneNET 移动云 MQTT协议操作云平台 mqtt

《阿里大数据之路》读书笔记：第三章数据同步

第三章数据同步数据同步技术含义：不同系统间的数据流转，有多种不同的应用场景。应用场景：同类型不同集群数据库之间的数据同步主数据库与备份数据库之间的数据备份主系统与子系统之间的数据更新不同地域、不同数据库类型之间的数据传输交换大数据系统中的数据同步数据从业务系统同步进入数据仓库数据从数据仓库同步进入数据服务或数据应用一、数据同步基础源业务系统的数据类型：关系型数据库的结构化数据：MySQL、Oracle等，数据存储在数据库表中非关系型数据库的非结构化数据：HBase、MongoDB等，数据存储在数据库表中文件系统的结构化或非结构化据：阿里云对象存储OSS、...

bTaanShaN9kt 2023年11月02日 67 0 0 大数据数据同步数据仓库数据仓库大数据数据库数据数据同步数据数据库

大数据面试题：MapReduce压缩方式

可回答：1）Hadoop常见的压缩算法有哪些？问过的一些公司：网易云音乐(2022.11)，阿里(2020.08) 参考答案： 1、MapReduce支持的压缩方式压缩格式 hadoop自带？算法文件扩展名是否可切分换成压缩格式后，原来的程序是否需要修改 DEFLATE 是，直接使用 DEFLATE .deflate 否和文本处理一样，不需要修改 Gzip 是，直接使用 DEFLATE .gz 否和文本处理一样，不需要修改 bzip2 是，直接使用 bzip2 .bz2 是和文本处理一样，不需要修改 LZO 否，需要安装 LZO .l...

bTaanShaN9kt 2023年11月02日 68 0 0 大数据数据压缩率面试 mapreduce

大数据面试题：说下Spark中的Transform和Action，为什么Spark要把操作分为Transform和Action？

可回答：Spark常见的算子介绍一下参考答案：我们先来看下Spark算子的作用：下图描述了Spark在运行转换中通过算子对RDD进行转换。算子是RDD中定义的函数，可以对RDD中的数据进行转换和操作。输入：在Spark程序运行中，数据从外部数据空间（如分布式存储：textFile读取HDFS等，parallelize方法输入Scala集合或数据）输入Spark，数据进入Spark运行时数据空间，转化为Spark中的数据块，通过BlockManager进行管理。运行：在Spark数据输入形成RDD后便可以通过变换算子，如filter等，对数据进行操作并将RDD转化为新的RDD，通过...

bTaanShaN9kt 2023年11月02日 41 0 0 大数据数据集数据 spark 面试