可回答: 1)spark和maprecude的对比;2)mapreduce与spark优劣好处 问过的一些公司:阿里云(2022.10),银联(2022.10),携程(2022.09),vivo(2022.09),滴滴(2022.09)(2020.09),网易云音乐(2022.09),快手(2022.08),字节(2022.08)x2(2022.05)(2020.09)(2020.06)(2019.11)x4,快手(2022.08),星环科技(2022.07),海康威视(2022.06),字节日常实习(2022.03),思科cisco(2021.11),腾讯PCG(2021.10),腾讯云...

1、首先先来了解几个概念 寻址时间:HDFS中找到目标文件block块所花费的时间。 原理:文件块越大,寻址时间越短,但磁盘传输时间越长;文件块越小,寻址时间越长,但磁盘传输时间越短。 2、为什么block不能设置过大,也不能设置过小 如果块设置过大,如果块设置的太大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时,会非常慢;另一方面,MapReduce中的map任务通常一次只处理一个块中的数据,如果块过大运行速度也会很慢。 如果设置过小,一方面存放大量小文件会占用NameNode中大量内存来存储元数据,而NameNode的内存是有限的(主要原因),不可取...

一、浏览器的页面日志采集 浏览器的页面型产品/服务的日志采集可分为两大类: 页面浏览(展现)日志采集 指一个页面被浏览器加载呈现时采集的日志 此类日志是最基础的互联网日志 此类日志是目前所有互联网产品的两大基本指标(页面浏览量(PageView,PV)和访客数(UniqueVisitors,UV))的统计基础 页面交互日志采集 用户操作记录 1.1页面浏览日志采集流程 主要是为了对指标网页浏览量(PV)和访客数(UV)进行分析。 采集页面被浏览器加载展现的记录,这是最原始的互联网日志采集需求,也是一切互联网数据分析得以展开的基础和前提。 一次典型的页面访问(请求-响应)过程: ...

第一章总述 阿里巴巴大数据系统体系架构图 阿里数据体系主要分为数据采集、数据计算、数据服务和数据应用四大层次。 一、数据采集层 阿里巴巴建立了一套标准的数据采集体系方案,致力全面、高性能、规范地完成海量数据的采集,并将其传输到大数据平台。 数据来源主要有两部分: 业务数据:主要存在数据库中 日志数据:主要来自于日志文件 日志采集技术: Aplus.JS:Web端日志采集技术方案 UserTrack:APP端日志采集技术方案 消息中间件(离线/实时): TimeTunnel(TT):既包括数据库的增量数据传输,也包括日志数据的传输 数据库同步工具(离线):直连异构数据库(备库)来抽...

可回答:1)HBase一个节点宕机了怎么办;2)HBase故障恢复 参考答案: 1、HBase常见故障 导致RegionServer故障的原因: FullGc引起长时间停顿 HBase对Jvm堆内存管理不善,未合理使用堆外内存 Jvm启动参数配置不合理 业务写入或吞吐量太大 写入读取字段太大 HDFS异常 读取写入数据都是直接操作hdfs的,若hdfs发生异常,会导致regionserver直接宕机 机器宕机 物理节点直接宕机 虚拟云主机不稳定,包括网络环境等 2、HBase常见故障恢复 Master故障恢复原理 在HBase体系结构中,Master主要负责实现集群的负载均衡和...

第三章数据同步 数据同步技术含义:不同系统间的数据流转,有多种不同的应用场景。 应用场景: 同类型不同集群数据库之间的数据同步 主数据库与备份数据库之间的数据备份 主系统与子系统之间的数据更新 不同地域、不同数据库类型之间的数据传输交换 大数据系统中的数据同步 数据从业务系统同步进入数据仓库 数据从数据仓库同步进入数据服务或数据应用 一、数据同步基础 源业务系统的数据类型: 关系型数据库的结构化数据:MySQL、Oracle等,数据存储在数据库表中 非关系型数据库的非结构化数据:HBase、MongoDB等,数据存储在数据库表中 文件系统的结构化或非结构化据:阿里云对象存储OSS、文...

可回答:1)spark和maprecude的对比;2)mapreduce与spark优劣好处 问过的一些公司:阿里云(2022.10),银联(2022.10),携程(2022.09),vivo(2022.09),滴滴(2022.09)(2020.09),网易云音乐(2022.09),快手(2022.08),字节(2022.08)x2(2022.05)(2020.09)(2020.06)(2019.11)x4,快手(2022.08),星环科技(2022.07),海康威视(2022.06),字节日常实习(2022.03),思科cisco(2021.11),腾讯PCG(2021.10),腾讯云(20...

  bTaanShaN9kt   2023年11月02日   42   0   0 大数据面试题大数据面试题

1、半数机制         集群中半数以上机器存活,集群可用。所以Zookeeper适合安装奇数台服务器。 2、Zookeeper虽然在配置文件中并没有指定Master和Slave。但是,Zookeeper工作时,是有一个节点为Leader,其他则为Follower,Leader是通过内部的选举机制临时产生的。 3、选举过程         假设有五台服务器组成的Zookeeper集群,它们的id从1-5,同时它们都是最新启动的,也...

  bTaanShaN9kt   2023年11月02日   55   0   0 zookeeper服务器历史数据

关于MQTT协议的相关问题,本文结合OneNET平台提供的虚拟设备工具进行操作介绍,希望对大家有所帮助。 本文主要涉及如下内容: 为什么选择MQTT 标准的MQTT与OneNET的MQTT实现有何差异 如何使用平台提供的MQTT虚拟设备工具       1、为什么选择MQTT协议?       OneNET平台的公开协议类型有HTTP、EDP、MQTT、MDOBUS等多种,我们可以选择其中任何一种协议实现和平台对接,那我们的终端设备开发中到底选择哪一种会好一点呢?这个到...

第三章数据同步 数据同步技术含义:不同系统间的数据流转,有多种不同的应用场景。 应用场景: 同类型不同集群数据库之间的数据同步 主数据库与备份数据库之间的数据备份 主系统与子系统之间的数据更新 不同地域、不同数据库类型之间的数据传输交换 大数据系统中的数据同步 数据从业务系统同步进入数据仓库 数据从数据仓库同步进入数据服务或数据应用 一、数据同步基础 源业务系统的数据类型: 关系型数据库的结构化数据:MySQL、Oracle等,数据存储在数据库表中 非关系型数据库的非结构化数据:HBase、MongoDB等,数据存储在数据库表中 文件系统的结构化或非结构化据:阿里云对象存储OSS、...

可回答:1)Hadoop常见的压缩算法有哪些? 问过的一些公司:网易云音乐(2022.11),阿里(2020.08) 参考答案: 1、MapReduce支持的压缩方式 压缩格式 hadoop自带? 算法 文件扩展名 是否可切分 换成压缩格式后,原来的程序是否需要修改 DEFLATE 是,直接使用 DEFLATE .deflate 否 和文本处理一样,不需要修改 Gzip 是,直接使用 DEFLATE .gz 否 和文本处理一样,不需要修改 bzip2 是,直接使用 bzip2 .bz2 是 和文本处理一样,不需要修改 LZO 否,需要安装 LZO .l...

  bTaanShaN9kt   2023年11月02日   68   0   0 大数据数据压缩率面试mapreduce

可回答:Spark常见的算子介绍一下 参考答案: 我们先来看下Spark算子的作用: 下图描述了Spark在运行转换中通过算子对RDD进行转换。算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。 输入:在Spark程序运行中,数据从外部数据空间(如分布式存储:textFile读取HDFS等,parallelize方法输入Scala集合或数据)输入Spark,数据进入Spark运行时数据空间,转化为Spark中的数据块,通过BlockManager进行管理。 运行:在Spark数据输入形成RDD后便可以通过变换算子,如filter等,对数据进行操作并将RDD转化为新的RDD,通过...

  bTaanShaN9kt   2023年11月02日   41   0   0 大数据数据集数据spark面试
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~