开源
大数据工程师 标签描述

数据工程师 职位描述:处理大量数据的公司,并管理数据通道。这意味着,当需要时,你要能确保有效地从数据源收集和检索数据,并进行清理和预处理。 为什么它很重要:如果你只处理过相对小的(<5Gb)保存为.csv或.txt文件的数据集,那么你可能很难理解为什么会有一些人的全职工作是构建和维护数据管道。 这里有几个原因: 一个50Gb的数据集对计算机的RAM来说太大了,所以你通常需要其他方法将其输入到你的模型中。 处理这么大规模的数据需要花费大量时间,并且经常需要冗余存储。管理数据的存储也需要专门的技术诀窍。 要求:你将使用的技术包括ApacheSpark、Hadoop和/或Hive,以及K...