装spark 一定要装hadoop吗 spark必须用scala吗
  Yb4Wcw7aaUrt 2023年11月24日 19 0


windows安装spark和scala的坑

先前一直在自己的mac电脑上面使用java的IDE写scala,在公司里面配套的是windows 10,迁移过来的时候踩过了一些坑,整理一下下,算是一个小结。

java、scala、spark以及hadoop之间的关系

无论是scala、spark还是hadoop底层都是依赖于JVM,所以毋庸置疑肯定需要安装JDK;
spark和hadoop的关系这篇知乎文档的回答我看懂了,我觉得他说的很有道理,贴在这里供大家参考
https://www.zhihu.com/question/23036370【小枣君】的回答将hadoop和spark的前世姻缘讲得很具体,总结下来就是hadoop起源于google,Hadoop的核心,说白了,就是HDFS和MapReduce[1],是一个大数据并行计算框架,可以高效处理海量数据;而spark青出于蓝而胜于蓝,是加州大学伯克利分校AMP实验室所开源的类Hadoop MapReduce的通用并行框架[1],而**hadoop的mapreduce是面向磁盘的,受限于磁盘读写性能的约束,spark是面向内存,为多个不同数据源的数据提供近乎实时的处理性能,因此在图计算、机器学习和数据挖掘等方向深受欢迎。

我个人的理解就是:hadoop提供了一个分布式文件管理系统HDFS和通用的mapreduce框架,而spark因为所用是内存,大大提高了计算速度,因此我理解spark其实是依赖于hadoop的HDFS分布式文件管理系统,因此安装spark的同时也会安装hadoop;

scala就更好理解了,它是访问spark的一种底层语言,你安装完spark-shell以后直接就进入了scala;但是python也可以访问spark,可以用pyspark同样也可以配置spark;

下面一张图是hadoop和spark的生态组件对比,更能直观看出spark和hadoop的关系;

装spark 一定要装hadoop吗 spark必须用scala吗_spark

安装教程

晚上有很多安装spark一系列的教程,我用下来感觉比较靠谱的:
https://www.jianshu.com/p/5c490411f160【windows10 下Spark+Hadoop+hive+pyspark安装】

我觉得这篇文章比较的可惜的地方就是我已经踩过了很多坑了才遇到了它,简单总结一下我遇到的坑:
1、JAVA安装目录里面一定不能有空格,我最开始放到program files里面了,到最后会报找不到那个地址
2、Hadoop安装的时候没有替换bin里面的动态库和winutils.exe
前2个坑 这篇文章都有解决~
3、因为我之前有安装过orcale里面的java,导致系统环境变量冲突,只能把之前安装的环境变量删掉;类似这种C:\Program Files (x86)\Common Files\Oracle\Java\javapath的环境变量要删掉~


【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月24日 0

暂无评论

推荐阅读
  F36IaJwrKLcw   2023年12月23日   26   0   0 idesparkidesparkDataData
  KRe60ogUm4le   16天前   29   0   0 javascala
Yb4Wcw7aaUrt
最新推荐 更多

2024-05-03