spark on yarn 读取hdfs文件报错-摩杜云开发者社区

spark on yarn 读取hdfs文件报错

UqrkOCyfkQZc 2023年11月02日 142 0

读取文件读取文件字符流字符流 spark spark

spark on yarn 读取hdfs文件报错_spark

前提读取的文件已经put到hdfs上了，还是报错，仔细想想，为什么两个读取文件只报后面那个读取文件不存在呢？看代码，是读取的方式不同，前面一个是通过sparkcontext读取，后面是file,所以情况应该是只有通过spark生成的对象sc读取才可以，带着这个思路，修改代码，才运行成功。

 JavaRDD<String> linesRDD2 = sc.textFile("src/main/resources/santi/bad_words.txt");
       //JavaRDD<String> linesRDD2 = sc.textFile("/tmp/bad_words.txt");
      // Path path = Paths.get("src/main/resources/santi/santiquanji_liucixin.txt");
       //  byte[] bytes = Files.readAllBytes(path);
      //   String text = new String(bytes, Charset.defaultCharset());
       // System.out.println(text);

       // ArrayList<String> bad_words = new ArrayList<>();
         List<String> bad_words =  linesRDD2.collect();
        sc.parallelize(bad_words);
        //File file = new File("src/main/resources/santi/bad_words.txt");
        /*File file = new File("hdfs://hadoop:9000/user/hadoop/bad_words.txt");
        // 将字节流向字符流转换
        InputStreamReader inputStreamReader = new InputStreamReader(new FileInputStream(file),
                "utf-8");
        // 创建字符流缓冲区
        BufferedReader bufferedReader = new BufferedReader(inputStreamReader);
        String str = null;
        while ((str = bufferedReader.readLine()) != null) {
            bad_words.add(str);
        }*/

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇：百度离线资源治理下一篇：大数据技术体系介绍

分享：

最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读

spark dataframe 增加列

r3WP0l4Uu2vq 2023年12月23日 42 0 0 python spark 读取数据 spark 读取数据 python

pyspark给定columns

529IrGbiySY6 2023年12月12日 32 0 0 python 数据集数据集 spark spark python

大数据篇（二） Spark运行环境

KRe60ogUm4le 2024年05月31日 37 0 0 大数据 Kubernetes spark

spark idea开发

F36IaJwrKLcw 2023年12月23日 42 0 0 ide spark ide spark Data Data

spark timesiries时间序列python

q8Sb04zdRWzX 2023年12月12日 53 0 0 数据 spark 数据 spark 时间序列时间序列

spark邮箱怎么设置pop

USZ8QVjs4aii 2023年12月09日 42 0 0 java java spark 应用程序 spark 应用程序

spark怎么查看日志

q8Sb04zdRWzX 2023年12月23日 49 0 0 日志文件日志文件监控工具 spark spark 监控工具

hive on spark 怎么配置

529IrGbiySY6 2023年12月23日 77 0 0 hive 执行引擎 spark hive spark 执行引擎

CDH6 spark2

0noBQ6yUPIt9 2023年12月11日 35 0 0 spark 应用程序 spark 应用程序 bash bash

spark DStream 面试

TZ5i7OqYsozK 2023年12月23日 30 0 0 python Streaming spark spark Streaming python

SPARK_JAR 添加jar引用

oKbhiKww7k9l 2023年12月23日 45 0 0 spark 应用程序 spark 应用程序 jar jar

大数据篇（五） Spark SQL简介

KRe60ogUm4le 2024年05月31日 33 0 0 大数据 java spark

【大数据篇】Spark运行时架构详解

KRe60ogUm4le 2024年05月31日 34 0 0 大数据架构 spark

sparksql sqlserver

r3WP0l4Uu2vq 2023年12月23日 36 0 0 sql spark spark SQL

spark提交yarn命令

9J4CFPeHjrny 2023年12月23日 38 0 0 spark 应用程序 spark 监控任务应用程序监控任务

spark用途

3qVWeFkMdTWg 2023年12月23日 43 0 0 spark 流处理 spark 流处理数据处理数据处理

spark sql 执行过程

jyD1tZxXZUQ4 2023年12月23日 44 0 0 sql spark spark SQL 执行过程执行过程

sparksql删除mysql数据

vbyzBTPBnJJV 2023年12月23日 84 0 0 mysql bc spark bc spark MySQL

spark on hive的参数设置

XRbPOD5alAUE 2023年12月23日 45 0 0 hive hive sql spark spark SQL

spark sql dataframe 数据批量写入数据库

cxTyXg4sP4oA 2023年12月12日 37 0 0 数据库数据 spark 数据 spark 数据库

UqrkOCyfkQZc

作者其他文章更多

flink1.16连接hive2.3.9依赖报错

2023-11-02

flink1.16集成hivecatalog本地测试

2023-11-02

flink本地开发测试hive connector

2023-11-02

sql面试题目

2023-11-02

flinkCDC2.2.0集成flink1.16 mysqlbinlog报错问题解决

2023-11-02

flinkcdc sql链接mysqlbinlog

2023-11-02

flinkcdc 通过phoenix sink到hbase踩坑

2023-11-02

flink1.16 mysql sinkto kafka

2023-11-02

flink-kafkaconsumer bug解决

2023-11-02

flink 双流join问题集合

2023-11-02

最新推荐更多

【Leetcode】排序+双指针-16

2024-05-31

【.net 深呼吸】设置序列化中的最大数据量

2024-05-31

【Leetcode】python哈希表

2024-05-31

【Leetcode】链表-21，23

2024-05-31

vue再读20-表格案例--处理无数据的时候的渲染

2024-05-31

你被请来给一个要举办高尔夫比赛的树林砍树，树林由一个 m x n 的矩阵表示，在这个矩阵中： 0 表示障碍，无法触碰 1 表示地面，可以行走比 1 大的数表示有树的单元格

2024-05-31

假设有一个源源吐出不同球的机器，只有装下10个球的袋子，每一个吐出的球，要么放入袋子，要么永远扔掉。

2024-05-31

比jsonpath 更方便的json 数据查询JMESPath 使用

2024-05-31

已知一棵二叉树上所有的值都不一样，给定这棵二叉树的头节点head，给定一个整型数组arr，arr里放着不同的值，每个值一定在树上返回数组里所有值的最低公共祖先。

2024-05-31

给定一个数组arr，给定一个值v。求子数组平均值小于等于v的最长子数组长度。

2024-05-31

线性回归api深度介绍

2024-05-31

给定一个单链表的头节点head，请判断该链表是否为回文结构。

2024-05-31

力扣546，移除盒子。给出一些不同颜色的盒子，盒子的颜色由数字表示，即不同的数字表示不同的颜色。你将经过若干轮操作去去掉盒子，直到所有的盒子都去掉为止。

2024-05-31

给定一个数组arr，长度为N ＞ 1，从中间切一刀，保证左部分和右部分都有数字，一共有N-1种切法，如此多的切法中，每一种都有:绝对值(左部分最大值 – 右部分最大值)。

2024-05-31

【算法】哨兵思想 -- 待进一步总结

2024-05-31

给定两个可能有环也可能无环的单链表，头节点head1和head2。请实现一个函数，如果两个链表相交，请返回相交的第一个节点。如果不相交，返回null。

2024-05-31

数据统计之日分类商品访问量

2024-05-31

稀疏数组搜索

2024-05-31

魔术索引（返回索引值最小的一个）

2024-05-31

求表达式 f(n)结果末尾0的个数

2024-05-31