spark on yarn 读取hdfs文件报错
  UqrkOCyfkQZc 2023年11月02日 142 0

spark on yarn 读取hdfs文件报错_spark

前提读取的文件已经put到hdfs上了,还是报错,仔细想想,为什么两个读取文件只报后面那个读取文件不存在呢?看代码,是读取的方式不同,前面一个是通过sparkcontext读取,后面是file,所以情况应该是只有通过spark生成的对象sc读取才可以,带着这个思路,修改代码,才运行成功。

 JavaRDD<String> linesRDD2 = sc.textFile("src/main/resources/santi/bad_words.txt");
       //JavaRDD<String> linesRDD2 = sc.textFile("/tmp/bad_words.txt");
      // Path path = Paths.get("src/main/resources/santi/santiquanji_liucixin.txt");
       //  byte[] bytes = Files.readAllBytes(path);
      //   String text = new String(bytes, Charset.defaultCharset());
       // System.out.println(text);

       // ArrayList<String> bad_words = new ArrayList<>();
         List<String> bad_words =  linesRDD2.collect();
        sc.parallelize(bad_words);
        //File file = new File("src/main/resources/santi/bad_words.txt");
        /*File file = new File("hdfs://hadoop:9000/user/hadoop/bad_words.txt");
        // 将字节流向字符流转换
        InputStreamReader inputStreamReader = new InputStreamReader(new FileInputStream(file),
                "utf-8");
        // 创建字符流缓冲区
        BufferedReader bufferedReader = new BufferedReader(inputStreamReader);
        String str = null;
        while ((str = bufferedReader.readLine()) != null) {
            bad_words.add(str);
        }*/
【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读
  F36IaJwrKLcw   2023年12月23日   42   0   0 idesparkidesparkDataData
  r3WP0l4Uu2vq   2023年12月23日   36   0   0 sqlsparksparkSQL
UqrkOCyfkQZc
最新推荐 更多

2024-05-31