pyspark数据计算
  ShfiGzHolqgo 2023年11月15日 30 0
# 导包
from pyspark import SparkConf, SparkContext

# 获取sparkconf对象
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

# 基于sparkconf获取sparkcontext对象(sparkcontext对象是pyspark一切功能的入口)
sc = SparkContext(conf=conf)

rdd1 = sc.parallelize([1, 2, 3, 4, 5, 6])
rdd2 = sc.parallelize((1, 2, 3, 4, 5, 6))
rdd3 = sc.parallelize({1, 2, 3, 4, 5, 6})
rdd4 = sc.parallelize("asdfghjkl")
rdd5 = sc.parallelize({"key1": 666, "key2": 999})
rdd6 = sc.textFile("D:/title.txt")  # 通过文件路径进行读取

print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())  # 字符串会被拆成一个一个的字符
print(rdd5.collect())  # 字典仅剩下key的值
print(rdd6.collect())
#停止Pyspark程序
sc.stop()



【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月15日 0

暂无评论

推荐阅读
  KgGOnwQ9X4OR   2023年12月22日   41   0   0 JavahdfsJavasparkhdfsspark
ShfiGzHolqgo
作者其他文章 更多