Pycharm远程连接Spark(超详细图文教程)
  ILwIY8Berufg 2023年11月02日 94 0

在Pycharm连接远程服务器上的时候,有很多小的细节,笔者这里总结了一下完整的步骤,希望能帮到大家。连接前一定要保证集群已经可以运行pyspark程序

1.添加SFTP连接

找到菜单栏Tool -> Deployment -> Configuration设置sftp

Pycharm远程连接Spark(超详细图文教程)_服务器

点击左上角的+号,添加新的连接

Pycharm远程连接Spark(超详细图文教程)_服务器_02

注意,不要勾选Visible only for this project。根据自己的需求填写host、username、password,然后点击Test SFTP connection ,确认能连接(注意:如果这里连接失败,且其他的终端,例如xshell、putty可以成功连接的话,请将pycharm版本切换到2018版本,2019版本的pycharm在这里可能会引起timeout!!!

Pycharm远程连接Spark(超详细图文教程)_服务器_03

Pycharm远程连接Spark(超详细图文教程)_jar包_04

然后设置一下项目的路径,点击mapping

Pycharm远程连接Spark(超详细图文教程)_spark_05

点击OK

2.添加SSH Interpreter

找到菜单栏File -> Settings

搜索Project Interpreter,点击齿轮,选择add

Pycharm远程连接Spark(超详细图文教程)_spark_06

选择SSH Interpreter,选择下面的Existing server configuration,选中我们刚刚设置的SSH信息

Pycharm远程连接Spark(超详细图文教程)_spark_07

根据需要修改路径,我这里是linux上默认的python的路径

Pycharm远程连接Spark(超详细图文教程)_spark_08

修改本地与服务器路径

Pycharm远程连接Spark(超详细图文教程)_服务器_09

点击finish

3.代码编写

然后写上代码

wordcount.py

# coding=UTF-8
import sys

# 设置服务器上py4j库所在的路径
sys.path.append('/home/hadoop/apps/spark/python/lib/py4j-0.10.7-src.zip')
from pyspark.sql import SparkSession

if __name__ == "__main__":
    # 如果spark配置了yarn集群,这里的master可以修改为yarn
    spark = SparkSession.builder \
        .master('local') \
        .appName('Pycharm Connection') \
        .getOrCreate()
    # wordcount操作,这里文件为hdfs的路径
    words = spark.sparkContext \
        .textFile("/data/words") \
        .flatMap(lambda line: line.split("\t")) \
        .map(lambda word: (word, 1)) \
        .reduceByKey(lambda a, b: a + b) \
        .collect()
    print (words)
spark.stop()

然后将代码同步到服务器

Tools -> Deployment -> Upload to hadoop03

Pycharm远程连接Spark(超详细图文教程)_jar包_10

4.启动设置

点击右上角的三角形,然后删除working directory里面的路径,并更改Environment variables

Pycharm远程连接Spark(超详细图文教程)_jar包_11

这里要设置服务器上的SPARK_HOME与PYTHONPATH路径,PYTHONPATH路径一般为SPARK_HOME/python,然后apply并OK

Pycharm远程连接Spark(超详细图文教程)_spark_12

5.本地环境配置

需要将本地的jar包添加进来,不然运行的时候会报错!!!

找到菜单栏File -> Settings

搜索Project Structure,添加jar包

Pycharm远程连接Spark(超详细图文教程)_jar包_13

两个jar包都要添加进来

Pycharm远程连接Spark(超详细图文教程)_spark_14

可以看到左边的项目管理器中出现了刚刚添加的两个jar包

Pycharm远程连接Spark(超详细图文教程)_spark_15

6.启动

右键 -> Run 'wordcount'

Pycharm远程连接Spark(超详细图文教程)_spark_16

结果如下

Pycharm远程连接Spark(超详细图文教程)_jar包_17

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

ILwIY8Berufg
最新推荐 更多

2024-05-31