沃梦达 / 编程问答 / Python问题 / 正文

Pandas UDF的PySpark加载包

沃梦达教程 Python问题

2022-01-01

PySpark Load Packages for Pandas UDF#39;s(Pandas UDF的PySpark加载包)

本文介绍了Pandas UDF的PySpark加载包的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我曾尝试关注Databricks的博客帖子here，但不幸的是一直收到错误。我正在尝试安装PANDA、PYARROW、NumPY和h3库，然后能够访问我的PySpark集群上的这些库，但按照这些说明操作是不起作用的。

Conda init--All(然后关闭并重新打开终端)
conda create-y-n pyspark_conda_env-c conda-forge pyrow pandas h3 numpy python=3.7.10 conda-pack
conda激活pyspark_conda_env
conda pack-f-o pyspark_conda_env.tar.gz

import os
from pyspark.sql import SparkSession

os.environ['PYSPARK_PYTHON'] = "./environment/bin/python"
spark = SparkSession.builder.config(
    "spark.yarn.archive",  # 'spark.yarn.dist.archives' in YARN.
    "~/gzk/pyspark_conda_env.tar.gz#environment").getOrCreate()

我可以做到这一点，但当我实际尝试运行 pandas UDF时，我收到错误：ModuleNotFoundError: No module named 'numpy'

如何解决此问题并使用 pandas UDF？

推荐答案

我最终解决了这个问题，方法是为我的AWS EMR集群编写一个引导脚本，该脚本将在所有节点上安装我需要的所有包。我始终无法按照上面的说明正常工作。

有关引导脚本的文档可以在以下位置找到：https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-bootstrap.html

这篇关于Pandas UDF的PySpark加载包的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持编程学习网！

沃梦达教程

本文标题为：Pandas UDF的PySpark加载包

上一篇： Azure Databricks用于显示当前群集配置的python命令

下一篇：按形状以平面单位(例如平方米)计算多边形面积

基础教程推荐

学习Bootstrap5

猜你喜欢

PANDA VALUE_COUNTS包含GROUP BY之前的所有值 2022-01-01
在同一图形上绘制Bokeh的烛台和音量条 2022-01-01
修改列表中的数据帧不起作用 2022-01-01
求两个直方图的卷积 2022-01-01
使用大型矩阵时禁止 Pycharm 输出中的自动换行符 2022-01-01
Plotly:如何设置绘图图形的样式，使其不显示缺失日期的间隙? 2022-01-01
在Python中从Azure BLOB存储中读取文件 2022-01-01
PermissionError: pip 从 8.1.1 升级到 8.1.2 2022-01-01
包装空间模型 2022-01-01
无法导入 Pytorch [WinError 126] 找不到指定的模块 2022-01-01