编程问答

前端开发问题 Java开发问题 C/C++开发问题 Python开发问题 C#/.NET开发问题 php开发问题 移动开发问题 数据库问题

spark从mysql并行读取数据

2023-04-04数据库问题

3

本文介绍了spark从mysql并行读取数据的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着跟版网的小编来一起学习吧！

问题描述

我正在尝试从 mysql 读取数据并将其写回 s3 中具有特定分区的 parquet 文件，如下所示:

Im trying to read data from mysql and write it back to parquet file in s3 with specific partitions as follows:

df=sqlContext.read.format('jdbc')\
   .options(driver='com.mysql.jdbc.Driver',url="""jdbc:mysql://<host>:3306/<>db?user=<usr>&password=<pass>""",
         dbtable='tbl',
         numPartitions=4 )\
   .load()


df2=df.withColumn('updated_date',to_date(df.updated_at))
df2.write.parquet(path='s3n://parquet_location',mode='append',partitionBy=['updated_date'])

我的问题是它只打开一个到 mysql 的连接(而不是 4 个)，并且在它从 mysql 获取所有数据之前它不会写入 parquert，因为我在 mysql 中的表很大(100M 行)进程失败内存不足.

My problem is that it open only one connection to mysql (instead of 4) and it doesn't write to parquert until it fetches all the data from mysql, because my table in mysql is huge (100M rows) the process failed on OutOfMemory.

有没有办法配置Spark打开多个mysql连接并将部分数据写入parquet?

Is there a way to configure Spark to open more than one connection to mysql and to write partial data to parquet?

推荐答案

你应该设置这些属性:

partitionColumn, 
lowerBound, 
upperBound, 
numPartitions

正如这里记录的那样:http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases

这篇关于spark从mysql并行读取数据的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持跟版网！

The End

相关推荐

Mysql目录里的ibtmp1文件过大造成磁盘占满的解决办法

Mysql目录里的ibtmp1文件过大造成磁盘占满的解决办法

ibtmp1是非压缩的innodb临时表的独立表空间,通过innodb_temp_data_file_path参数指定文件的路径，文件名和大小，默认配置为ibtmp1:12M:autoextend，也就是说在文件系统磁盘足够的情况下，这个文件大小是可以无限增长的。为了避免ibtmp1文件无止境的暴涨导致...

2025-01-02 数据库问题

151

SQL 子句“GROUP BY 1"是什么意思?意思是?

SQL 子句“GROUP BY 1"是什么意思?意思是?

What does SQL clause quot;GROUP BY 1quot; mean?(SQL 子句“GROUP BY 1是什么意思?意思是?)...

2024-04-16 数据库问题

62

MySQL groupwise MAX() 返回意外结果

MySQL groupwise MAX() 返回意外结果

MySQL groupwise MAX() returns unexpected results(MySQL groupwise MAX() 返回意外结果)...

2024-04-16 数据库问题

13

MySQL SELECT 按组最频繁

MySQL SELECT 按组最频繁

MySQL SELECT most frequent by group(MySQL SELECT 按组最频繁)...

2024-04-16 数据库问题

16

为什么 Mysql 的 Group By 和 Oracle 的 Group by 行为不同

为什么 Mysql 的 Group By 和 Oracle 的 Group by 行为不同

Why Mysql#39;s Group By and Oracle#39;s Group by behaviours are different(为什么 Mysql 的 Group By 和 Oracle 的 Group by 行为不同)...

2024-04-16 数据库问题

13

MySQL GROUP BY DateTime +/- 3 秒

MySQL GROUP BY DateTime +/- 3 秒

MySQL GROUP BY DateTime +/- 3 seconds(MySQL GROUP BY DateTime +/- 3 秒)...

2024-04-16 数据库问题

14

热门文章

1ORA-01747: 无效的 user.table.column、table.column 或列规范 2ORA-01461: 只能为插入到 LONG 列而绑定 LONG 值-查询时发生 3INSERT 语句与 FOREIGN KEY 约束冲突 4MySql 错误:无法更新存储函数/触发器中的表，因为它已被调用此存储函数/触发器的语句使用 5MySQL:将逗号分隔的列表拆分为多行 6sqlite3 在数据库中插入和读取 BLOB 数据 7ORA-01830:日期格式图片在转换整个输入字符串之前结束/选择日期查询的总和 8MySQL 错误:UPDATE 和 LIMIT 的错误使用

热门精品源码

最新VIP资源

1多功能实用站长工具箱html功能模板 2多风格简历在线生成程序网页模板 3论文相似度查询系统源码 4响应式旅游景点宣传推广页面模板 5在线起名宣传推广网站源码 6酷黑微信小程序网站开发宣传页模板 7房产销售交易中介网站模板 8小学作业自动生成程序