looping through pdf files with tabulizer in python(在python中使用制表器循环访问pdf文件)
本文介绍了在python中使用制表器循环访问pdf文件的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我很难让一段代码正常工作。我想遍历文件夹中的pdf文件,提取TABULA包认为的表,将它们提取到一个数据帧中,并将特定pdf中的所有表写入一个CSV文件。
我查看了this post(以及其他几个),但我仍然无法使其正常工作。脚本似乎循环遍历文件,提取一些表,但它似乎没有遍历文件,而且我无法让它将所有数据帧写入CSV文件。该脚本只写入CSV中的最后一个。
这就是我到目前为止所拥有的。任何帮助都将不胜感激,特别是如何正确地循环文件,以及如何将一个pdf中的所有表写入一个csv文件。我被卡住了……
pdf_folder = 'C:\PDF extract\pdf\'
csv_folder = 'C:\PDF extract\csv\'
paths = [pdf_folder + fn for fn in os.listdir(pdf_folder) if fn.endswith('.pdf')]
for path in paths:
listdf = tabula.read_pdf(path, encoding = 'latin1', pages = 'all', nospreadsheet = True,multiple_tables=True)
path = path.replace('pdf', 'csv')
for df in listdf: (df.to_csv(path, index = False))
推荐答案
就像@Scott Hunter提到的那样,您没有使用csv_Folders
另外,我认为您正在覆盖创建的.csv文件:
for df in listdf: (df.to_csv(path, index = False))
对于for循环的每次迭代,PATH变量保持不变。
编辑: 您可能应该尝试这样做:
pdf_folder = 'C:\PDF extract\pdf\'
paths = [pdf_folder + fn for fn in os.listdir(pdf_folder) if fn.endswith('.pdf')]
for path in paths:
listdf = tabula.read_pdf(path, encoding = 'latin1', pages = 'all', nospreadsheet = True,multiple_tables=True)
path = path.replace('pdf', 'csv')
df_concat = pd.concat(listdf)
df_concat.to_csv(path, index = False)
这篇关于在python中使用制表器循环访问pdf文件的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
沃梦达教程
本文标题为:在python中使用制表器循环访问pdf文件


基础教程推荐
猜你喜欢
- 合并具有多索引的两个数据帧 2022-01-01
- 如何在 Python 中检测文件是否为二进制(非文本)文 2022-01-01
- 如何在Python中绘制多元函数? 2022-01-01
- 使 Python 脚本在 Windows 上运行而不指定“.py";延期 2022-01-01
- 症状类型错误:无法确定关系的真值 2022-01-01
- Python 的 List 是如何实现的? 2022-01-01
- 哪些 Python 包提供独立的事件系统? 2022-01-01
- 将 YAML 文件转换为 python dict 2022-01-01
- 使用Python匹配Stata加权xtil命令的确定方法? 2022-01-01
- 使用 Google App Engine (Python) 将文件上传到 Google Cloud Storage 2022-01-01