乔山办公网我们一直在努力
您的位置:乔山办公网 > excel表格制作 > 如何用<em>Python</em>从大量<em>pdf</em> 中提

如何用<em>Python</em>从大量<em>pdf</em> 中提

作者:乔山办公网日期:

返回目录:excel表格制作


pdfbox,python没有什么好的pdf处理工具,我是用python直接执行pdfbox的jar,提取pdf的内容作为自然语言处理的训练语料。

试试tabula,读取pdf后可转为pandas dataframe进行后续处理,也可直接输出csv文件。
python版本的项目主页,
安装:pip install tabula-py
如果包含中文内容需要修改编码格式:
pd.read_csv("example.csv", encoding="GB18030")

(ps下次提问请先查看万能的stackoverflow:
Extracting table contents from a collection of PDF files)

利用Python进行数据分析.pdf http://pan.baidu.com/s/1sjLUe65



我最近就在干这件事……简单来说,用pdftables就可以了
写完代码的补充:
转成excel后,因为python不能在已存在的excel文件上改,所以我的办法是用pandas df转成matrix。然后处理二维数组。
再写到最终的excel。
「老子终于写完了」
啊哈!听说过abbyy finerreader嘛!zhidao解决一切问题!

相关阅读

关键词不能为空
极力推荐

ppt怎么做_excel表格制作_office365_word文档_365办公网