作者:乔山办公网日期:
返回目录:excel表格制作
pdfbox,python没有什么好的pdf处理工具,我是用python直接执行pdfbox的jar,提取pdf的内容作为自然语言处理的训练语料。
试试tabula,读取pdf后可转为复pandas dataframe进行后续处理,也可直接输出csv文件。制
python版本的项目主页,
安装百:pip install tabula-py
如果包含中文内容需要修改编码格式:
pd.read_csv("example.csv", encoding="GB18030")
(ps下次提问请先查看度万能的stackoverflow:
Extracting table contents from a collection of PDF files)
利用Python进行数据分析.pdf http://pan.baidu.com/s/1sjLUe65
我最近就在干这件事……简单来说,用pdftables就可以了
写完代码的抄补充:
转成袭excel后,因为python不能在已存在的excel文件上改,所以我的办法是用pandas df转成matrix。然后处理二维数组。
再写到最终的excel。
「老子终于写完了」
啊哈!听说过abbyy finerreader嘛!zhidao解决一切问题!