试试PDFBox我昨天用着生成PDF文档" />
乔山办公网我们一直在努力
您的位置:乔山办公网 > word文档 > <em>java</em>如何将pdf转成html或者word-CSDN论坛-java word

<em>java</em>如何将pdf转成html或者word-CSDN论坛-java word

作者:乔山办公网日期:

返回目录:word文档


先导出为word,复制出来,放在txt文件,将txt文件后缀改为html

试试PDFBox
我昨天用着生成PDF文档,还行,挺好用,自带的zdexample把基本的操作都说明了
至于生成word,用POI;HTML的话,自己解析就可以了
PDFBox是一个开源的可以操作PDF文档的Java PDF类库。它可以创建一个新PDF文档,操作现有PDF文档并提取文档中的内容。 它具有以下特性:
1.将一个PDF文档转换输出为一个文本文件。
2.可以从文本文件创建一个PDF文档。
3.加密/解密PDF文档。
4.向已有PDF文档中追加内容。
5.可以从PDF文档生成一张图片。
6.可以与Jakarta Lucene搜索引擎的整合
思路是用一些Java能操作word文件的库,例如Apache的POI库,还有jacob库等,
读出word文件的格式和内容,然后根据格式转换为html(该加粗的加粗,该分段的分段),
这个过程中可以把文字内容提取成txt纯文本文件。

Dispatch wordfile = Dispatch.invoke(
wordacc,
"Open",
Dispatch.Method,
new Object[] { ls_word, new Variant(false),
new Variant(true) }, new int[1]).toDispatch();
Dispatch.invoke(wordfile, "SaveAs", Dispatch.Method, new Object[] {
ls_html, new Variant(8) }, new int[1]);
Variant f = new Variant(false);

// 编写 生成的html
Dispatch.call((Dispatch) wordfile, "Close", (Object) f);

在执行Dispatch.invoke(wordfile, "SaveAs", Dispatch.Method, new Object[] {
ls_html, new Variant(8) }, new int[1]);

jacob.jar
jacob-1.14-x86.dll jacob-1.14-x64.dll 这些的位置有什么要求

抛出异常 路径绝对没有错
com.jacob.com.ComFailException: Invoke of: SaveAs
Source: Microsoft Word
Description: 这不是有效文件名。e799bee5baa6e997aee7ad94e58685e5aeb9335
请试用下列方法:
* 检查路径,确认键入无误。
* 从文件和文件夹列表中选择文件。

at com.jacob.com.Dispatch.invokev(Native Method)
at com.jacob.com.Dispatch.invokev(Dispatch.java:858)
at com.jacob.com.Dispatch.invoke(Dispatch.java:502)

相关阅读

关键词不能为空

ppt怎么做_excel表格制作_office365_word文档_365办公网