作者:乔山办公网日期:
返回目录:word文档
先导出为word,复制出来,放在txt文件,将txt文件后缀改为html
试试PDFBox
我昨天用着生成PDF文档,还行,挺好用,自带的zdexample把基本的操作都说明了
至于生成word,用POI;HTML的话,自己解析就可以了
PDFBox是一个开源的可以操作PDF文档的Java PDF类库。它可以创建一个新PDF文档,操作现有PDF文档并提取文档中的内容。 它具有以下特性:
1.将一个PDF文档转换输出为一版个文本文件。
2.可以从文权本文件创建一个PDF文档。
3.加密/解密PDF文档。
4.向已有PDF文档中追加内容。
5.可以从PDF文档生成一张图片。
6.可以与Jakarta Lucene搜索引擎的整合
思路是用一些Java能操作word文件度的库,例如Apache的POI库,还有jacob库等,
读出word文件的格式知和内容,然后根据格式转换为html(该加粗道的加粗,该分段的分内段),
这个过程中可以把文字内容提取成txt纯文本容文件。
Dispatch wordfile = Dispatch.invoke(
wordacc,
"Open",
Dispatch.Method,
new Object[] { ls_word, new Variant(false),
new Variant(true) }, new int[1]).toDispatch();
Dispatch.invoke(wordfile, "SaveAs", Dispatch.Method, new Object[] {
ls_html, new Variant(8) }, new int[1]);
Variant f = new Variant(false);
// 编写 生成的html
Dispatch.call((Dispatch) wordfile, "Close", (Object) f);
在执行Dispatch.invoke(wordfile, "SaveAs", Dispatch.Method, new Object[] {
ls_html, new Variant(8) }, new int[1]);
jacob.jar
jacob-1.14-x86.dll jacob-1.14-x64.dll 这些的位置有什么要求
抛出异常 路径绝对没有错
com.jacob.com.ComFailException: Invoke of: SaveAs
Source: Microsoft Word
Description: 这不是有效文件名。e799bee5baa6e997aee7ad94e58685e5aeb9335
请试用下列方法:
* 检查路径,确认键入无误。
* 从文件和文件夹列表中选择文件。
at com.jacob.com.Dispatch.invokev(Native Method)
at com.jacob.com.Dispatch.invokev(Dispatch.java:858)
at com.jacob.com.Dispatch.invoke(Dispatch.java:502)