作者:乔山办公网日期:
返回目录:word文档
我曾经也尝试使用纯百java技术去解析word文档,并且使用度了apache的jacob,POI等项目,但是由于Microsoft Word使用的doc不是标准DOC文件,而是自己加处理过的,问所以现在解析微软的doc都只能靠破解与猜解,据我所知,现在的答技术只能从word中提取出来文字,所以使用版纯java不太可能实现。
如果使用windows平台的话,可权以选择使用微软的一些word控件来达到目的.
Java code String getWord(String path) { System.out.println(); System.out.println(); File file File(path); String returnString ; InputStream is; try { is FileInputStream(file); WordExtractor extractor WordExtractor(); returnString = extractor.extractText(is); System.out.println(); } catch (FileNotFoundException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (Exception e) { // TODO Auto-generated catch block e.printStackTrace(); } return returnString; } 将内容写入到pdf中Java codeIOException{ System.out.println(); System.out.println(); ; // create the file File(filePath); file.exists()){ Document doc ; FileOutputStream fos ; PdfWriter pdfWriter ; try { BaseFont bFont ); Font font Font(bFont); font.setSize(8); doc Document(PageSize.A4, margin, margin, margin, margin); fos FileOutputStream(file); pdfWriter = PdfWriter.getInstance(doc, fos); doc.open(); doc.addTitle(filePath.replace()); doc.add(new Paragraph(content, font)); System.out.println(); } catch (FileNotFoundException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (DocumentException e) { // TODO Auto-generated catch block e.printStackTrace(); } finally{ ){ doc.close(); } ){ pdfWriter.close(); } ){ fos.close(); } } } } 心愿对你有用哈,我也是以前做测试的时候写的e799bee5baa6e78988e69d83330了……
几种方案:
方法一:用apache pio 读取doc文件,然后转成抄html文件用Jsoup格式化html文件,最后用itext将html文件转成pdf。
方法2:使用jdoctopdf来实现,这是一个封装好的包,可以把doc转换成pdf,html,xml等格式,百调用很方便
地址:
需要注意中文字体的写入问题。
方法3:使用jodconverter来调用openOffice的服务来转换,openOffice有个度各个平台的版本,所以这种方法跟方法1一样都是跨平台的。
jodconverter的下载地址:
首先要安装openOffice,下载地址:
安装完后要启动openOffice的服务,具体启问动方法请自行google
方法4:效果最好的一种方法,但是需要window环境,而且速度是最慢的需要安装msofficeWord以及SaveAsPDFandXPS.exe(word的一个插件,用来把word转化为pdf)
Office版本是2007,因为SaveAsPDFandXPS是微软为office2007及以上版本开发的插答件
SaveAsPDFandXPS下载地址:
jacob 包下载地址:
推荐下面免费的zd方法试试:
方法一:使用虚拟打印机pdf factory即可,而且其他格式文件只要是能够打印,选择这个虚专拟打印机,都可以做成PDF文件,很简单实用;
方法二:使用专门的转换软件,把文件属转成PDF文件;
方法三:用其他虚拟打印机转成PDF文件。
方法四:用WPS本身自带的转换功能转成PDF文件。