python读取word文档内容-python激活office,python和office-乔山办公网

作者：乔山办公网日期：2020-10-22 23:55:28

返回目录：office365

使用Python的内部方法open()读取文抄本文件

try:
    f=open('/file','r')
    print(f.read())
finally:
    if f:
        f.close()

如果读取word文档推荐使用第zhidao三方插件，python-docx 可以在官网上下载

使用方式

# -*- coding: cp936 -*-
import docx
document = docx.Document(文件路径)
docText = '\n\n'.join([
    paragraph.text.encode('utf-8') for paragraph in document.paragraphs
])
print docText

import fnmatch, os, sys, win32com.client

readpath=r'D:\123'

wordapp = win32com.client.gencache.EnsureDispatch("Word.Application")
try:
for path, dirs, files in os.walk(readpath):
for filename in files:
if not fnmatch.fnmatch(filename, '*.docx'):continue
doc = os.path.abspath(os.path.join(path,filename))
print 'processing %s...' % doc
wordapp.Documents.Open(doc)
docastext = doc[:-4] + 'txt'
wordapp.ActiveDocument.SaveAs(docastext,FileFormat=win32com.client.constants.wdFormatText)
wordapp.ActiveDocument.Close()
finally:
wordapp.Quit()
print 'end'

f=open(r'd:\123\test.txt','r')
for line in f.readlines():
print line.decode('gbk')
f.close()
程序导出word文档的方法
将web/html内容导出为world文档，再java中有很多解决方案，比如使用Jacob、Apache POI、Java2Word、iText等各种方式，以及使用freemarker这样的模板引擎这样的方式。php中也有一些相应的方法，但在python中将web/html内容生成world文档的方法是很少的。其中最不好解决的就是如何将使用js代码异步获取填充的数据，图片导出到word文档中。
1. unoconv
功能：
1.支持将本地html文档转换为docx格式的文档，所以需要先将网页中的html文件保存到本地，再调用unoconv进行转换。转换效果也不错，使用方法非常简单。

?

\# 安装

sudo apt-get install unoconv
\# 使用
unoconv -f pdf *.odt
unoconv -f doc *.odt
unoconv -f html *.odt

缺点：
1.只能对静态html进行转换，对于页面中有使用ajax异步获取数据的地方也不能转换（主要是要保证从web页面保存下来的html文件中有数据）。

2.只能对html进行转换，如果页面中有使用echarts,highcharts等js代码生成的图片，7a686964616fe59b9ee7ad94339是无法将这些图片转换到word文档中；

3.生成的word文档内容格式不容易控制。

2. python-docx
功能：
1.python-docx是一个可以读写word文档的python库。

使用方法：
1.获取网页中的数据，使用python手动排版添加到word文档中。

首先下载安装win32com

from win32com import client as wc
word = wc.Dispatch('Word.Application')
doc = word.Documents.Open('c:/test')
doc.SaveAs('c:/test.text', 2)
doc.Close()
word.Quit()

这种方式产生的text文档，不能用python用普通的r方式读取，为了让python可以用r方式读取，应当写成

doc.SaveAs('c:/test', 4)

注意：系统执行完成e69da5e887aae79fa5e98193339后，会自动产生文件后缀txt（虽然没有指明后缀）。
在xp系统下面，应当，

open(r'c:\text','r')
wdFormatDocument = 0
wdFormatDocument97 = 0
wdFormatDocumentDefault = 16
wdFormatDOSText = 4
wdFormatDOSTextLineBreaks = 5
wdFormatEncodedText = 7
wdFormatFilteredHTML = 10
wdFormatFlatXML = 19
wdFormatFlatXMLMacroEnabled = 20
wdFormatFlatXMLTemplate = 21
wdFormatFlatXMLTemplateMacroEnabled = 22
wdFormatHTML = 8
wdFormatPDF = 17
wdFormatRTF = 6
wdFormatTemplate = 1
wdFormatTemplate97 = 1
wdFormatText = 2
wdFormatTextLineBreaks = 3
wdFormatUnicodeText = 7
wdFormatWebArchive = 9
wdFormatXML = 11
wdFormatXMLDocument = 12
wdFormatXMLDocumentMacroEnabled = 13
wdFormatXMLTemplate = 14
wdFormatXMLTemplateMacroEnabled = 15
wdFormatXPS = 18

照着字面意思应该能对应到相应的文件格式，如果你是office
2003可能支持不了这么多格式。word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML（对应数字
8、10），区别是如果是wdFormatHTML格式的话，word文件里面的公式等ole对象将会存储成wmf格式，而选用
wdFormatFilteredHTML的话公式图片将存储为gif格式，而且目测可以看出用wdFormatFilteredHTML生成的HTML
明显比wdFormatHTML要干净许多。

当然你也可以用任意一种语言通过com来调用office API，比如PHP.

from win32com import client as wc
word = wc.Dispatch('Word.Application')
doc = word.Documents.Open(r'c:/test1.doc')
doc.SaveAs('c:/test1.text', 4)
doc.Close()

import re
strings=open(r'c:\test1.text','r').read()
result=re.findall('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\（\s*[A-D]\s*\）|\（\xa1*[A-D]\xa1*\）',strings)
chan=re.sub('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\（\s*[A-D]\s*\）|\（\xa1*[A-D]\xa1*\）','()',strings)
question=open(r'c:\question','a+')
question.write(chan)
question.close()
answer=open(r'c:\answeronly','a+')
for i,a in enumerate(result):
m=re.search('[A-D]',a)
answer.write(str(i+1)+' '+m.group()+'\n')
answer.close()
chan=re.sub(r'\xa3\xa8\s*[A-D]\s*\xa3\xa9','()',strings)
#不要()，容易引起歧义。

本文标签：python和office(2)python激活office(1)

python读取word文档内容-python激活office,python和office

返回目录：office365

相关阅读

python读取word文档内容-python激活office,python和office

英文版的<em>office</em> 网上有吗,有的话给个，谢谢-python win32 o

WORD文档和EXCEL表格的文件后缀名是什么-office后缀名无法隐藏,office的表格后缀名

热门文章

win7旗舰版里自带有97-03和07两种office，怎么...-office97 2003怎样删除,如何删除offi

Microsoft Office 已经删除，为什么新建里还有...-卸载了office 右键还有,安装完office右键

office精简版-办公软件升级，Office 2019批量授权版2019年9月更新，支持win7

怎么解决每次打开office 都提示windows正在配置o...-windows正在设置office,windowso

wps表格的OFFICE按钮在那？-excel里的office按钮在哪里,office按钮是哪个

手机 office 哪个好用呢？-手机office软件好用吗,手机炒股软件哪个好

聚合标签

ppt怎么做_excel表格制作_office365_word文档_365办公网