作者:乔山办公网日期:
返回目录:word文档
提醒:
1、txt格式复不能保留图片、特殊字符、编码等对象,只能保存纯汉字、基本数字等信息。因此doc中的图片、特殊字符等会丢失。
2、doc转换成txt后,txt文档的格式可能很混乱,需要自己整理一下。这主要是因为doc文件制格式复杂引起的。
一、复制粘贴法
1、在桌面空白处点击右键新建文本文档,并双击打开,如图百
2、打开word文档,组合键度Ctrl+a全选,然后组合键Ctrl+c复制,点到文本文档界面,Ctrl+v粘贴,最后保存文本文档,即知可转换完成。如图
二、另存为方法,以wps文字为例,微软的道office word也一样操作。
1、打开要转换word文档,点击左上角“wps文字”,“另存为”,“其它格式”,如图
2、在底部选择“文本文件.txt”,选好后,点击保存。如图
3、警告框,点击“确定”,即可转换完成。如图
Word 文档本质上是压缩后的资源文件与 xml 文件,可以根据 Open XML 标准去解析 xml 文件。要是嫌麻烦,用 python-docx 库似乎也可以完成这个。
关键是转化的内容形式有规定么?
python实现起来可能没有现成解决方案。抄因为py库可能没有全面的office套件解析器。
mac想批量转,很容易。
安装openoffice。
终端执行 soffice --headless --convert-to txt my_file.doc/.docx
如果批量将当前目录下所有doc转为txt,则写过简zhidao单shell:
for i in `ls *doc`; do soffice --headless --convert-to txt $i ; done; 即可。
以上同时适用linux。