Python言語 docからhtmlに変換方法

サンプルコード:
from win32com import client as wc

word = wc.Dispatch('Word.Application’)

doc = word.Documents.Open(r’G:\T.doc’)

doc.SaveAs(r’G:\T.docx’, 16)#パラメータ16を利用,docからdocxに変換

doc.Close()

word.Quit()

from docx2html import convert
import HTMLParser
html_parser = HTMLParser.HTMLParser()

html = convert('G:/T.docx’) # docx2htmlモジュールはdocxファイルをhtmlに変換

print html_parser.unescape(html) #文字列処理

Source

Posted by arkgame