Python言語 docからhtmlに変換方法
サンプルコード:
from win32com import client as wc
word = wc.Dispatch('Word.Application’)
doc = word.Documents.Open(r’G:\T.doc’)
doc.SaveAs(r’G:\T.docx’, 16)#パラメータ16を利用,docからdocxに変換
doc.Close()
word.Quit()
from docx2html import convert
import HTMLParser
html_parser = HTMLParser.HTMLParser()
html = convert('G:/T.docx’) # docx2htmlモジュールはdocxファイルをhtmlに変換
print html_parser.unescape(html) #文字列処理