PythonのHTMLParserでHTMLを解析する
Pythonコード:
#-*- encoding: utf-8 -*-
import HTMLParser
class MyParser(HTMLParser.HTMLParser):
def __init__(self):
HTMLParser.HTMLParser.__init__(self)
def handle_starttag(self, tag, attrs):
#ここで開始タグを処理する関数を再定義
if tag == 'a’:
# タグ<a>のプロパティを判断
for name,value in attrs:
if name == 'href’:
print value
if __name__ == '__main__’:
a = '<html><head><title>Pythonテストプログラム</title><body><a href="http: //www.arkgame.com">startnews24</a></body></html>’
my = MyParser()
#分析用HTMLデータを渡す
my.feed(a)