PythonのHTMLParserでHTMLを解析する

2014年7月11日

Pythonコード：
#-*- encoding: utf-8 -*-
import HTMLParser

class MyParser(HTMLParser.HTMLParser):
def __init__(self):
HTMLParser.HTMLParser.__init__(self)

def handle_starttag(self, tag, attrs):
#ここで開始タグを処理する関数を再定義
if tag == 'a’:
# タグ<a>のプロパティを判断
for name,value in attrs:
if name == 'href’:
print value

if __name__ == '__main__’:
a = '<html><head><title>Pythonテストプログラム</title><body><a href="http: //www.arkgame.com">startnews24</a></body></html>’

my = MyParser()
#分析用HTMLデータを渡す
my.feed(a)

Posted by arkgame