「C#」正規表現を使ってhtmlタグ(style、script、tab等)を削除するサンプルコード
C#コード
public static string HtmlToTextFunc(string htmlStr)
{
if (String.IsNullOrEmpty(htmlStr))
{
return “";
}
string regEx_style = “<style[^>]*?>[\\s\\S]*?<\\/style>"; /styleの正規表現
string regEx_script = “<script[^>]*?>[\\s\\S]*?<\\/script>"; //scriptの正規表現
string regEx_html = “<[^>]+>"; //html tagの正規表現
htmlStr = Regex.Replace(htmlStr, regEx_style, “");//cssを削除
htmlStr = Regex.Replace(htmlStr, regEx_script, “");//jsを削除
htmlStr = Regex.Replace(htmlStr, regEx_html, “");//htmlタグを削除
htmlStr = Regex.Replace(htmlStr, “\\s*|\t|\r|\n", “");//tab、スペースを削除
htmlStr = htmlStr.Replace(" “, “");
htmlStr = htmlStr.Replace(“"", “");
htmlStr = htmlStr.Replace(“"", “");
return htmlStr.Trim();
}