preg_match()を使ってhtmlタグを抽出

こんばんわ。

早坂@magicalです。

今日はpreg_match関数について述べていきたいと思います。

preg_matchはマッチングを検出する関数（ちょっと違うかも・・・）です。

ある特定のパターンに一致したらTRUE（真）または、配列を返します。

ではでは、例題でhtmlを配列に入れて、それを１文化し、マッチングを検証したいと思います。（改行も取ります）

PHP4、PHP５で動くと思います。

&lt; ?
$source = file( &quot;http://www.magical-remix.co.jp&quot; ); // ソース取得
$rfSource =&amp; $source ; // 重いので参照させるように
unset( source ); //メモリ開放

$implodeSource =&amp; implode( &quot;&quot;, $rfSource ) ; // １文化します

$trimSource =&amp; preg_replace( &quot;/(n|r|t)/&quot;, &quot;&quot;, $implodeSource ); // 改行、タブ文字を取り除きます

preg_match( &quot;/<title>(.*?)</title>/i", $trimSource, $matches ) ; // タイトルにマッチングさせ、$matchesに格納します
print_r( $matches ); //配列を出力しています。
?&gt;

これでhtmlのタイトルを取得することが出来ます。

マッチパターンを見てみましょう。

「”/<title>(.*?)</title>/i“」

みただけでは分かりませんよね。

何をしているかというと、「i」は大文字小文字関係なくマッチパターンにマッチする箇所を探します。

「(.*?)」は最短マッチと呼ばれるものです。

例えば、こんなことはあの例のhtml生成ソフトくらいにしかないと思われますが、

「タイトルタグがなぜ２つ」

というときがあったとします。

「<title>タイトル１</title><title>タイトル２</title>」

なんとなーくわかってきたとは思いますが、「最短距離で</title>にマッチした箇所までを抽出する」ようになっています。

最短距離というのは、「<title>」が始まってから、「</title>」で終わるまでの距離（文字数といえばいいのかなぁ。。）が一番短いときのことです。

分かってもらえたでしょうか？？

なんというか上手く説明できずにすみません。

これと同様にbodyタグ以下を抽出したり、抽出したタグを削除したりといろいろ出来ます。

しかし最悪な状態が起きる場合もあります。

メモリオーバーフローです。
preg_march関数はただでさえ重い関数です（使い方によっては軽くなります。肯定先読みとかいろいろあります。）

使う際は十分注意して使用してください。

では、今日はこれにて失礼します。

preg_match()を使ってhtmlタグを抽出

More from my site

世界一わかりやすい HTML5&CSS3コーディング

いちばんやさしいHTML5&CSS3の教本

人気の記事

カテゴリー

アーカイブ

最近のコメント

運営コンテンツ

More from my site

RECOMMENDこちらの記事も人気です。

PHPの正規表現

Windows版・Mac版のNetscapeをダウンロードする

FFFTPの設定を他のマシンに移行する方法

IE5.5に対応するハック

ちいたん

MicrosoftOfficeでちょっとした計算 - 第2弾

windowsでMacのような拡大をする

iMacのBootcampのXPにOpentypeフォントがインストール…