2014年3月6日木曜日

PHP: XPath で HTML から特定要素を抽出 1

PHP でスクレイピング(クローリング)をするときには、Simple HTML DOM Parser を使うと便利らしい。しかし、場合によっては外部ライブラリが使用できない場合もある。その場合は、PHP がデフォルトで使用することができる DOM Document クラスを使うことになる。

Simple HTML DOM Parser では jQuery のセレクタのように HTML 内の特定要素を指定することができる。PHP の DOM モジュールでは DOMXPath クラスを使って XPath 1.0 記法で HTML 要素を指定できる。

XPath 記法についてはこちらがとてもわかりやすい。
Java 入門 | XPath

具体的な記述法については明日記述する。

0 件のコメント:

コメントを投稿