PHP でスクレイピング(クローリング)をするときには、Simple HTML DOM Parser を使うと便利らしい。しかし、場合によっては外部ライブラリが使用できない場合もある。その場合は、PHP がデフォルトで使用することができる DOM Document クラスを使うことになる。
Simple HTML DOM Parser では jQuery のセレクタのように HTML 内の特定要素を指定することができる。PHP の DOM モジュールでは DOMXPath クラスを使って XPath 1.0 記法で HTML 要素を指定できる。
XPath 記法についてはこちらがとてもわかりやすい。
Java 入門 | XPath
具体的な記述法については明日記述する。
0 件のコメント:
コメントを投稿