(3)得たいタグを見つける – PHP Simple HTML DOM Parser-

今回は前回作ったDOMオブジェクトを使用して実際に基本的なスクレイピングをしていきます。

スクレイピングをするということは、先ほど作成したインターネット上のページ中の全部もしくは
一部の情報を採取するということになります。

ということで、ページ上のほしい情報を指定する必要があります。

そのためのコマンドが find() になります。

では具体的にどのように使うかを示していきます。

1. タグ名だけを指定してオブジェクトを得る
$ret = $html->find(‘a’);
-> DOMオブジェクトが持つ’a’タグすべてを$retに格納する。

2. タグ名と何番目のタグかを指定してオブジェクトを得る
$ret = $html->find(‘a’, 0);
-> DOMオブジェクトが持つ’a’タグの中で、最初のものだけを$retに格納する。

3. タグとidを指定してオブジェクトを得
$ret = $html->find(‘div[id=foo]‘);
-> DOMオブジェクトが持つ’div’タグの中で、idが’foo’のものを$retに格納する。

4. タグと所持するattributeを指定してオブジェクトを得る場合
$ret = $html->find(‘div[id]‘);
-> DOMオブジェクトが持つ’div’タグの中で、id属性を持つものだけを$retに格納する。

5. 所持する属性を指定してオブジェクトを得る場合
$ret = $html->find(‘[id]‘);
-> DOMオブジェクトが持つオブジェクトのなかで、id属性を持つタグすべてを$retに格納する。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>