1 |
find('p[id=foo]'); |
find()の第一引数にはCSSのセレクターで対象タグを指定します。
今回は属性を指定する方法をご紹介します。
こんな感じになります。
1 2 3 4 5 6 7 |
find('a[href=http://www.yahoo.co.jp]'); foreach($items as $item){ echo $item->innertext; } ?> |
上記の「find(‘a[href=http://www.yahoo.co.jp]’)」のところの意味は、
「hrefという属性に”http://www.yahoo.co.jp”という値を持ったaタグのオブジェクトを得る」となります。
なので、結果は以下のようになります。
1 |
ヤフー |
— スクレイピング対象のhtmlファイル(sample.html) —
1 2 3 4 5 6 7 8 |
<title>タイトルですよ</title> <h1>ヘッダーですよね</h1> <div> <p class="ichi">今日ははれでしたが寒かったですよ</p> <p class="ni">そうですか、それは大変でしたね</p> <p class="ni">以上</p> <a href="http://www.yahoo.co.jp">ヤフー</a> </div> |
/