とりあえず、「simple_html_dom.php」をスクレイピングを実施するファイルからインクルード
できる場所に配置してください。
PHP Simple HTML DOM Parserを使ってみる
とりあえず使ってみます。
そのまえに、スクレイピング対象のサンプルページとして以下のファイルを用意して置いてください。
(sample.html) ※今後もこのファイルを対象にスクレイピングをしていきます。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 |
<title>タイトルですよ</title> <h1>ヘッダーですよね</h1> <div> 今日ははれでしたが寒かったですよ そうですか、それは大変でしたね 以上 <a href="http://www.yahoo.co.jp">ヤフー</a> </div> |
ためしに上記から「それは大変でしたね」を選択する例を提示します。
(sample01.php)
1 2 3 |
find('p', 1); printf("$item"); ?> |
※ simple_html_dom.phpはパスが通っている場所においてある前提です。
これにより以下の結果を得られます。
[簡単に解説]
2行目でsimple_html_dom.phpをrequireすることで、”PHP Simple HTML Parser”の機能が使えるようになります。
4行目ではローカルの同じディレクトリにあるsample.htmlというファイルを読み込んでDOMオブジェクトとして$htmlに代入してます。
5行目では$html->find(‘p’,1)とありますが、これはDOMオブジェクトである$htmlから、「2個目のpタグを探せ」という命令になります。探し出した結果を$itemに代入してます。
(ちなみに、find(‘p’,0)であれば1番目のpタグ)
6行目では5行目で得た二番目のpタグをそのまま出力してます。
出力される内容としては以下になります。
1 |
そうですか、それは大変でしたね |
これで一応simple html dom parserを動かせました。
今後はいろいろな場面での使い方を解説していきたいと思います。
ご清聴ありがとうございました。/