PHP Simple HTML DOM Parser の基本的な使い方を説明していきます。
基本的には以下を参照して記載さいてますので、こちらも参考にしてください。
http://simplehtmldom.sourceforge.net/manual.htm
PHP Simple HTML DOM Parser における DOM オブジェクトの作り方
スクレイピングをするには対象のページをDOMオブジェクトにする必要があります。
まず、スクレイピングの対象は以下の三つがあります。
1. HTML文字列
2. インターネット上のページ(URL)
3. ローカルのhtmlファイル
上記の3つについてオブジェクトを作成する方法は2種類の方法があります。
オブジェクト作成時にをparse対象を読み込む場合
1. HTML文字列
$html = str_get_html(‘<html><body>Hello!</body></html>’);
2.インターネット上のページ(URL)
$html = file_get_html(‘http://yamanare.moko-moko.jp/’);
3. ローカルのhtmlファイル
$html = file_get_html(‘test.htm’);
空のオブジェクトを作成後、load()関数とload_file()関数で読み込む場合
まず、空のDOMオブジェクトを作成します。
$html = new simple_html_dom();
1. HTML文字列
$html->load(‘<html><body>こんにちわ</body></html>’);
2. インターネット上のページ(URL)
$html->load_file(‘http://www.google.com/’);
3. ローカルのhtmlファイル
$html->load_file(‘sample01.html’);
/