スクレイピング入門

python

selenium + python + google-chrome

Google Chromeのインストール よくわからないけど、最初エラーがでてきたけど以下をやってなくなった。 seleniumインストール 実行
スクレイピング入門

phantomjs で javascript 実行ページの結果を取得する

1. composer をインストール 2. composer.jsonを作成 3. composer でインストール 4. bin/phantomjsの展開 phantomjsをダウンロードして、展開します...
PHP

(8)DOMオブジェクトのメンバ

今までは、DOMオブジェクトに対して $item->innertext というように、指定したタグで囲まれた エレメントを意味する"innertext"しか使用しませんでしたが、それ以外にも以下のようなものがあります。 対象タグの...
PHP

(7)属性情報を得る – PHP Simple HTML DOM Parser-

10行目で "$item->href" とすることで、aタグのhref属性を参照しています。 結果は以下のようになります。 --- スクレイピング対象のhtmlファイル(sample.html) ---...
PHP

(6)タグとidを指定してオブジェクトを得る – PHP Simple HTML DOM Parser –

find()の第一引数にはCSSのセレクターで対象タグを指定します。 今回は属性を指定する方法をご紹介します。 こんな感じになります。 上記の「find('a')」のところの意味は、 「hrefという属性に""という値を持っ...
PHP

(5)指定したタグの中でひとつだけ指定してオブジェクトを得 – PHP Simple HTML DOM Parser –

次は、find()にもうひとつ引数を指定して、オブジェクトをひとつだけ得ます。 find()の二つ目の引数は、一つ目の引数で該当したオブジェクトのなかから何番目のオブジェクトかを 決定します。0から始まるので一つ目が0、n番目を指定すると...
PHP

(4)タグ名だけを指定してオブジェクトを得る – PHP Simple HTML DOM Parser –

まずは、タグ名だけを指定してスクレイピングしてみます。 1. 3行目の require_once('simple_html_dom.php'); でPHP Simple HTML DOM Parser を読み込みます。 2. fil...
PHP

(3)得たいタグを見つける – PHP Simple HTML DOM Parser-

今回は前回作ったDOMオブジェクトを使用して実際に基本的なスクレイピングをしていきます。 スクレイピングをするということは、先ほど作成したインターネット上のページ中の全部もしくは 一部の情報を採取するということになります。 ということで...
PHP

(2)基本的な使い方 – PHP Simple HTML DOM Parser –

とりあえず、「simple_html_dom.php」をスクレイピングを実施するファイルからインクルード できる場所に配置してください。 PHP Simple HTML DOM Parserを使ってみる とりあえず使ってみます。 そのまえ...
PHP

(1)DOMオブジェクトの作成 – PHP Simple HTML DOM Parser –

PHP Simple HTML DOM Parser の基本的な使い方を説明していきます。 基本的には以下を参照して記載さいてますので、こちらも参考にしてください。 PHP Simple HTML DOM Parser における DO...
PHP

PHP Simple HTML DOM Parser入門

PHP Simple HTML DOME Parserとは PHP Simple HTML DOM Parserは、jQueryチック(つまりcssセレクタチック)にインターネット上のHTMLファイルを解析するライブラリです。 これを使う...
PHP

htmlSQL サンプル(11) – user_agentとrefererの設定 –

$wsql->set_user_agent('MyAgentName/0.9'); $wsql->set_referer(' user_agentや、refererを任意に設定できる 1. $wsql = new htmlsq...
PHP

htmlSQL サンプル(10) – 特定の範囲を対象とする –

特定の範囲を対象とする $wsql->isolate_content('<h1>New snippets</h1>', '<p id="rss">'); "<h1>New snippet...
PHP

htmlSQL サンプル(9) – XMLファイルも対象にできる –

$wsql->connect('file', 'demo_xml.xml') XMLファイルも対象にできる。 1. $wsql = new htmlsql(); で、htmlsqlクラスのオブジェクトを作成し、$wsqlに代入。 ...
PHP

htmlSQL サンプル(8) – 対象範囲の限定 –

対象範囲を選択しちゃう $wsql->select('body'); "); } ?> 1. $wsql = new htmlsql(); で、htmlsqlクラスのオブジェクトを作成し、$wsqlに代入。 2....
PHP

htmlSQL サンプル(7) – 配列構造の変換 –

RSSとXMLファイルを扱う場合。 さらに、配列の構造を変更しアクセスしやすくする -----サンプルスクリプト---- 1. $wsql = new htmlsql(); で、htmlsqlクラスのオブジェクトを作成し、$wsql...
PHP

htmlSQL サンプル(6) – preg_match()の使用

複雑なクエリーの例 $wsql->query('SELECT * FROM a WHERE preg_match("/^/snippets/i", $href) and preg_match("/^array_/i", $text)'...
PHP

htmlSQL サンプル(5) – 文字列の解析 –

文字列への接続 web上のページ(URL)やローカルのファイル以外に、文字列にもアクセスできます。 $wsql->connect('string', $html_string) $wsql->query('SELECT * F...
PHP

htmlSQL サンプル(4) – substr()の使用 –

条件にsubstr()関数を使用する場合。 $wsql->query('SELECT * FROM a WHERE substr($href,0,1) != "/"') 1. $wsql = new htmlsql(); で、h...
PHP

htmlSQL サンプル(3) – preg_matchで絞込み –

SQLクエリにpreg_match()関数を使用し正規表現で検索を行う。 $wsql->query('SELECT * FROM a WHERE preg_match("/^", $href)') 1. $wsql = new ...
タイトルとURLをコピーしました