スクレイピング入門

python

selenium + python + google-chrome

GoogleChromeのインストールよくわからないけど、最初エラーがでてきたけど以下をやってなくなった。seleniumインストール実行
スクレイピング入門

phantomjs で javascript 実行ページの結果を取得する

1.composerをインストール2.composer.jsonを作成3.composerでインストール4.bin/phantomjsの展開phantomjsをダウンロードして、展開します。bin/phantomjsにパスを通しておくか、パ...
PHP

(8)DOMオブジェクトのメンバ

今までは、DOMオブジェクトに対して$item->innertextというように、指定したタグで囲まれたエレメントを意味する"innertext"しか使用しませんでしたが、それ以外にも以下のようなものがあります。対象タグのタグ名対象タグを含...
PHP

(7)属性情報を得る – PHP Simple HTML DOM Parser-

10行目で"$item->href"とすることで、aタグのhref属性を参照しています。結果は以下のようになります。---スクレイピング対象のhtmlファイル(sample.html)---/標準にない属性値は以下のようにします。
PHP

(6)タグとidを指定してオブジェクトを得る – PHP Simple HTML DOM Parser –

find()の第一引数にはCSSのセレクターで対象タグを指定します。今回は属性を指定する方法をご紹介します。こんな感じになります。上記の「find('a')」のところの意味は、「hrefという属性に""という値を持ったaタグのオブジェクトを...
PHP

(5)指定したタグの中でひとつだけ指定してオブジェクトを得 – PHP Simple HTML DOM Parser –

次は、find()にもうひとつ引数を指定して、オブジェクトをひとつだけ得ます。find()の二つ目の引数は、一つ目の引数で該当したオブジェクトのなかから何番目のオブジェクトかを決定します。0から始まるので一つ目が0、n番目を指定するときはn...
PHP

(4)タグ名だけを指定してオブジェクトを得る – PHP Simple HTML DOM Parser –

まずは、タグ名だけを指定してスクレイピングしてみます。1.3行目のrequire_once('simple_html_dom.php');でPHPSimpleHTMLDOMParserを読み込みます。2.file_get_html('');...
PHP

(3)得たいタグを見つける – PHP Simple HTML DOM Parser-

今回は前回作ったDOMオブジェクトを使用して実際に基本的なスクレイピングをしていきます。スクレイピングをするということは、先ほど作成したインターネット上のページ中の全部もしくは一部の情報を採取するということになります。ということで、ページ上...
PHP

(2)基本的な使い方 – PHP Simple HTML DOM Parser –

とりあえず、「simple_html_dom.php」をスクレイピングを実施するファイルからインクルードできる場所に配置してください。PHPSimpleHTMLDOMParserを使ってみるとりあえず使ってみます。そのまえに、スクレイピング...
PHP

(1)DOMオブジェクトの作成 – PHP Simple HTML DOM Parser –

PHPSimpleHTMLDOMParserの基本的な使い方を説明していきます。基本的には以下を参照して記載さいてますので、こちらも参考にしてください。PHPSimpleHTMLDOMParserにおけるDOMオブジェクトの作り方スクレイピ...
PHP

PHP Simple HTML DOM Parser入門

PHPSimpleHTMLDOMEParserとはPHPSimpleHTMLDOMParserは、jQueryチック(つまりcssセレクタチック)にインターネット上のHTMLファイルを解析するライブラリです。これを使うことにより手軽にスクレ...
PHP

htmlSQL サンプル(11) – user_agentとrefererの設定 –

$wsql->set_user_agent('MyAgentName/0.9');$wsql->set_referer('user_agentや、refererを任意に設定できる1.$wsql=newhtmlsql();で、htmlsqlク...
PHP

htmlSQL サンプル(10) – 特定の範囲を対象とする –

特定の範囲を対象とする$wsql->isolate_content('<h1>Newsnippets</h1>','<pid="rss">');"<h1>Newsnippets</h1>"と"<pid="rss">"の間を対象とする。");...
PHP

htmlSQL サンプル(9) – XMLファイルも対象にできる –

$wsql->connect('file','demo_xml.xml')XMLファイルも対象にできる。1.$wsql=newhtmlsql();で、htmlsqlクラスのオブジェクトを作成し、$wsqlに代入。2.$wsql->conne...
PHP

htmlSQL サンプル(8) – 対象範囲の限定 –

対象範囲を選択しちゃう$wsql->select('body');");}?>1.$wsql=newhtmlsql();で、htmlsqlクラスのオブジェクトを作成し、$wsqlに代入。2.$wsql->connect('url','{で、...
PHP

htmlSQL サンプル(7) – 配列構造の変換 –

RSSとXMLファイルを扱う場合。さらに、配列の構造を変更しアクセスしやすくする-----サンプルスクリプト----1.$wsql=newhtmlsql();で、htmlsqlクラスのオブジェクトを作成し、$wsqlに代入。2.$wsql-...
PHP

htmlSQL サンプル(6) – preg_match()の使用

複雑なクエリーの例$wsql->query('SELECT*FROMaWHEREpreg_match("/^/snippets/i",$href)andpreg_match("/^array_/i",$text)')検索条件にpreg_ma...
PHP

htmlSQL サンプル(5) – 文字列の解析 –

文字列への接続web上のページ(URL)やローカルのファイル以外に、文字列にもアクセスできます。$wsql->connect('string',$html_string)$wsql->query('SELECT*FROMa')");}?>0...
PHP

htmlSQL サンプル(4) – substr()の使用 –

条件にsubstr()関数を使用する場合。$wsql->query('SELECT*FROMaWHEREsubstr($href,0,1)!="/"')1.$wsql=newhtmlsql();で、htmlsqlクラスのオブジェクトを作成し...
PHP

htmlSQL サンプル(3) – preg_matchで絞込み –

SQLクエリにpreg_match()関数を使用し正規表現で検索を行う。$wsql->query('SELECT*FROMaWHEREpreg_match("/^",$href)')1.$wsql=newhtmlsql();で、htmlsq...