Posts RSS Comments RSS 32 投稿 and 1 コメント till now

Spidering hacks—ウェブ情報ラクラク取得テクニック101選

Spidering hacks―ウェブ情報ラクラク取得テクニック101選

著者/訳者:Kevin Hemenway Tara Calishain

出版社:オライリー・ジャパン( 2004-05 )

定価:¥ 3,675

単行本 ( 516 ページ )

ISBN-10 : 4873111870

ISBN-13 : 9784873111872


Javaスパイダーツールサンプルが面白かったので購入した本。Javaスパイダーツールサンプルの方が自分にとっては良書であった。

まず、ツールの中心がPerlになる。Java本は正規表現を中心にゴリゴリやっていたのに対して、こちらはHTML::TokeParserなどのツールも積極的に使う。しかし、私はスクリプト言語ではRubyやPythonのほうに関心があるので同等の同じものを探すことになった。RubyではHpricotというHTMLパーサが評判がいいなどを調べてレンタルサーバにインストールなど、私にとっては本を読んですぐに実践に移れるわけではなかった。

また、もともとアメリカの本であるためかサンプルがアメリカのものが多い。それでも日本の気象庁などからデータを引っ張ってくるサンプルなども充実しており、単にやり方を学ぶだけではなく、人によってはそのまま使えるようなサンプルも入っている。最後に付録として「日本語処理(訳者補)」がついており、この辺のサービスもよい。

本書の一番自分にとってよかったのはXML-RPCなどの技術について多く触れていたことである。別件でWordPressにプログラムから投稿を行うためにXML-RPCの資料を探していたが、こんなところにもあったのかという感じである。このように、スパイダリングのみならず、色々な技術やツールについても理解が深まる点で勉強になった。

目次:

訳者まえがき
クレジット
まえがき
1章 ウォーミングアップ
2章 道具を揃える
3章 メディアファイルの収集
4章 データベースからのデータ収集
5章 コレクションを維持管理する
6章 世の中に還元する
付録 日本語処理[訳者補]
索引

Trackback this post | Feed on Comments to this post

Leave a Reply