Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド
タイトルを見るとPythonでクローリング、スクレイピングのやり方を説明している本です。
Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド-
- 作者: 加藤耕太
- 出版社/メーカー: 技術評論社
- 発売日: 2016/12/16
- メディア: 大型本
- この商品を含むブログ (3件) を見る
私には読む前に疑問なことがありました。「スクレイピングとクローリングの説明に特化している割には分厚くない?」ということです。
スクレイピングは実は大したことではありません。PythonでどこかのページのHTMLをとってくるのはそんなに難しくないです。数行書けば良いくらいです。HTMLを解析するのは経験がいるかもしれませんが、HTMLの構成などを説明するとHTMLの本になってしまいます。
私が知らないだけでスクレイピングとクローリングって奥が深いのかな?と思って買ったんですが、案の定、スクレイピングとクローリングについては知っていることばかりでした。
びっくりしたのは1章でいきなりwgetを説明していることでした。 これ、PythonじゃなくてLinuxのコマンドですよね?(Linuxあまり詳しくないので違ってたらすいません。)
以前、どこかでブログを書いていた内容を乗り換えたかったときに使いました。編集ページを何ページ分も開くのは嫌だ!とwgetで全ページを取得した思い出があります。スクレイピングのコマンドといえばそうですが、Pythonじゃないです。
次が正規表現の説明。これでスクレイピングしたページを解析してみよう! って、Pythonどこーーーーー
2章はPythonの基本の説明、csv、JSON、データベースまで説明されています。
3章でやっと出てきた。Pythonでスクレイピングした。Beautiful Soupも使った。なぜか取得したデータをMySQLとかMongoDBに保存。って、なんの本なのだ?
4章はクローラー。 robots.txtとかの説明。まぁ、お作法とかの説明。まぁ、いいでしょう。
5章はグラフ描画するmatplotlib出てきた!BigQueryも出てきた!
6章はScrapyの説明。これは良さそう。
7章は運用の話。Redis出てきた。そして終わった。
スクレイピングに関わる話をいろいろ紹介したかったとは思いますが、著者はDB好きなのかな?なんか、いろいろ紹介したかったのかな?って思いました。 3,4,6章しか真面目に読んでないです。ごめんなさい。
枝葉の内容を半分くらいにしてもう少しお安いと嬉しかったかな。って思いました。