2017-04-01から1ヶ月間の記事一覧
本の中で、課題としてWikipedia(英語版)を使ったものが出てきたので、日本版Wikipediaに置き換えてやってみようと思ったところ、URLに日本語が含まれているせいでUnicodeエンコードエラーが起きた。 ググったところ、先人の知恵があったので試してみたが、…
正規表現だけでなく、ラムダ式を使うのもスクレイピングに役立つ。後で勉強すること。
正規表現には苦手意識があった。正確には苦手というより憶えるのが面倒臭く、必要になる場面ではそのたびごとにググって調べ、すぐ忘れてしまう、というパターンである。ただ、人生のこのタイミングでがっつりPythonを学習するにあたって、さすがに避けて通…
スクレイピングで要素を取得する際に、cssのclassが有効活用できる。 たとえば、このブログ(現状ではWordPressのTwenty Fifteenテーマをそのまま使っている)の記事タイトルだけを抜き出したい場合には、 <h2 class="entry-title"> <a h…
本の中で、スクレイピング対象のデータフォーマットがひどかったりしてスクレイパーがエラーを起こして止まったときなどに、 Webサイトを作った開発者の名前を(それからおかしなフォーマットも)呪いたくもなるでしょうが、本当に腹が立つのは、そもそもそ…
Pythonのオブジェクトのひとつにタプル(tuple)があり、これは複数の要素の組み合わせをひとつのものとして扱える。具体的には、座標とかを (0, 100) のように、コンマで区切り丸括弧で囲んで作る。シーケンス型であり、インデックスで値を取り出せる。後か…
Macの場合、 $sudo easy_install pip でPythonパッケージマネージャーpipをインストールした後 $pip install beautifulsoup4 でBeautifulSoupをインストールする。らしいのだが、自分の環境には既にAnacondaが入っていたので、 Requirement already satisfie…
urllibは『PythonによるWebスクレイピング』のいろんな場面で使うので、ドキュメントを読んでおくといいらしい。 本の中のURLは英語版だったので、日本語版にリンクを張っておく。本当は英語版で読む習慣をつけたほうがいいんだろうけど。
Pythonには内包表記(comprehension)という書き方がある、というのをcodeacademyのPythonコースで知ったわけだが、これはコードが簡潔になるばかりではなく処理も速くなるらしい。処理が速くなる理屈については正直今の自分のレベルではチンプンカンプンな…
ちょっと前から、情報収集にWebスクレイピングを導入したいなあとボンヤリ考えていたのだが、何を使って実践しようかなと検討していたところ、どうやらO'Reillyから去年出た『PythonによるWebスクレイピング』という本がとても良いらしい、というのを知った…