2017-04-21から1日間の記事一覧
正規表現には苦手意識があった。正確には苦手というより憶えるのが面倒臭く、必要になる場面ではそのたびごとにググって調べ、すぐ忘れてしまう、というパターンである。ただ、人生のこのタイミングでがっつりPythonを学習するにあたって、さすがに避けて通…
スクレイピングで要素を取得する際に、cssのclassが有効活用できる。 たとえば、このブログ(現状ではWordPressのTwenty Fifteenテーマをそのまま使っている)の記事タイトルだけを抜き出したい場合には、 <h2 class="entry-title"> <a h…
本の中で、スクレイピング対象のデータフォーマットがひどかったりしてスクレイパーがエラーを起こして止まったときなどに、 Webサイトを作った開発者の名前を(それからおかしなフォーマットも)呪いたくもなるでしょうが、本当に腹が立つのは、そもそもそ…
Pythonのオブジェクトのひとつにタプル(tuple)があり、これは複数の要素の組み合わせをひとつのものとして扱える。具体的には、座標とかを (0, 100) のように、コンマで区切り丸括弧で囲んで作る。シーケンス型であり、インデックスで値を取り出せる。後か…