萬九郎の硬い船

プログラミング学習記録など

2017-04-21から1日間の記事一覧

正規表現への苦手意識を克服する

正規表現には苦手意識があった。正確には苦手というより憶えるのが面倒臭く、必要になる場面ではそのたびごとにググって調べ、すぐ忘れてしまう、というパターンである。ただ、人生のこのタイミングでがっつりPythonを学習するにあたって、さすがに避けて通…

cssのclassを手がかりに要素を取得する

スクレイピングで要素を取得する際に、cssのclassが有効活用できる。 たとえば、このブログ(現状ではWordPressのTwenty Fifteenテーマをそのまま使っている)の記事タイトルだけを抜き出したい場合には、 <h2 class="entry-title"> <a h…

例外に備えさせていただく

本の中で、スクレイピング対象のデータフォーマットがひどかったりしてスクレイパーがエラーを起こして止まったときなどに、 Webサイトを作った開発者の名前を(それからおかしなフォーマットも)呪いたくもなるでしょうが、本当に腹が立つのは、そもそもそ…

タプルの何がいいのかを理解する

Pythonのオブジェクトのひとつにタプル(tuple)があり、これは複数の要素の組み合わせをひとつのものとして扱える。具体的には、座標とかを (0, 100) のように、コンマで区切り丸括弧で囲んで作る。シーケンス型であり、インデックスで値を取り出せる。後か…