Python3でScrapyを使う

『PythonによるWebスクレイピング』には、残念ながら、Scrapyは、Python2.7では動きますが、Python3.xバージョンはまだリリースされていません。と書いてあり、ウワアめんどくせえ、これが複数バージョンのPythonを仮想環境で分離するとよいと…

2017-05-12

urlparseでURLを分解する／組み立てる

note programming python scraping

urllib.parseのurlparseを使うと、受け取ったURLを解析して分解したり、組み立て直すことができる。 urllibについては、本の冒頭で「繰り返し出てくるからドキュメントを読んでおけ」とあったとおり、細かい部分は一切説明がないので、メモしておく。 scheme…

2017-05-09

なんだかいちいちつまずいてしまう

programming python scraping

Wikipediaの日本語URLのエスケープの件でハマったり、『PythonによるWebスクレイピング』を細かい部分まで噛み締めて読み進めようとすると、なんだかいちいちつまずいてしまう。もしかしたら、何かもう少しやさしい参考書を読んだ方がよいのではないか？とい…

2017-05-02

BeautifulSoup4のfind()とfind_all()について理解を深める

beautifulsoup programming python scraping ドキュメント翻訳

BeautifulSoup4のメソッドfind()とfind_all()について、ちゃんとごまかさずに理解しておかないと後々困りそうな気がした。せっかくなので、ドキュメントの該当部分をちょっと自力で訳してみて知識を定着させようと思う（以下訳文）。ツリーの検索 Beautifu…

2017-04-25

日本語を含むURLでつまづく

beautifulsoup programming python scraping

本の中で、課題としてWikipedia（英語版）を使ったものが出てきたので、日本版Wikipediaに置き換えてやってみようと思ったところ、URLに日本語が含まれているせいでUnicodeエンコードエラーが起きた。ググったところ、先人の知恵があったので試してみたが、…

2017-04-21

cssのclassを手がかりに要素を取得する

programming python scraping

スクレイピングで要素を取得する際に、cssのclassが有効活用できる。たとえば、このブログ（現状ではWordPressのTwenty Fifteenテーマをそのまま使っている）の記事タイトルだけを抜き出したい場合には、 <h2 class="entry-title"> <a h…

2017-04-21

例外に備えさせていただく

exception note programming python scraping

本の中で、スクレイピング対象のデータフォーマットがひどかったりしてスクレイパーがエラーを起こして止まったときなどに、 Webサイトを作った開発者の名前を（それからおかしなフォーマットも）呪いたくもなるでしょうが、本当に腹が立つのは、そもそもそ…

2017-04-18

BeautifulSoupをインストールする

beautifulsoup install programming python scraping

Macの場合、 $sudo easy_install pip でPythonパッケージマネージャーpipをインストールした後 $pip install beautifulsoup4 でBeautifulSoupをインストールする。らしいのだが、自分の環境には既にAnacondaが入っていたので、 Requirement already satisfie…