全3回に渡ってPythonを使った業務効率化の方法をご紹介する連載第2回。伊沢剛著『超速Python仕事術大全』 より、自動でWeb ページから情報を抜き出してExcel に書き出すプログラムを紹介します。

前回:Pythonで不統一なExcelファイル繋ぐワザの神髄(1月18日配信)

Webページから自動で情報を抜き出す

集めたい情報がいくつかある場合、Webブラウザから該当するWebページを検索し、Webページが開いたらそこから欲しい情報を探してコピーし別の資料にペーストして・・・を繰り返すのは面倒です。そんな時Pythonを使えば、ExcelファイルにURLをまとめておくだけで、以下のように抜き出したい項目を一気に収集できます。

例えば、複数の書籍の「タイトル」「著者」「価格」「ページ数」の情報を集めたいとします。

①まずは以下のように、「書籍リスト.xlsx」というExcelファイルを用意します。

Excelファイルの内容は、1行目がヘッダ行で「URL」「タイトル」「著者」「価格」「ページ数」をA列から順に記入しておきます。A列の2行目以降には収集したいWeb ページのURL を記入します。

②その後、Pythonプログラムを実行します。

③プログラム実行して再び「書籍リスト.xlsx」を開いてみると、必要なデータが入力されています。

ただし、プログラム実行中に「書籍リスト.xlsx」を開いているとエラーになるので注意が必要です。

このようにWebからデータを自動的に収集することをスクレイピングといいます。