【データ収集】Pythonを活用したサイトからのデータ収集方法
記事の監修者
今回は、データの収集方法についての一例をご紹介します。
今回取得するデータは東京電力のHP上にcsv形式で置かれているデータをpythonを使い取得するという方法になります。
ネット上のCSVデータをPythonで取得する方法
pythonによるデータ収集の方法は様々な方法がありますので、様々な取得方法を一つづつ身に着けていきましょう!
さて、それでは早速今回取得するデータ元ですが東京電力のこちらのサイトから取得します。
上記サイトをご覧いただくと分かりますが、電力データがcsv形式で格納されているのが分かるかと思います。
pythonではcsvファイルをローカル上で読み込むことが可能ですが、インターネット上に存在しているcsv形式のファイルも読み込むことが可能です。
それではコードを作成し、電力のデータを取得していきましょう。
上記コードのskiprows=1で記載されているURL上の余分なデータの取得をスキップするという処理を入れています。
今回ご紹介した例は、あくまでも一例ですのでご自身の用途により取得の方法は変えていくようにしましょう!
さてdfに格納されてたデータを見てみますと、時系列でデータの消費量(実績(万kw))が出力されたかと思います。
こちらは時系列の電力消費量なので、電力を予測するモデルなどを作成しても面白いかもしれません。
こちらのデータはURLに指定がある通り2017年度のみのデータとなっています。
for文を活用して以前のデータも取得する
もちろん2017年度以降を取得する際に、上記コードを繰り返し書きマージしてあげることで2017年以降も取得できます。
しかしこういった処理は取得する情報量が多くなればなるほど大変になりますので、for文で処理するほうが効率的です。
for文を使ったループ処理で取得すると上記のような処理になります。
データを見てみますと2019年までデータが格納されているのが分かるかと思います。
必要に応じてインデックスのリセットを設定
データをみるとインデクッスが2017年度単体で取得した際と変わっていません。
本来であれば3年分なので、もう少し大きな数字になるのが想像できると思います。
この理由としてはconcatで結合された際に、インデックスはリセットされずにそのままつなげられてしまいます。
ですので、concatを使いデータを結合した際には以下のようにインデックスのリセットを必ず行いましょう。
resetを使いインデックスを見てみますと↓のようにインデックス番号が正常に出力されます。
これで3年間分の電力消費量を取得することができました。
今回紹介した取得方法は1例です。
このようにネット上のデータを取得する方法は多様に存在しますので、積極的に見つけると楽しいですよ。
全国どこにいても学べる!超優良のプログラミングスクールまとめました【国内完全網羅】現役エンジニアが厳選したおすすめのプログラミングスクール
自分の住んでるエリアでプログラミングスクールを探したい⭐️
エリア別で、おすすめのプログラミングスクールをまとめました。
ぜひ参考にしてみてくださいね。
北海道 / 東北
関東
群馬 / 栃木 / 埼玉 / 茨城 / 東京 / 千葉 / 神奈川
中部
福井 / 石川 / 岐阜 / 愛知 / 富山 / 長野 / 山梨 / 静岡 / 新潟
近畿
兵庫 / 京都 / 大阪 / 滋賀 / 奈良 / 三重 / 和歌山