【Python】文字情報のビジュアライゼーション

コラム

COLUMN

データビジュアライゼーション

【Python】文字情報のビジュアライゼーション

HTML/CSS 基礎

ワードクラウドとは

ワードクラウドとは「単語の集合」という意味で、1つの画像の中に単語が集められたもので、文章の可視化に用いられるビジュアライゼーションです。

ワードクラウドを描画すると、どのような単語が文章中に多く含まれるのかがわかりやすく表現でき、文章の概観を把握する事ができます。

pythonでwordcloud

pythonでワードクラウドを描画するには、wordcloudライブラリを使用します。

word cloudはスペースで区切られた文字列をそれぞれ単語として認識します。

英語の文章は単語の間がスペースで区切られるため、英語で書かれた文章からは簡単にワードクラウドを描画することができます。

①ライブラリのインポート

ワードクラウドを描画するのに必要な「word cloud」ライブラリをインポートします。

②テキストの用意

ワードクラウドにしたい文章を変数で用意します、今回は英語の「python」のWikipediaを利用します 。

③ワードクラウドの生成と表示

ワードクラウドの設定をwordcloud.Wordcloudクラスを用いて行います、今回は引数で縦幅、横幅、背景色を指定しています。

ワードクラウドの描画はgenerate関数を用いて行います、引数としてワードクラウドを描画したい文章を指定します

以下のような出力が出てきます。

文字の大きさは単語の頻出度合いによって変化しています。

データクラウドの生成

最後に

英語のワードクラウドの生成は簡単に行うことができます、日本語の文章は特別な前処理が必要になりますが、別の記事で方法を紹介します。

本日無料のプログラミング体験 or相談会の実施が可能です。(60分程度)

女性