pythonからRのデータセットを使う

統計学 Python R

統計の勉強をすると、色々なデータを使いたくなります。オープンデータとGoogle に打ち込むと、機械学習に使う画像、音声、言語データは沢山出て来ます。
しかし、統計で最初に使いたいのはエクセルにまとまっているようなテーブルデータです。そんな時、Rに収納されているデータが大変役に立ちます。
今のご時世、機械学習や統計を勉強する時に、Rをはじめに触る人よりpythonから触る人の方が多いと思うので、Rのデータセットをpythonから呼び出す方法を書いておきます。

Rのデータセットにどんなものがあるかは、以下のサイトが参考になります。

PyDataset をインストールする

Rのデータセットをpythonで使う方法の一つに、PyDataset というライブラリを使う方法があります。pip install 出来ます。

PyDataset を使う

使い方は簡単で、使いたいRのデータセットを調べてdata(“使いたいデータセット”)と打ち込むだけです。そうすると、pandas のデータフレームとしてデータが取得できます。

データの説明文が読みたい時は、data(“使いたいデータセット”, show_doc=True)とします。1

data()で、使用できるデータセットの一覧を取得できます。

データセット一覧
使用できるデータセット一覧

大量にあり、説明も簡素なので、検討をつけてからデータセットを直接呼び出した方が良いでしょう。

いかがでしたか?

Rのデータセットは大量にあり、かつ統計処理の練習に向いたものが多くて便利なので紹介しました。

  1. show_doc=True とした時は、データフレームが取得されません。
タイトルとURLをコピーしました