R データセット
データセット
データセットはデータの集まりであり、多くの場合テーブルで表されます。
Rには、"mtcars"(Motor Trend Car Road Tests)と呼ばれる一般的な組み込みデータセットがあります。これは、1974年のMotor Trend US Magazineから取得したものです。
以下の例 (および次の章) では、統計目的でmtcars
データセットを使用します。
例
結果:
mpg cyl disp hp drat wt qsec vs am ギア キャブ
マツダ RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4
マツダ RX4 ワグ 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4
ダットサン 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 ドライブ 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1
ホーネット スポーツアバウト 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2
ヴァリアント 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1
ダスター 360 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4
メルク 240D 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2
メルク 230 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2
メルク 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4
メルク 280C 17.8 6 167.6 123 3.92 3.440 18.90 1 0 4 4
メルク 450SE 16.4 8 275.8 180 3.07 4.070 17.40 0 0 3 3
メルク 450SL 17.3 8 275.8 180 3.07 3.730 17.60 0 0 3 3
メルク 450SLC 15.2 8 275.8 180 3.07 3.780 18.00 0 0 3 3
キャデラック フリートウッド 10.4 8 472.0 205 2.93 5.250 17.98 0 0 3 4
リンカーン コンチネンタル 10.4 8 460.0 215 3.00 5.424 17.82 0 0 3 4
クライスラー インペリアル 14.7 8 440.0 230 3.23 5.345 17.42 0 0 3 4
フィアット 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1
ホンダ シビック 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2
トヨタ カローラ 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1
トヨタ コロナ 21.5 4 120.1 97 3.70 2.465 20.01 1 0 3 1
ダッジ チャレンジャー 15.5 8 318.0 150 2.76 3.520 16.87 0 0 3 2
AMC ジャベリン 15.2 8 304.0 150 3.15 3.435 17.30 0 0 3 2
カマロ Z28 13.3 8 350.0 245 3.73 3.840 15.41 0 0 3 4
ポンティアック ファイヤーバード 19.2 8 400.0 175 3.08 3.845 17.05 0 0 3 2
フィアット X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1
ポルシェ 914-2 26.0 4 120.3 91 4.43 2.140 16.70 0 1 5 2
ロータス ヨーロッパ 30.4 4 95.1 113 3.77 1.513 16.90 1 1 5 2
フォード パンテラ L 15.8 8 351.0 264 4.22 3.170 14.50 0 1 5 4
フェラーリ ディーノ 19.7 6 145.0 175 3.62 2.770 15.50 0 1 5 6
マセラティ ボラ 15.0 8 301.0 335 3.54 3.570 14.60 0 1 5 8
ボルボ 142E 21.4 4 121.0 109 4.11 2.780 18.60 1 1 4 2
データセットに関する情報
疑問符 (?
)を使用すると、mtcars
データセットに関する情報を取得できます。:
例
結果:
モーター トレンド車のロード テスト
説明
データは1974年から抽出されたものです。*モータートレンド*米国の雑誌で、32台の自動車(1973-74モデル)の燃費と自動車の設計と性能の10の側面を掲載しています。
使用法
mtcars
フォーマット
11個の(数値)変数に対する32個の観測値を含むデータフレーム。
ノート
Henderson と Velleman (1981) は、表1の脚注で次のようにコメントしています。「Hocking [原文転写者] によるマツダのロータリー エンジンを直列6気筒エンジン、ポルシェの水平対向エンジンをV型エンジンとしてコーディングしたことは重要ではありません。 ディーゼルのメルセデス240Dも含めて、以前の分析と直接比較できるように残しました。」
ソース
HendersonとVelleman(1981)、対話型の多重回帰モデルの構築。バイオメトリクス、37、391-411。
例
require(graphics)
pairs(mtcars、main = "mtcars data"、gap = 1/4)
coplot(mpg ~ disp | as.factor(cyl), data= mtcars,
panel = panel.smooth、row = 1)
## 例えば、summary()や二変量プロットなどです。
mtcars2 <- within(mtcars, {
vs <- factor(vs, labels = c("V", "S"))
am <- factor(am, labels = c("automatic", "manual"))
cyl <- ordered(cyl)
gear <- orderd(gear)
carb <- orderd(carb)
}))
summary(mtcars2)
情報を入手する
データセットの次元を見つけるにはdim()
関数を使用し、変数の名前を表示するにはnames()
関数を使用します。
例
結果:
[1] 32 11
[1] "mpg" "cyl" "disp" "hp" "drat" "wt" "qsec" "vs" "am" "gear"
[11]"carb"
rownames()
関数を使用して、最初の列の各行の名前(各車の名前)を取得します。
例
結果:
[1]「マツダ RX4」「マツダ RX4 ワグ」「ダットサン 710」
[4] 「ホーネット 4 ドライブ」「ホーネット スポーツアバウト」「ヴァリアント」
[7]「ダスター360」「メルク240D」「メルク230」
[10] 「メルク 280」「メルク 280C」「メルク 450SE」
[13] 「メルク 450SL」「メルク 450SLC」「キャデラック フリートウッド」
【16】「リンカーン・コンチネンタル」「クライスラー・インペリアル」「フィアット128」
[19] 「ホンダ シビック」「トヨタ カローラ」「トヨタ コロナ」
[22] 「ダッジ チャレンジャー」「AMC ジャベリン」「カマロ Z28」
[25] 「ポンティアック ファイヤーバード」「フィアット X1-9」「ポルシェ 914-2」
[28] 「ロータス ヨーロッパ」「フォード パンテラ L」「フェラーリ ディーノ」
【31】「マセラティ ボラ」「ボルボ142E」
上記の例から、データセットが32個の観測値 マツダ RX4、マツダ RX4 Wag、ダットサン 710など) と11個の変数 (mpg、cyl、dispなど)がある事がわかりました。
変数は、測定またはカウントできるものとして定義されます。
以下は、mtcarsデータセットの変数の簡単な説明です。
変数名 |
説明 |
---|---|
mpg | マイル/(US) ガロン |
cyl | 気筒数 |
disp | 変位 |
hp | 総馬力 |
drat | リアアクスルレシオ |
wt | 重量 (1000ポンド) |
qsec | 1/4マイルタイム |
vs | エンジン(0=V型、1=ストレート) |
am | トランスミッション(0=automatic、1=manual) |
gear | 前進ギア数 |
carb | キャブレターの数 |
変数値の出力
変数に属するすべての値を出力する場合は、次を使用してデータ フレームにアクセスします。$
記号、および変数の名前(たとえば、cyl
(シリンダー)):
例
結果:
[1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4 8 8 8 8 4 4 4 8 6 8 4
変数値の並べ替え
値を並べ替えるには、sort()
関数:
例
結果:
[1] 4 4 4 4 4 4 4 4 4 4 4 6 6 6 6 6 6 6 8 8 8 8 8 8 8 8 8 8 8 8 8
上記の例から、ほとんどの車には4気筒と8気筒があることがわかります。
データの分析
データセットに関する情報が得られたので、いくつかの統計数値を使用して分析を開始できます。
たとえば、summary()
データの統計的要約を取得する関数:
出力された数値がわからなくても心配はいりません。あなたはすぐにそれらをマスターします。
summary()
関数は、変数ごとに6つの統計値を返します。
- 分
- 第1分位数 (パーセンタイル)
- 中央値
- 平均
- 第3分位数 (パーセンタイル)
- マックス
次の章では、他の統計数値とともに、それらすべてをカバーします。
プログラミング学習を加速させる
プログラミングをプロの講師に教えてもらいませんか。