TECH I.S.

R データセット


データセット

データセットはデータの集まりであり、多くの場合テーブルで表されます。

Rには、"mtcars"(Motor Trend Car Road Tests)と呼ばれる一般的な組み込みデータセットがあります。これは、1974年のMotor Trend US Magazineから取得したものです。

以下の例 (および次の章) では、統計目的でmtcarsデータセットを使用します。

# Print the mtcars data set mtcars

結果:

mpg cyl disp hp drat wt qsec vs am ギア キャブ
マツダ RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4
マツダ RX4 ワグ 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4
ダットサン 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 ドライブ 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1
ホーネット スポーツアバウト 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2
ヴァリアント 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1
ダスター 360 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4
メルク 240D 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2
メルク 230 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2
メルク 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4
メルク 280C 17.8 6 167.6 123 3.92 3.440 18.90 1 0 4 4
メルク 450SE 16.4 8 275.8 180 3.07 4.070 17.40 0 0 3 3
メルク 450SL 17.3 8 275.8 180 3.07 3.730 17.60 0 0 3 3
メルク 450SLC 15.2 8 275.8 180 3.07 3.780 18.00 0 0 3 3
キャデラック フリートウッド 10.4 8 472.0 205 2.93 5.250 17.98 0 0 3 4
リンカーン コンチネンタル 10.4 8 460.0 215 3.00 5.424 17.82 0 0 3 4
クライスラー インペリアル 14.7 8 440.0 230 3.23 5.345 17.42 0 0 3 4
フィアット 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1
ホンダ シビック 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2
トヨタ カローラ 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1
トヨタ コロナ 21.5 4 120.1 97 3.70 2.465 20.01 1 0 3 1
ダッジ チャレンジャー 15.5 8 318.0 150 2.76 3.520 16.87 0 0 3 2
AMC ジャベリン 15.2 8 304.0 150 3.15 3.435 17.30 0 0 3 2
カマロ Z28 13.3 8 350.0 245 3.73 3.840 15.41 0 0 3 4
ポンティアック ファイヤーバード 19.2 8 400.0 175 3.08 3.845 17.05 0 0 3 2
フィアット X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1
ポルシェ 914-2 26.0 4 120.3 91 4.43 2.140 16.70 0 1 5 2
ロータス ヨーロッパ 30.4 4 95.1 113 3.77 1.513 16.90 1 1 5 2
フォード パンテラ L 15.8 8 351.0 264 4.22 3.170 14.50 0 1 5 4
フェラーリ ディーノ 19.7 6 145.0 175 3.62 2.770 15.50 0 1 5 6
マセラティ ボラ 15.0 8 301.0 335 3.54 3.570 14.60 0 1 5 8
ボルボ 142E 21.4 4 121.0 109 4.11 2.780 18.60 1 1 4 2

自分で試してみる(開発準備中)»


データセットに関する情報

疑問符 (?)を使用すると、mtcarsデータセットに関する情報を取得できます。:

# Use the question mark to get information about the data set ?mtcars

結果:

mtcars {データセット}Rドキュメンテーション


モーター トレンド車のロード テスト

説明

データは1974年から抽出されたものです。*モータートレンド*米国の雑誌で、32台の自動車(1973-74モデル)の燃費と自動車の設計と性能の10の側面を掲載しています。

使用法

mtcars

フォーマット

11個の(数値)変数に対する32個の観測値を含むデータフレーム。

[, 1]mpgマイル/(米国)ガロン [, 2]cyl気筒数 [, 3]disp変位(cu.in.) [, 4]hp総馬力 [, 5]dratリアアクスルレシオ [, 6]wt重量(1000ポンド) [, 7]qsec1/4マイルタイム [, 8]vsEngine (0 = V-shaped, 1 = straight) [, 9]amTransmission (0 = automatic, 1 = manual) [, 10]gear前進ギア数 [, 11]carbキャブレターの数


ノート

Henderson と Velleman (1981) は、表1の脚注で次のようにコメントしています。「Hocking [原文転写者] によるマツダのロータリー エンジンを直列6気筒エンジン、ポルシェの水平対向エンジンをV型エンジンとしてコーディングしたことは重要ではありません。 ディーゼルのメルセデス240Dも含めて、以前の分析と直接比較できるように残しました。」

ソース

HendersonとVelleman(1981)、対話型の多重回帰モデルの構築。バイオメトリクス37、391-411。

require(graphics)
pairs(mtcars、main = "mtcars data"、gap = 1/4)
coplot(mpg ~ disp | as.factor(cyl), data= mtcars,
panel = panel.smooth、row = 1)
## 例えば、summary()や二変量プロットなどです。
mtcars2 <- within(mtcars, {
vs <- factor(vs, labels = c("V", "S"))
am <- factor(am, labels = c("automatic", "manual"))
cyl <- ordered(cyl)
gear <- orderd(gear)
carb <- orderd(carb)
}))
summary(mtcars2)

自分で試してみる(開発準備中)»


情報を入手する

データセットの次元を見つけるにはdim()関数を使用し、変数の名前を表示するにはnames()関数を使用します。

Data_Cars <- mtcars # create a variable of the mtcars data set for better organization # Use dim() to find the dimension of the data set dim(Data_Cars) # Use names() to find the names of the variables from the data set names(Data_Cars)

結果:

[1] 32 11
[1] "mpg" "cyl" "disp" "hp" "drat" "wt" "qsec" "vs" "am" "gear"
[11]"carb"

自分で試してみる (開発準備中)»

rownames()関数を使用して、最初の列の各行の名前(各車の名前)を取得します。

Data_Cars <- mtcars rownames(Data_Cars)

結果:

[1]「マツダ RX4」「マツダ RX4 ワグ」「ダットサン 710」
[4] 「ホーネット 4 ドライブ」「ホーネット スポーツアバウト」「ヴァリアント」
[7]「ダスター360」「メルク240D」「メルク230」
[10] 「メルク 280」「メルク 280C」「メルク 450SE」
[13] 「メルク 450SL」「メルク 450SLC」「キャデラック フリートウッド」
【16】「リンカーン・コンチネンタル」「クライスラー・インペリアル」「フィアット128」
[19] 「ホンダ シビック」「トヨタ カローラ」「トヨタ コロナ」
[22] 「ダッジ チャレンジャー」「AMC ジャベリン」「カマロ Z28」
[25] 「ポンティアック ファイヤーバード」「フィアット X1-9」「ポルシェ 914-2」
[28] 「ロータス ヨーロッパ」「フォード パンテラ L」「フェラーリ ディーノ」
【31】「マセラティ ボラ」「ボルボ142E」

自分で試してみる(開発準備中)»

上記の例から、データセットが32個の観測値 マツダ RX4、マツダ RX4 Wag、ダットサン 710など) と11個の変数 (mpg、cyl、dispなど)がある事がわかりました。

変数は、測定またはカウントできるものとして定義されます。

以下は、mtcarsデータセットの変数の簡単な説明です。

変数名

説明

mpg マイル/(US) ガロン
cyl 気筒数
disp 変位
hp 総馬力
drat リアアクスルレシオ
wt 重量 (1000ポンド)
qsec 1/4マイルタイム
vs エンジン(0=V型、1=ストレート)
am トランスミッション(0=automatic、1=manual)
gear 前進ギア数
carb キャブレターの数

変数値の出力

変数に属するすべての値を出力する場合は、次を使用してデータ フレームにアクセスします。$記号、および変数の名前(たとえば、cyl(シリンダー)):

Data_Cars <- mtcars Data_Cars$cyl

結果:

[1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4 8 8 8 8 4 4 4 8 6 8 4

自分で試してみる(開発準備中)»


変数値の並べ替え

値を並べ替えるには、sort()関数:

Data_Cars <- mtcars sort(Data_Cars$cyl)

結果:

[1] 4 4 4 4 4 4 4 4 4 4 4 6 6 6 6 6 6 6 8 8 8 8 8 8 8 8 8 8 8 8 8

自分で試してみる(開発準備中)»

上記の例から、ほとんどの車には4気筒と8気筒があることがわかります。


データの分析

データセットに関する情報が得られたので、いくつかの統計数値を使用して分析を開始できます。

たとえば、summary()データの統計的要約を取得する関数:

Data_Cars <- mtcars summary(Data_Cars)

自分で試してみる(開発準備中)»

出力された数値がわからなくても心配はいりません。あなたはすぐにそれらをマスターします。

summary()関数は、変数ごとに6つの統計値を返します。
  • 第1分位数 (パーセンタイル)
  • 中央値
  • 平均
  • 第3分位数 (パーセンタイル)
  • マックス

次の章では、他の統計数値とともに、それらすべてをカバーします。



プログラミング学習を加速させる

プログラミングをプロの講師に教えてもらいませんか。

テックアイエスのプログラミングスクールは初心者も大歓迎です。年齢制限もありません。転職・副業に強く、挫折させない手厚いサポートで稼ぐ力を身につけましょう!

スクールの詳細