SHINJI-BLOG

京大院卒サラリーマンの思考履歴(仕事術・資格勉強などの自己啓発,理系就活,修士研究,株式投資など)

統計ソフトRとは?~単回帰分析偏~

 

本記事の内容

  • 統計ソフトRについて

  • Rを用いた単回帰分析の実例

 

 

統計ソフトRとは?

 

統計ソフトRは、無料で利用可能な統計分析ツールです。

利用目的に合わせてパッケージをインストールすることで

機能を拡張することができます。

 

近年では、Pythonを用いたデータ分析も流行ってきてはいますが、

その中でRを使用するメリットとしては、

 

  • Rが統計解析に特化しており一般的な分析方法であればパッケージをインストールするだけで容易に分析が行えること
  • 参考書が充実していることやネット上でもコマンド操作などに関する情報が多く存在していること

 

などがあるかなと思います。

 

また、統計分析自体はExcelの分析ツールでも可能ですが、

一般的に利用できる分析の種類はそこまで多くはないため、

研究等でまずは簡単な分析から始めて徐々に高度な分析にも取り組んでいきたいという方には今回紹介しているRがとてもおすすめと言えます!

 

 

単回帰分析の実例

 

単回帰分析とは、2種類のデータに対して用いられる分析手法です。

二つのデータのうち、片方のデータを目的変数Y、もう一方を説明変数Xとして設定した上で、以下のような単回帰式(単回帰モデル)を推定します。

 

              Y=β01X

 

ここに、β0およびβ1は未知パラメーターであり、これらを分析によって推定します。

 

今回は、「私の1日の歩数」と「平均気温」の7日間のデータを対象に分析を行いたいと思います。実際に使用するテキストデータは次のようになっています。

ここでは、

nstep→1日の歩数

temperature→平均気温

としています。

 

f:id:shinji_1937:20200310194316p:plain

 

以上のデータに対して、今回は以下のように目的変数と説明変数を設定して分析を行いたいと思います。

 

目的変数Y:1日の歩数

説明変数X:平均気温(℃)

 

では、実際の統計ソフトRを用いた単回帰分析の実施の流れについて以下で説明します。

 

①統計ソフトRのインストールと起動

まず、統計ソフトRをインストールし、起動します。

起動すると、

以下のような画面が表示されると思います。

 

f:id:shinji_1937:20200310194318p:plain

ディレクトリの変更

上で示したテキストデータをRに読み込ませるために、

テキストデータが保存されているフォルダの場所を指定する必要があります。

指定するために、以下のように、

 

メニューバーの「ファイル」を選択 → ディレクトリの変更を選択

f:id:shinji_1937:20200310194322p:plain

 

指定したいフォルダの選択

f:id:shinji_1937:20200411005540p:plain



という流れで操作します。

 

ここで、ちゃんと適切にディレクトリが変更されているか確認するために、

「getwd()」というコマンドを打ち込んでEnterキーを押してください。

f:id:shinji_1937:20200310200850j:plain

正しくディレクトリを変更できていることが確認できます。

 

③テキストデータの読み込み

今回は、dataというファイルにデータを読み込ませたいと思います。

以下のように、「data <- read.table("テキストデータ名", header=T)」というふうにコマンド打ち込みます。これにより、dataというファイルに分析に使用するテキストデータが読み込まれました。また、「head(data)」とコマンドを与えることで、データの中身を確認することができます。

 

f:id:shinji_1937:20200310201132j:plain

 

④単回帰分析の実行

今回は、単回帰分析の結果を「model」に格納したいと思います。

単回帰分析を実施するためのコマンドは「lm(Y~X, data=使用データのファイル名)」となっています。

さらに、分析結果をみるために「summary(分析結果が格納されているファイル名)」というコマンドを与える必要があります。

したがって、実際に分析を実施すると以下のようになります。

 

f:id:shinji_1937:20200310194312p:plain

結果の見方としては、

「Estimate Std.」が分析により推定されたパラメータとなっています。

したがって、今回は、

β0:1842.91

β1:611.96

と推定されたことになり、単回帰式は、

 

Y=1842.91+611.96X

 

のような結果となりました。

 

また、「Multiple R-squared」は0~1の値をとる決定係数であり、

これが1に近いほど推定されたモデルの適合度が高いということを意味しています。

今回は、0.94となっていることから、かなり適合度が高くなっていることが分かります。

加えて、「Pr(>|t|)」は一般的にp値と呼ばれるもので、

これが、ある有意水準αよりも小さければ、仮説検定により、

有意水準αで目的変数が説明変数に影響を及ぼしていると言える」というふうになります。

したがって、この結果に基づくと、「平均気温」は「1日の歩数」にほぼ確実に影響を及ぼしていると判断できそうです。

 

皆さんも身近なデータを用いて、単回帰分析をやってみると面白い結果が得られるかもしれませんよ!(笑)

 

今後、他の分析手法についても記事を書いていきたいと思います!

 

ではでは(*^^*)