【データ分析】Rを用いた重回帰分析のやり方 ~重回帰モデルの構築~
どうも、Shinjiです!
今回はデータ分析手法として、
一般に広く利用されている重回帰分析のやり方について説明していきたいと思います。
この重回帰分析については、文理問わず、大学の研究などで必要としている方々も多いのではないでしょうか。本記事が、そのような方々の一助となれば幸いです。
本記事の構成は以下の通りです。
1.そもそも重回帰分析とは?
2.分析データセットの準備
3.重回帰分析の実行
今回の分析には”統計ソフトR”を用います。
統計ソフトRの詳細については、以下リンクの記事をご参照ください。
engineering-diary.hatenablog.com
1.そもそも重回帰分析とは?
重回帰分析とは、予測をしたい変数(=目的変数)に対して、影響を及ぼす要因(=説明変数)が二つ以上あると考えられる場合に、使用される分析手法です。
目的変数をY、N個の説明変数をそれぞれ、X1、X2、X3、…XNとして、以下のような重回帰式(重回帰モデル)を推定します。
Y=β0+β1X1+β2X2++β3X3+・・・+βNXN
ここに、β0およびβ1、β2、β3、…βNは未知パラメーターであり、これらを分析によって推定します。
2.分析データセットの準備
「各月の清涼飲料水の売上本数」、「各月の合計降水量」、「各月の日平均気温」のデータを対象に分析を行いたいと思います。
データの引用元
〇北見市HP
<https://www.city.kitami.lg.jp/common/docs/2017122500071/files/uriage.pdf>
〇気象庁 過去の気象データ検索
<https://www.data.jma.go.jp/obd/stats/etrn/index.php>
実際に使用するテキストデータは次のようになっています。
ここでは、
①month→月
②sumofrain→各月の合計降水量
③meantem→各月の日平均気温
④library1→図書館1における各月の清涼飲料水の売上本数
⑤library2→図書館2における各月の清涼飲料水の売上本数
としています。
これらのうち、今回は、②、③、⑤を使用して分析を行います。
変数設定は下記の通りです。
⑤図書館2における各月の清涼飲料水の売上本数 ⇒ 目的変数Y
②各月の合計降水量 ⇒ 説明変数X1
③各月の日平均気温 ⇒ 説明変数X2
3.重回帰分析の実行
では、実際の統計ソフトRを用いた重回帰分析の実施の流れについて以下で説明します。
①統計ソフトRの起動
まず、統計ソフトRを起動します。
②ディレクトリの変更
上で示したテキストデータをRに読み込ませるために、
テキストデータが保存されているフォルダの場所を指定する必要があります。
指定するために、以下のように、
メニューバーの「ファイル」を選択 → ディレクトリの変更を選択
指定したいフォルダの選択
という流れで操作します。
ここで、ちゃんと適切にディレクトリが変更されているか確認するために、
「getwd()」というコマンドを打ち込んでEnterキーを押してください。
正しくディレクトリを変更できていることが確認できます。
③テキストデータの読み込み
今回は、dataというファイルにデータを読み込ませたいと思います。
以下のように、「data <- read.table("テキストデータ名", header=T)」というふうにコマンド打ち込みます。これにより、dataというファイルに分析に使用するテキストデータが読み込まれました。また、「head(data)」とコマンドを与えることで、データの中身を確認することができます。
④重回帰分析の実行
今回は、重回帰分析の結果を「model」に格納したいと思います。
重回帰分析を実施するためのコマンドは「lm(Y~X1+X2+…+XN, data=使用データのファイル名)」となっています。
さらに、分析結果をみるために「summary(分析結果が格納されているファイル名)」というコマンドを与える必要があります。
したがって、実際に分析を実施すると以下のようになります。
結果の見方としては、
「Estimate Std.」が分析により推定されたパラメータとなっています。
したがって、今回は、
β0:539.9095
β1:1.5064
β2:-9.8899
と推定されたことになり、回帰式は、
Y=539.9095+1.5064X1-9.8899X2
のような結果となりました。
また、「Multiple R-squared」は0~1の値をとる決定係数であり、
これが1に近いほど推定されたモデルの適合度が高いということを意味しています。
今回は、0.73となっていることから、決して適合度は高くはないものの、
ある程度は適合していると言えそうです。
加えて、「Pr(>|t|)」は一般的にp値と呼ばれるもので、
これが、ある有意水準αよりも小さければ、仮説検定により、
「有意水準αで目的変数が説明変数に影響を及ぼしていると言える」というふうになります。
したがって、この結果に基づくと、
「各月の合計降水量」および「各月の日平均気温」は、
「図書館2における各月の清涼飲料水の売上本数」にほぼ確実に影響を及ぼしていると判断できそうです。
今回は、統計ソフトRを用いた重回帰分析のやり方について、取り上げました。
ここまで、ご覧いただきありがとうございます。
今後も、その他の分析手法について記事を書いていきたいと思います。
それでは(^^)/