重回帰分析 予測

下は、サイト分析のページで紹介している Webサイト分析例(pdfファイル)からの1ページです。
画像をクリックすると大きくなります。
清涼飲料水の売上げ本数を、単価、天気、曜日の3つを使って計算式を作り予測しています。 計算式で予測した値(理論値)は、予測本数になります。
右上の表は、実際の売上げ本数(観測値)と予測値をプロットしたものです。計算式が100%の予測を していればグラフはピッタリ重なります。この計算式は、87%程度の信頼度なので多少のズレが生じています。
重回帰式は次のようなフォーマットになっています。
被説明変数 = 定数(切片) + 説明変数1*寄与率(係数) + 説明変数2*寄与率(係数) + … + 説明変数n*寄与率(係数)
ここでは、売上げ本数が予測したい数字なので、これが被説明変数になります。
売上げ本数を導きだす為の変数が単価と天気と曜日で、これが説明変数になります。
重回帰分析では、式そのもの当てはまり(信頼度)が最も重要になりますが、 そのほかに寄与率も大変重要になります。
この寄与率は、被説明変数に対する影響の大きさを示すものです。
Webのレスポンスタイムなどは、操作している端末の能力、プロバイダまでのネットワーク、 クラスタリング効率、Webサーバ、トランザクション数、データベースなど多くの要素に影響されます。
仮にこれらで重回帰分析を行うと、寄与率の大きい要素ほどレスポンスタイムに影響を与えている (バラツキにつながる)事になります。
寄与率を見て、重点的に監視、改善を行うなどの行動につなげる事が出来るのです。
実生活ではこちらの寄与率の方も、かなり役に立つと思います。

重回帰分析 Excelによる実践

重回帰分析を真正面から取り組むと、ステップワイズ、多重共線性、ダービンワトソンなど、 統計に関わっていない人には聞いた事もないようなハードルがあるのですが、 ここでは説明を飛ばして実際の操作をご紹介します。
何故、その分析が正しいのかを客観的に証明する場合には、これらの理解が必要になります。 科学的でなくても分析当事者などの限られた範囲で経験的な統計としてご使用できるよう 最低限の注意事項を代わりに記載します。

質的変数の取り扱い ダミー変換 数量化一類

天気や曜日などは、数値ではなく質的なものです。仮に数字化されていても数値自体に意味のないコードです。
このようなタイプの変数を分析する場合、ダミー変換する方法が一般的です。 質的変数でグループ分けを行って別々に分析する方法もあります。
ダミー変換は質的変数を0と1で表す手法で、数量化一類同じものです。
天気を説明変数とする場合、左表のようにしてはダメで、右表のようにコードの数だけ変数を用意します。
天気変数名/コード
晴れtenki=0
曇りtenki=1
tenki=2
 
天気変数名/コード 変数名/コード 変数名/コード
晴れtenki0=1tenki1=0tenki2=0
曇りtenki0=0tenki1=1tenki2=0
tenki0=0tenki1=0tenki2=1

曜日の場合は7つの変数を用意して、どれか一つが「1」で他を全て「0」として表現します。

分析時の注意事項

ダミー変換した変数を分析に使う場合、変数のセットから任意のひとつを除きます。 天気であれば、晴れ、曇り、雨の3つがありますが、どれでもいいので一つを除いて2つだけを分析に掛けます。 曜日も場合も同じように、任意の一つを除き6つだけを分析に使用します。
今回の操作紹介では、雨と日曜日を除いて分析しています。 今回の操作では触れていませんが、説明変数を選ぶ場合 相関関係の高い変数を選んではいけません。
ダミー変数の場合もそうですが、 例えば説明変数に性別を加える場合、男と女の2つは、片方が決まれば、もう片方も自然に決まります。 何かの量と重さなども同じように片方が決まれば片方がきまる関係にあります。 このような場合は、2つのうちどちらか一方だけを選んで下さい。
相関関係の高い変数を選ばないという原則を守れば、最低限の重回帰分析は出来ます。
あとは分析精度を向上させる為の努力になります。

Excel操作

重回帰分析操作紹介用Excelファイル(zip形式)download

「ツール」から「分析」「回帰分析」を選びます。「分析」が出てこない場合は、 t検定の回を参考にしてみて下さい。
操作紹介用のExcelシートには、ダミー変数を削除していない「元データ」シートと「分析用」シートがありますので、 分析用シート使って下さい。
入力Y範囲(Y)欄には本数の列を、入力X範囲(X)欄には単価から土曜日までの欄を指定して、 「ラベル」にチェックを入れて下さい。あとはOKボタンをクリックして操作終了です。
下のような結果を得られたでしょうか。この表は小数点3桁までの表示にしています。
「重決定R2」は回帰式の当てはまりのよさを表しています。
回帰式は、係数のとこを見て下さい。売上げ本数 = 1,852.639+単価*(-5.827) +晴れ*(56.296)+曇り*(66.678)+雨*(0)+日*(0)+月*(49.088)+火*(41.447)+水*(30.860)+木*(49.848)+ 金*(33.629)+土*(48.670) になります。
回帰分析をする時に「残差」にチェックを入れて行うと、この計算式で算出した予測値と、 実際の値から予測値を引いた値、残差を表示します。この残差が小さいほど式の精度が高く、 重決定R2の値も大きくなります。
残差の±を打ち消すために、あてはまりの良さを計算する時に残差を二乗しています。
二乗したままの値が「重決定R2」で平方根で戻した値が「重相関R」と考えて下さい。
「補正R2」は説明変数の数を考慮しています。説明変数の数が多いほど精度が高めになる傾向があるためです。
p値は、説明変数の適度を表しています。この値が大きいものは説明変数として不適当になります。
不適当な説明変数は削除して、再分析するようにして下さい。
ここでは、ダミー変数を使っていますので、一つ一つではなく、セットで見て下さい。
変数の影響度はレンジ(最大値と最小値の差)を見ます。 どちらも最小は0になりますので、最大値が影響度に相当します。

メインメニュー