理論的な話は置いておいて、どんな事が出来るのかを淡々と綴っていくシリーズです。
回帰分析の理論的な話については、記事がいくつかあります。
回帰分析とは
連続的な量y と、それと関係がありそうな量\(x_1 , \cdots , x_m \)1 があるとき、回帰分析が使われます。
回帰分析では、ある行列\(A \)を使って、
\begin{eqnarray}
y=Ax
\end{eqnarray}
という関係があると仮定し、データが沢山あるという仮定と、数学の力で良い感じのAを求めます。2
回帰分析の精度指標
回帰分析の精度の指標として、\(R^2 \)誤差というものが良く使われます。この誤差は、1が最大値です。3
回帰分析自体で何かが分かる事は少ないですが、機械学習モデルを評価する為の指標として回帰分析を行う事が多いです。勿論、特徴量を上手く作れば、回帰分析で十分な精度が出る事もあります。
\(R^2 \)誤差が0.6以上あれば、別の手法で何とかなるかもしれないというイメージがあります。
回帰分析の注意点
回帰分析は、\(y, x\)の平均を\( \bar{y} , \bar{x} \)、良い感じに求めた行列を\(A \)とするとき、
\begin{eqnarray}
\bar{y} = A\bar{x}
\end{eqnarray}
という性質があります。つまり、回帰分析で作られた直線や平面は、データの平均値を通るようになります。
平均値というのは、データの最大値と最小値付近の塊に大きな影響を受ける量です。その為、変なデータがあると、一気に悪い結果が出たりします。
仮に、そのようなデータが無くても、直線や平面において、通る点が一つ決まっているというのは大きな縛りです。何が言いたいかというと、只の回帰分析には大きな期待をするのはやめようという事です。