スポンサーリンク
スポンサーリンク

GLMM(一般化線形混合モデル)の解説

統計学 統計学

GLMM(一般線形混合モデル)についての解説をします。あまり聞かない単語ではありますが、ベイズモデルを使わない人にとっては有用かもしれません。ベイズモデルでいう所の隠れ変数を導入した回帰モデルの事をGLMM(一般線形混合モデル)と呼びます。

参考文献が一応あります。1

Bitly
Bitly
スポンサーリンク

GLMMとは

GLMMについての説明をします。一言で言うと、GLMMは隠れ変数を用いたGLMです。GLMの説明から始めます。

GLMとは

GLMとは、線形回帰\(y=ax\)をやめて、yが確率分布に従うとしたモデルです。2
つまり、特徴量Xから確率変数\(q(w\cdot x ) \)3を作り、\( y \sim p(q|w,x ) \)というモデルを考えます。その後、\(w \)を最尤推定で求め、\( y \)が従う確率分布を決定する事で予測を行います。
利点としては、線形回帰を考えると、yは連続的な値を取りますが、例えばベルヌーイ分布に従うとすることで、離散的な値を取るようにすることが出来ます。
2値分類のモデルでよく使われるモデルは以下のようなものです。
$$\begin{eqnarray}
y &\sim & { \rm Bern } (q(w) ) \\
q(w) &=& \frac{1}{1 + \exp(-w \cdot x ) }
\end{eqnarray}$$
これは、ロジスティック回帰と呼ばれるモデルです。

GLMM

GLMを実務に使う事を考えましょう。自分が良く関わる分野のデータを貰い、何か値を予測してくれと頼まれたと仮定します。
データを眺めてみると、重要と思われる特徴量が抜けている事に気付いてしまいました。データを取り直す事は出来ないので、何か工夫をする必要があります。
そこで、GLMと同じ条件の下で、必要な特徴量\(\gamma \)を、隠れ変数という形でモデルに組み込むことを考えます。4
$$\begin{eqnarray}
y_i \sim p(y_i |w\cdot x_i ,\gamma _i ,) \\
\gamma _i \sim p(\gamma _i | s )
\end{eqnarray}$$
基本的に回帰分析なので、パラメーター\( \gamma \)がデータ毎に決まってしまうと別のデータの予測に使う事が出来ません。こういう時は、パラメーター\(\gamma \)は積分で消してしまうようです。つまり、尤度を考える時は、以下の量を考えます。
$$\begin{eqnarray}
L_i = \int p(y_i |w,\gamma _i ,x_i ) p(\gamma _i |s) d\gamma _i
\end{eqnarray}$$
この尤度を使い、最尤法からパラメーター\(s , w \)を求めるのが、GLMMです。手順を以下に示します。

  1. \( y \)が従う確率分布\( p(y) = \prod p(y_i ) \) を仮定する。
  2. 隠れ変数が従う確率分布\( p( \gamma ) = \prod p( \gamma _i ) \)を仮定する
  3. \( \gamma \)を積分消去した尤度を\( L= \prod L_i \)を計算し、最尤法でパラメーターを決定する

pythonではGLMMのライブラリが見つからないので、手計算出来そうな例が見つかったら計算を試してみる記事を書きます。5

まとめ

  • GLMの解説をした
  • GLMMの解説をした

  1. 緑本の方はお勧めできないですが。
  2. 指数型分布族の言葉を使えばスマートですが、指数型分布族について解説記事を書いてないので、ふわっとした説明にとどめます。
  3. \( \cdot \)は内積の意味で、ここにxについての線形性があります。
  4. \(\gamma \)は、xの一部と思いたいので、基本的にxと\( \gamma \)の独立性は仮定しません。
  5. わざわざGLMMを使うメリットがあるのか謎ですが。
タイトルとURLをコピーしました