統計学関連の記事です。
特徴量選択の話
機械学習において、特徴量エンジニアリングは、モデルを選ぶのと同じくらい重要な作業です。既にある特徴量の中から、いらないモノを捨てる手法を紹介します。主に、統計学の力を使う手法の紹介です。
[Excel][VBA]EMアルゴリズムと混合正規分布でデータを分類する1
データをクラスタリングする手法に、混合正規分布モデルがあります。それをVBAで実装する記事第一弾です。混合正規分布モデルとEMアルゴリズムの説明をして、VBAで実装します。
ワイブル分布を使って、故障率を解析する
適当なデータに対してワイブル分布を当てはめて、故障率についての解析を行ってみます。具体的には、パラメーターの推定、故障率が90%を超える時間の推定、故障の起きた時間から、故障の原因の推定をします。
ハザード関数とモデル選択の話
製品が故障するまでの時間や、耐久性を予測したり、どの程度まで保証するか決めるというのは難しい問題です。統計的モデルを作る事で、正しいかは置いておいて、答えを出すことが出来ます。その時に使われるのは指数分布とワイブル分布ですが、何故使われるのか解説します。
統計で出てくる確率論の用語の整理
統計学や機械学習で出てくる確率論の用語をまとめています。確率の定義や確率変数、確率密度関数などについて、定義を書いています。また、確率密度関数から始めても確率が構成できることを書いています。
中心極限定理の解説
統計学には中心極限定理という大定理があります。データをいっぱい取っておけば大体正規分布になるよという感じに覚えている人も多いのではないのでしょうか。定理の内容を正しく解説して、使い方をpythonで説明します。
データの個数からカイ二乗分布が出てくる話
カイ二乗適合度検定についての解説です。クラスタ分けされるデータを収集した時に、そのクラスタに含まれる割合を操作して管理している事があります。(クジの当たりはずれや、ガチャのレアなど)その操作が上手くいっているかを、ピアソンのカイ二乗統計量を計算する事で、調べる事が出来ます。
ボックスミュラー変換の解説
正規分布に従うデータを取得する方法として、ボックスミュラー変換があります。一様分布から変数変換していく事で、正規分布が出てくることを説明します。
尖度の解説
尖度についての解説記事です。正規分布と比べたときの裾野の重さを表す量と説明されたりします。この記事では、いくつかの確率分布に対して尖度を計算し、グラフを重ねて描く事で尖度が裾野の重さを表している事を確認します。
歪度(わいど)の解説
歪度(skewness)の定義と意味を正規分布や指数分布の例を交えて解説をします。歪度を計算する事で、分布が偏っているか判断できます。