こんにちは、こんばんわ。うどんマン(@udonman1989)です。
今回は、統計学を理解するで大切な考え方の1つである対数正規分布について学んでみましょう。
対数正規分布図は、規則性のないデータ標本の正規分布図化やオプション・プレミアムの算出時に必要とされる知識です。
この記事では、サイコロの例で確率変数について・平均所得の例で対数正規分布について解説して行きます。
対数正規分布とは?
対数正規分布と聞いて、あ〜対数正規分布って簡単じゃんという方は中々いないのではないでしょうか。
対数正規分布というのは、確率変数の対数をとって正規分布化して表したグラフの事を言います。
確率分布と確率変数
確率分布は、データ標本がどの様に分かれるのかを表す確率となります。
また、より専門的な表現をすれば0以上の値を持つ確率が1以上であり、その要素の合計値1以上のものと定義されます。
検証例には、サイコロの出目の確率がよく利用されます。当然、全ての出目の出る確率は均等であり、1/6の確率で1〜6のいずれかの目が出ます。
この標本を確率分布の定義に照らし合わせるとサイコロの出目は常に0以上の値が出現し、その合計値も常に1以上である事から確率分布であると判断できます。
続いて、確率変数についてです。似た様な用語は続きますがついてきて下さいね。
確率変数は、データ標本の範囲は分かっているけどその値がどこに分布するのかわからない標本の事を言います。
サイコロの出目も1〜6の範囲で出現確率は1/6とわかっていますがどの出目が出るのか事前に察知することは不可能であるため確率変数の定義に合致します。
数学的な表現をすると、確率変数はXを用いて定義されます。サイコロの目は先ほどから何度も確認している様に1〜6の出目が出るので、
$$ 1\leqq X \leqq 6$$
と表されます。このXに当てはまる数値の事を確率変数の実現値を呼びます。
確率変数には離散型と連続型がある
確率変数には、離散型確率変数と連続型変数の2種類があります。
サイコロの出目は1〜6までの値を取るので連続型変数に分類されそうですが、そうならず、離散型確率変数に分類されます。
なぜなら、数学・統計学的には1〜6の間にも1.1や2.5などの変数が存在するためです。
逆説的に言えば、体重や身長などcmやkg単位で変数を刻む事ができるデータ標本に関しては、連続型確率変数に該当する事になります。
対数正規分布は年収の例が分かりやすい
対数正規分布の例としてよく用いられるのが、年収(所得)の分布の図です。
上図は、最近何かと話題の政府統計の一つである厚生労働省が発表している日本人の年収(所得)別の構成をヒストグラム化した図となります。
この図から読み取れることは、日本人の年収は100〜700万円以内の世帯が圧倒的多数である事です。
更に注視して頂きたいのが、平均値と中央値の差です。
$$ 545万円(平均)ー427万円(中央値)= 118万円 $$
社会人であっても、平均と中央値の差があいまいな方もいますが、本当の意味での日本人の所得の実態を表しているのは中央値の方です。
平均と中央値で118万円もの差が出るのは、人数比としては圧倒的少数である一部の富裕層(資産を数億円保有)が平均値を押し上げているからです。
中央値と最頻値の関係
ここでは、少し統計的な知識を補足したいと思います。
対数正規分布では、ヒストグラムが左右対称とならない事が一目で分かります。
ヒストグラムで一番高い山の事を最頻値、標本データの確率分布が50%となる場所の事を中央値と呼びます。
日本人の年収や貯金金額などを見る際には平均ではなく中央値に注目する事で無駄な落胆や期待を持つ事は無くなると言えます。
お金持ち羨ましいよ! o(・x・)/
データ分布が偏った標本は対数化することで正規分布に従う
統計学的には、データの分布が偏った標本は、対数化(log)する事で正規分布する事が知られています。
対数は、logを用いて表される事を高校時代に勉強した方も多いのではないでしょうか。
算式を用いなくても最近は、エクセルやGoogleのブラウザに以上の様に打ち込むだけでも簡単に対数を求める事が可能です。
正規分布と対数席分布のグラフの差
正規分布と対数正規分布のグラフの差は上図を比較する事でよく分かります。
正規分布が平均値=中央値で左右対称のグラフであるのに対して対数正規分布は平均値を中心にしても左右対称とはなりません。
一般的には、成人の男女の身長は正規分布し、今回の記事でも冒頭に触れた様に所得の分布は対数正規分布となります。
コメント