真値と標準偏差の推定

2022-08-03 (水) 10:53:39 更新

印刷しないセクションを選択

はじめての誤差論

平均値および標準偏差の期待値†

確率変数の確率分布をとし、その期待値を、分散をとする。

この系に対して回の測定を行った時の平均値や標準偏差がどのような確率分布を持つか、これらの期待値がいくつになるか、を考えよう。(母集団から個の標本を取り出したと考えてもよい)

確率分布を使うと、あるデータセットが得られる確率を、

と表せる。

このデータセットに対して平均値はだから、「平均値の期待値」を求めるにはこれに確率を掛けて積分すればよく、

したがって、データセットの平均値の期待値は確率密度の真の期待値（素直な測定における真値、母集団の平均値）と一致する。

一方、データセットの分散の期待値は、

二乗のかかっているところを展開すると、

したがって、

すなわち、データセットの分散の期待値は確率密度の真の分散（母集団の分散）とは等しくならず、そのと一致する。

つまり逆に言えば、データの標準偏差から母集団の標準偏差を推定するには

とすべきなのである。

具体例（正規分布の時）†

特に、データが正規分布に従うと仮定して、平均値と標準偏差の推定を行うことで上記結果に対する理解を深めよう。

データの確率分布が

であれば、あるデータセットが得られる確率は、

である。

この確率を最大化するようにを選べば、それらはの最良推定値となるであろう。

[ ] 内は、

となるから、上記の確率は平均値と分散で書き表せて、

のときこの関数をプロットしてみると次のようになる。横軸が縦軸がであり、明るい部分ほど確率が高い。赤線については後述する。

式の形から明らかなとおり、この関数はに対して偶関数であり、任意のに対してで最大値を取る。

一方、に対しては、

と置けば、

となって、で最大値を取ることが分かる。 (上のグラフの赤線が最大値を与えるを表す)

それにも関わらず分散の最良推定値がではなくで与えられるのはどうしてかというと、では確率が最大になるのがのときであるためだ。

尤度分布を方向に積分してのみの関数とすると、

この最大値は、

と置いて、

の時に実現する。

これが分散の最良推定値の意味である。

Mathematica コード†

DensityPlot への GridLines の入れ方がなかなか分からなかった。
https://mathematica.stackexchange.com/questions/28025/how-to-draw-grid-lines-on-top-of-a-plot

LANG:mathematica
Method -> {"GridLinesInFront" -> True}

がキモになる。

LANG:mathematica
Show[
  DensityPlot[
    1/(Sqrt[2 Pi] s) Exp[-(1 + m^2)/(2 s^2)], {m, -2, 2}, {s, 0, 4}, 
    MeshFunctions -> {#3 &, #3 &}, Mesh -> 10, 
    GridLines -> Automatic, Method -> {"GridLinesInFront" -> True},
    PlotPoints -> 80, ImageSize -> Large
  ],
  Plot[ Sqrt[1 + m^2], {m, -2, 2}, PlotStyle -> {Thick, Red}]
]

コメント・質問†

添付ファイル:

mu_sigma.jpg 1032件 [詳細]

Counter: 15463 (from 2010/06/03), today: 2, yesterday: 6