産業/信頼性
9.平均寿命の区間推定(その2)
母集団の寿命の確率分布が指数分布である場合はどうでしょうか。指数分布の確率密度関数 \(f\left ( t\right )\) は5項で示したように \[f\left ( t\right ) = \frac{1}{t_0}\exp \left (-\frac{t}{t_0}\right )\] と表されます。\(t_{0}\) は時定数に相当する定数です。この確率密度関数は図9-1に示すように \(t_{0}\) の値によらず単調減少する関数です。
この母集団から前項同様に n 個のサンプルをとり、その寿命を求めた結果が \(X_{1},X_{2},\cdots ,X_{n}\) であったとします。この寿命の平均値 \(\overline\mu\) はどのような確率分布に従うかを考えます。 \[\overline\mu =\frac{X_{1}+X_{2}+\cdots+X_{n}}{n}\] ですから、 \(X_{1},X_{2},\cdots ,X_{n}\) がいずれも同じ指数分布に従うとき、\(X_{1}+X_{2}+\cdots+X_{n}\) がどのような分布に従うかを考えることになります。
まずサンプルが2個 (\(n=2\)) のときを考えます。\(X_{1}\) の確率密度関数を \(f_{1}\left ( X_{1}\right )\)、\(X_{2}\) の確率密度関数を \(f_{2}\left ( X_{2}\right )\) とすると \[f_{1}\left ( X_{1}\right )= f_{2}\left ( X_{2}\right )=\frac{1}{t_0}\exp \left (-\frac{t}{t_0}\right )\] です。このとき \(f\left (X_{1}+X_{2}\right )\) を求めるには、たたみ込み積分の式 \[f\left (x \right )=\int_{-\infty}^\infty f_{1}\left (t \right )f_{2}\left (x-t\right )\mathrm{d}t\tag{1}\] を利用することができます。上式で \(x \rightarrow X_{1}+X_{2}\)、\(t \rightarrow X_{2}\) と置き換えると \[\begin{align} f\left (X_{1}+X_{2} \right ) &= \int_{-\infty}^\infty f_{1}\left ( X_{2}\right ) f_{2}\left (x-X_{2}\right )\mathrm{d}X_{2} \\ &=\int_0^x \frac{1}{t_{0}}\exp \left (-\frac{X_2}{t_0} \right ) \frac{1}{t_0} \exp \left (-\frac{ x-X_2}{t_0}\right ) \mathrm{d}X_{2} \\ &= \frac{1}{{t_0}^2}x \exp \left (-\frac{x}{t_0}\right )\tag{2}\end{align}\] これはガンマ分布として知られる形になっていることがわかります。ガンマ分布 \(\Gamma \left (a,b \right )\) の確率密度関数は \(a\) と \(b\) の2つのパラメータを持ち、一般形はつぎのように表されます。 \[\Gamma \left ( a,b \right )=\frac{1}{b^a\Gamma \left ( a \right )}x^{a-1}\exp \left (-\frac{x}{b} \right )\tag{3}\] ここで \(\Gamma \left (a \right )\) は7項で説明したガンマ関数です。分布と関数がともに \(\Gamma \)の記号で示される慣例になっていますので、取り違わないように注意が必要です。図9-2は \(b=2\) 一定の条件で\(a\) の値を変えた場合の確率密度関数の例です。t 分布とは異なり、確率変数は \(x \ge 0\) の範囲のみ定義されます。
ガンマ分布の確率密度関数もExcelに関数が用意されていますので、容易に計算できます。\(a=1\) の場合が指数分布に一致することがわかります。しかし \(a\) が大きくなると分布関数はピークをもつように形状が変化します。
(2)式にもどると \[f\left (X_{1}+X_{2} \right )=\Gamma \left (2,t_0 \right )\tag{4}\] と表せます。
つぎに \(\Gamma \left (a-1,b \right )\) と \(\Gamma \left ( 1,b \right )\) とのたたみこみ積分を計算します。
(1)式右辺において
\[\begin{align} &f_1 \left ( t \right ) = \Gamma \left ( 1,b \right ) =\frac{1}{b}\exp \left (-\frac{t}{b}\right ) \\ &f_2 \left ( x-t \right ) = \Gamma \left ( a-1,b \right ) \\ &=\frac{1}{b^{a-1}\Gamma \left ( a-1 \right ) } \left (x-t \right )^{a-2}\exp \left (-\frac{x-t}{b}\right ) \end{align}\]
と置き、積分区間は \(t \ge 0\) とすると、
\[\begin{align} &\int_0^{\infty} \frac{1}{b^{a-1}\Gamma \left (a-1 \right )}\left (x-t \right )^{a-2}\exp \left (-\frac{x-t}{b} \right ) \frac{1}{b}\exp \left (-\frac{t}{b} \right )\mathrm{d}t \\ &= \frac {1}{b^{a}\Gamma \left (a-1 \right )}\exp \left (-\frac{x}{b} \right )\int_0^{x} \left (x-t \right )^{a-2}\mathrm{d}t \\ &=\frac{1}{b^{a}\Gamma \left (a-1 \right )}\cdot \frac{1}{a-1}x^{a-1}\exp \left (-\frac{x}{b} \right ) \\ &=\Gamma \left (a,b \right )\tag{5}\end{align}\] となります。なお、上式最後の変形で \(\Gamma \left (a \right )=\left (a-1 \right )\Gamma \left ( a-1 \right )\)の関係を使っています。
以上より、指数分布に従う独立な2つの確率変数の和はガンマ分布に従い((4)式)、かつ任意のガンマ分布に従う確率変数に指数分布に従う確率変数を加えたものもガンマ分布に従うことが示されました((5)式)。このことより、指数分布に従う独立な \(n\) 個の確率変数の和、すなわち指数分布に従う確率変数の平均はガンマ分布に従うことが示されました。
ここで \(a\) を \(a=k/2\) と非整数に拡張し、\(b=2\) とするとガンマ分布の確立密度関数は \[f\left (x \right )=\frac{1}{2^{k/2}\Gamma \left ( \frac{k}{2}\right )}x^{k/2-1}\exp\left (-\frac{x}{2} \right )\] となります。これを自由度 \(k\) の \(\chi^{2}\) (カイ2乗)分布と呼んでいます。この場合、自由度 \(n=2\) のとき指数分布に一致します。さらに \(a=k/2\) の場合はガンマ分布と \(\chi^{2}\) 分布は一致します。
このようにガンマ分布を \(\chi^{2}\) 分布に限定しても上記の議論は成り立ちますから、指数分布に従う確率変数の平均は \(\chi^{2}\) 分布に従うとして取り扱う場合が多いようです。
前項の t 分布の場合同様の方法で信頼区間を定めることができます。3項で示した模擬データのうち、指数分布に近いのはデータ2でしたのでこれを利用します。\(\overline{\mu}=450\) です。試料数は20ですから、\(k/2=20\)、すなわち \(k=40\) とします。図9-3は \(\chi^{2}\left ( 40\right )\) の確率密度関数を示しています。ここで横軸の確率変数 \(x\) は\[x=\frac{k\overline{\mu}}{\mu}\]となります。ここで \(\mu\) は母集団の平均寿命です。
前項同様に例として信頼度 95%の両側信頼区間を求めます。0.025(2.5%)と0.975(97.5%)となる確率変数の値を \(x_{0.025}\) と \(x_{0,975}\) とすると
\[x_{0..025} \le \frac{k\overline{\mu}}{\mu} \le x_{0.975}\]
となります。Excelで累積確率密度の値を求めると、\(x_{0.025}=24.5\)、\(x_{0.975}=59.3\) であることがわかります。確率密度関数は非対称である点で前項の t 分布と異なります。
\[\frac{k\overline{\mu}}{59.3}\le \mu \le \frac{k\overline{\mu}}{24.5}\]
となります。\(k\overline{\mu}=18000\) ですから、信頼度95%の信頼区間は
\[303 \le \mu \le 666\]
であることになります。
<Excel関数>
ガンマ分布
関数形=GAMMA.DIST(x,a,b,FUNC)
引数:x:変数、a,b:上記パラメータ、FUNC:出力の種類、TRUE:累積密度関数、
FAULSE:確率密度関数.
カイ2乗分布
関数形=CHISQ.DIST(x,n,FUNC)
引数:x:変数、n:自由度、FUNC:出力の種類、上記同様