統計学演習問題のヒント


Google 電卓を使って複雑な計算を行う:
メジアン,平均,標準偏差を求める:
度数分布表からメジアンを計算する:
ベイズの法則を活用する:
確率計算の定石:
毎回確率が変わる(非復元操作の確率):
簡単な部分を計算して1から引く:
世論調査の信頼性と調査人数:
標本平均の分布を知る:
宝くじの期待値を計算する:
$\chi^2$分布を使って,母分散を推定する:
母平均の区間推定:
仮説と検定:
$\chi^2$検定を含む総合問題:
最小2乗法と相関係数:
CSVファイルを活用する:

Google 電卓を使って複雑な計算を行う:

確率や統計の計算ではべき乗,階乗,指数関数といった普通の電卓には備わっていない演算を行う必要があります。ちょっとお金を出せば関数電卓というものもあるのですが, 最近 Google が提供している電卓機能が非常に優れていて,しかも手軽なので,これを 利用することにしましょう。なお,Windows 10 の電卓はすごく使いづらいので推奨できません。授業中にちょっと勧めるようなことを言いましたがゴメンなさい。タコでした。

Google 電卓にアクセスする

Google検索 を開く

下のように検索窓に簡単な数式(1 + 2 など)を入力して, Enter キーを押す(下の「Google検索」ボタンを押してもよい)。

計算式の入力は3通り

次のような電卓の画面が現れる。入力方法は3通りある。

  1. 入力フォームにタイプして[Enter]で計算実行:迅速だが入力が少しわかりにくく,ペーストが利かないのが不便。
  2. ブラウザの検索窓にタイプして[Enter]で計算実行:ちょっと重いが,入力はわかりやすくペーストもできる。
  3. キーパッドのボタンを押していって最後に [=]で計算実行:簡単だが複雑な入力には不向き。

複雑な計算は 2 で行うことを推奨します。慣れれば 1 も便利です。

あとは次のようにキーボードから数字や演算子を入力していけばよい。最後に Enter キーを打つと結果が表示される。入力した式も右上に小さく表示されるので確認に便利。

1 + 2 + 3 + 4 + 5 [Enter]

Google 電卓の基本的な演算子と関数

演算・関数 数式表現 フォームへの入力 検索窓への入力 計算結果 備考・注意
掛け算 \[ 4 \times 5 \] 4 * 5 4 * 5 20
割り算 \[ 4 \div 5 \] 4 / 5 4 / 5 0.8
べき乗 \[ 2.5^3 \] 2.5 ^ 3 2.5 ^ 3 15.625 ~ (チルダ)と間違えないこと
べき乗 \[ 4.5^{-2.4} \] 4.5 ^ (-2.4) 4.5 ^ (-2.4) 0.02705764328 括弧を使ってまとめる
平方根 \[ \sqrt{7} (=\: ^2\sqrt{7}) \] 7 r 2 sqrt(7) 2.64575131106 フォーム入力はまごつきやすい
階乗 \[ 5! \] 5! 5! 120
指数関数 \[e^{-1.5} \] e ^ (-1.5) exp(-1.5) 0.22313016014

複合的な演算

演算・数式 通常の数式による表現 フォームへの入力 検索窓への入力  一般的な数式による表現 
組み合わせの数 \[ \frac{10!}{6!4!} \] 10! / (6! * 4!) 左と同じ \[ _n C_x \]
二項分布 \[ \frac{10!}{6!4!} 0.4^6 \times 0.6^6 \] 10! / (6! * 4!) * 0.4^4 * 0.6^6 左と同じ \[ \frac{n!}{x! (n-x)!} p^x (1-p)^{n-x} \]
ポアソン分布 \[ \frac{2.5^4}{4!} \times e^{-2.5} \] 2.5^4 / 4! * e^(-2.5) 2.5^4 / 4! * exp(-2.5) \[ \frac{\mu^x}{x!} e^{-\mu} \]

メジアン,平均,標準偏差を求める:

この主の計算を手計算でやるのは無謀です。50個のデータを足し合わせたり, データの二乗の和を求めたりするには,表計算ソフトがあったほうが よいでしょう。とにかく手段はなんでもかまいません。 こういってはなんですが,こういう作業をして初めて,表計算ソフトという ものが本来の目的にちゃんと使えるようになるのです。がんばってください。

表計算ソフトを立ち上げます。 50個のデータをセルに入力します。 これさえ入力すればあとは必ず正解が出ます。 表計算ソフトのセルに手でいちいち数値を入力するのが大変だという人は, CSV 形式のファイルを利用することをお勧めします。 →(CSVファイルを活用する) なお, メジアンは筆算でできるでしょう。

Excel の使い方を忘れている人は,もう一度昔のテキストなどを 見て,次のようなことができるかどうかを確認しましょう。 これらの操作をうまくできない場合,いきなり本番のデータで玉砕する前に,少ないデータで練習するのが よいでしょう。

平均:

合計をデータの数で割りましょう。

標準偏差:

標準偏差を正直に出すには,次のようなやり方でいけます。

ただし,表計算ソフトの関数には,標準偏差(standard deviation)がないわけがありません。 このつづりを手がかりにヘルプで探してみると, それらしいのがいろいろあります。 題意にかなっているものはどれでしょうか。


度数分布表からメジアンを計算する:

メジアンの求め方については テキストに示されています。

ただし,テキストのこの問題と,ここで出題されているのは 微妙な違いがあります。それは,テキストの問題では値が 連続的であるのに対し,この問題では点数という整数値を とるという違いです。つまり,「すきま」があるのです。

そこで,より正確な計算を行うためには,中央のデータが含まれる階級の最初の値と, その前の階級の最後の値の 中間の値を使うのが普通です。 つまり,たとえば 中央のデータの含まれる 階級が 126 -- 150 で, 前の階級が 101 -- 125 であったとすると, 126 ではなく, 125.5 を区間の始まりの値とし, また,区間の最後のほうは 0.5 後にずらして 150.5 とするのが 普通です。このことによって区間の幅は 25.0 ちょうどになります。 こういう補正の仕方を半整数補正といいます。

ただし,メディアンを度数分布表から求めるときには必然的に誤差が含まれますので, ここではややラフな計算結果でも正解とするようになっています。 (もちろんそれなりに正しい手順でないとラフな正解も出てきません。)

ベイズの定理を活用する:

この問題では,1番でまず喫煙者の肺がん死亡率が求められています。さらに2番の問題文では 喫煙者と非喫煙者の割合が与えられます。さらに表から, 非喫煙者の肺がん死亡率も出ています。 これらを考え合わせれば,ある男性が肺がんで死んだとして,その人が 喫煙者であった確率を求める問題は,テキストの虫食いトマト の問題と全く同じであることになります。


確率計算の定石:

複数回の独立な試行が関係する確率の計算では, 「全部が当たりになる」タイプの計算は最も 簡単です。逆に「全部がはずれ」とか,「全部が 当たり」の裏,つまり「少なくとも1回はあたり(はずれ)」 というのもその延長で簡単に計算できます。 ここではそのレベルの確率の説明をします。なお,その中間の細かいケースについては, 後に出てくる 二項分布という 強力な武器を使います。

【全部が当たる場合】

テキストにもあるように,2つの事象$A$と$B$が独立である場合には,その積事象 $A \cap B$ が 実現する確率 $P(A \cap B)$ は,それぞれの事象の実現確率の積になります。 \[ P(A \cap B) = P(A) \times P(B) \] もちろん事象の数がもっと多くて $A_1, A_2, A_3, \ldots$ とあっても同様です。 \[ P(A_1 \cap A_2 \cap \ldots \cap A_n) = P(A_1) \times P(A_2) \times \ldots \times P(A_n) \]

具体的に 「サイコロを3回振って全部1の目になる確率」というのを考えてみると, 1/6 の確率の現象が3回連続するわけですから, \[ \frac{1}{6} \times \frac{1}{6} \times \frac{1}{6} \] つまり 1/6 の3乗を計算すればよろしい。 の積となる事象が現れる確率は,1回ごとの確率の積になるという計算を使えるということです。 これを実際に計算するには電卓でも使えばよろしい。こちらには 電卓プログラムも用意されています。

【「一度も起きない」という場合】

さてこんどは,「サイコロを10回振って,1度も1の目が出ない確率」を考えます。 この場合には,「1の目が出ない」を言い換えてみます。つまり

1の目が出ない ⇒ 2,3,4,5,6 の目のどれかがでる

というわけです。つまり「6つある目のうちの5つのどれかが出る」 確率が基本で,それが10回続くわけです。

さて, 「6つある目のうちの5つのどれかが出る」の確率は 5/6 です。 なぜなら,その余事象は 「6つある目のうち1だけが出る」で確率 1/6 であり, ある事象とその余事象の出現する確率の和は1であるからです。

結局, この確率 5/6の事象が立て続けに10回起きるのですから, 全体の確率は次のようになります。 \[ 5/6 \times 5/6 \times 5/6 \times 5/6 \times 5/6 \times 5/6 \times 5/6 \times 5/6 \times 5/6 \times 5/6 = (5/6)^{10} \]

【「少なくとも一度は出る」という場合】

「○○回やって,最低一度は□□が出る確率」というのも定番の問題です。 この場合にも余事象を考えることが基本になります。つまり次のようなことです。

「少なくとも一度は1が出る」の余事象 = 「一度も1が出ない」

裏は上にあるように, 「一度も1が出ない」です。つまり,毎回何が出ているかというと,上でも 説明したように, 2,3,4,5,6 のいずれがが出ているわけです。この事象の確率は もうすでにやったように, 5/6 です。これが10回続く。だから 全体としては (5/6)10 の確率で,これが裏表の関係の裏の方=「一度も1の目が出ない」事象の 確率です。

したがって,「少なくとも一度は1が出る」というのは, 「一度も1が出ない」と裏表なので,両方の確率は足して 1.結局, 「少なくとも一度は1が出る」確率は次のようになります。

\[ 1 - \left(\frac{5}{6}\right)^{10} \]

毎回確率が変わる(非復元操作の確率):

確率の計算では,何かの事象が起きると,その次に 起きる事象の確率が変わるというのがしばしばあります。 くじを引いていくような場合はその典型です。 商店街の大売出しではくじ引きで商品がもらえたりしますが, 1等が当たってしまった後では, そのくじに対するみんなの期待はがくっと下がるでしょう。 当然ですね。そんな場合の確率を考えます。

いま,見えない箱の中に赤玉が 10 個,白玉が 20 個あるとします。 このときに可能な問題はいくつかありますが, 最も簡単なのは次の「当たり続けの確率」です。

【当たり続けの確率】

この箱から玉を戻さないで取り出していって,赤玉が5個続けて 出る確率はどうなるでしょうか。これはおみくじを引いていって, 吉が続けて出るのと同じケースです。当然のことながら, 前の運で,あとの運は左右されます。

はずれ続けの確率も,まったく同じやり方で計算できます。 それでは,たとえば7個取り出したときに赤が 4 個,白が 3 個になる 確率は? という ことになると,いちいち状態の変化を考えてやることになり, ちょっと面倒です。うまいアルゴリズムを考えて, コンピュータ上で解くプログラムを書いてみるというのは, 面白いと思いますが。


簡単な部分を計算して1から引く:

サイコロで1から5までの目がでる確率を求めよ。
こういう問題が出たらどうしますか?楽に計算する方法は次の通りです。 \[ 1- f(6) = 1 - \frac16 = \frac56 \] つまり,かわりに6が出る確率 $f(6) = 1/6$ を引けば目的の結果が得られるわけです。これを 律儀に1が出る確率 f(1) から5が出る確率 $f(5)$ までを足しあわせて, \[ f(1) + f(2) + f(3) + f(4) + f(5) = \frac16 \times 5 = \frac56 \] とするのは手間がかかります。

上の例は簡単ですが,二項分布やポアソン分布のように一様分布でない離散型分布の確率を計算するとき, もしも,たくさんの項の和を求めたい場合には,逆に計算すべき確率変数の総数が少ない方を計算して から,その値を 1 から引くほうが楽です。 特にポアソン分布の場合に $x > 4 $ になる確率みたいなものは,$x \lt 4$ になる確率 \[ 1 - \left(f(0) + f(1) + f(2) + f(3) + f(4)\right) \] を求めないと計算できません。


世論調査の信頼性と調査人数:

新聞などが行う世論調査では,3000人程度を対象とした ものが多い。調査人数が少なければ,その信頼性は低下するし, 多ければコストがかかる。ここでは, 結果が真の値からずれる確率を計算することで, 調査人数と結果の信頼性の関係を 見積もるのが目的である。

たとえば真の支持率が 60% だったとしよう。このとき, ある人を無作為に選んで尋ねた場合,その人が「支持」と 答える確率は 0.6 である。 そこで多数の人,たとえば 200 人に尋ねたとすると, もっともありうべき答えは,期待値 μ である。つまり

\[ \mu = n \times p = 200 人 \times 0.6 = 120 人 \]

が期待値(平均値)である。しかし実際に出てくる人数は ちょうどその数ぴったりにはならず, いくぶんか前後にずれた結果になるであろう。 そのずれ方は標準偏差 σから知ることができる;

この分布は「支持」と「そうでない」を分けた場合の確率分布であり, 二項分布についての標準偏差の式を使える。つまり, $\sigma = \sqrt{n p (1-p)} $ であるから, この場合には $200 \times 0.6 \times (1 - 0.6) = 48 $ とし,その平方根を とって,$\sigma = 6.928 人$となる。

さてそれでは,本題の調査の誤差の問題を考えよう。 上で論じたように,無作為抽出で得られた結果は期待値のまわりに ある広がりをもっている。そこでたとえば 5% の誤差の範囲に 調査結果が収まる確率を計算してみよう。

この場合,「支持」と答えた人は 55% から 65% の間,つまり 200人のうちの 110 人から 130 人の間になる。 ところで,この人数のばらつきを表す標準偏差は先に求めたように 6.928 人であるから,これと平均(期待値)μ を 使って,標準正規分布に変換して正規分布表を使えば,この人数の 範囲に入る確率を見積もることができる。 すなわち,

\[ z_1 = (110.0 - \mu) / \sigma = (110.0 - 120.0) / 6.928 = -1.4433\ldots \] \[ z_2 = (130.0 - \mu) / \sigma = (130.0 - 120.0) / 6.928 = 1.4433\ldots \]

$z_1$ と $z_2$ がちょうどプラスマイナスの関係になっているのは, ちょっと考えれば当然だ。だから求める確率は,プラスの方だけ計算して 倍にすればよい。そこで,正規分布表から $z = 0$ から $z = 1.44$ までの面積を求めると 0.42507 ,それを2倍すると,求める答が得られ,0.850 が答となる。

なお,この問題では人数が100人のオーダーのときと, それより一けた以上の人数の場合との比較をしてもらっている。 単に値を出すだけではなく,出された結果の違いの意味から, 統計調査のサンプルのサイズの問題について,感じ取ってほしい。


確率を計算する:

【べき乗の計算例】

(2/7)12 を計算するには:
  1. 直接的なやり方:
    (2.0/7.0) ^ 12 
                        
    注意: 分数の計算(つまり割り算)では,整数を整数で割ると,答えは整数になってしまいます。これはプログラミング言語の世界のお約束で, 整数と実数の取り扱いが内部的に異なることから起きる現象です。 それを避けるには,上にあるように小数点を付けて入力してやります。
  2. 変数を使ったやり方
p = (2.0/7.0)
p ^ 12 
            

こんなふうに変数を使うとスマートにできるし, 他の同種の問題にも応用が利きます。便利なので, こっちのやり方に慣れてください。 なお,次のように1行の中で複数の処理を記述することもできます。 途中の結果を見なくてもよいのであれば,この方法も便利です。

p = (2.0/7.0); p ^ 12  
            

標本平均の分布を知る:

【やろうとしていること】

この問題では,ランダムサンプリングの抽出数を変えた場合に, 標本平均(=抽出されたサンプルの値の平均値}がどのような 分布をするかについて考えます。

直感的に分かるように,精度の高い調査を行おうと思ったら,なるべく多数の サンプルを抽出してやったほうがよいことは明らかです。うんとたくさんの サンプルを無作為抽出して,その平均をとれば,母平均つまり母集団の平均値 (求めたい真の値)に近いものが得られるにちがいありません。 一方,サンプルの数が小さければ,その平均値として得られる値は,真の値のまわりを かなり「ふらつく」と 考えられます。そのことを実際に実験して試してみようというのが,この課題の 目的です。配布されているプリントでは,6.2.3 節(p.50--52)がこの項に当てられています。

さて,このシミュレーションでは,母集団をなす10000個のデータが収まった ファイルがあって,そこからある個数の標本を抽出します。 ただし,母集団のファイルを直接見ることはできません。

さて,本当の統計調査だと原則として抽出は1度しかやりませんが, ここでは実験ですから,12回の調査を行ってみています。そして その度に得られる結果,ここでは標本平均がどのようになるか をチェックしたいのです。 この一連の実験結果が,1つの csv ファイルに収められています。 たとえば 15 個のデータを抽出することを12回やってみた 場合の結果を収めたファイルは, d0015-12.csvです。

このデータファイルを使ってやりたいことは, 12回の抽出実験のそれぞれについて標本の平均を出し,そうやって 得られた12個の標本平均がどのように分布するかを知ることです。 したがって,12個のデータの平均と標準偏差(分散)を 求めることになります。

【小さな例】

具体的なサンプルを使って解説しましょう。 ここでは大きさ 9 の抽出標本を考えます。 この抽出を5回やった結果を csv ファイルにして,表計算ソフトで読み込んだのが次の図です(多分 ほとんどの人は Microsoft のExel を使うでしょう。 これは無償のオープンソースである OpenOffice Calc のものです。操作は共通です)。 image この表では縦に9個のデータがあり,これが1回の調査で抽出された標本 です。それが A から E まで5系列になっています。

ここでまずやるべきことは,A の系列の縦9個の平均値をとることです。 そのための操作は,データの欄外のセル,ここでは A10 のセルを使って 平均値を計算することです。表計算ソフトには AVERAGE という 関数がありますので,それを使います。計算したい範囲は A1からA9の間ですから, セルの中に
=AVERAGE(A1:A9)
と入力します。この図では,A10 のセルには結果が表示されていますが, 上の数式ボックスには,そのセルに平均を評価するための式が 入力されていることが示されています。

一般の調査では,これを一回とっただけで,得られた 平均値を信用するわけですね。しかしここでは,その値が ほんとうに信頼できるのかを確かめようということで,何度も 抽出を繰り返してみようということで, それが B から E の系列です。B, C, D, E についても 同様に平均を求めて 10 列目に結果が入るようにします。 その結果が次の図の B10〜E10に示されています。

なお,この計算を行うには,A10 のセルをコピーして B10〜E10 にペーストすると簡単です。

さて次に,得られた5つの標本平均の分布を調べます。 A10〜E10のセルに収められた標本平均について,まず,それらの平均を 求めるには,
=AVERAGE(A10:E10)
という式を,下図のように,空いている F10 のセルに書き込めばよろしい。

image

最後に,5つの標本平均の標準偏差を求めます。標準偏差を求める 関数は,表計算ソフトではいろいろ用意してあり,メニューから検索すると 出てきます。 それらを調べると,ここで使えるのは STDEVP という関数であることが 分かります。他に STDEV という名前の関数もあり,これも ある種の標準偏差ですが,やや異なった定義がなされています ので注意が必要です。 最後の図では,その値を G10 のセルに入力しようとして います。

image

このようにして得られた2つの数値,つまり標本平均の平均値と 標準偏差を見ると,無作為抽出によって得られる平均値というものが どのような分布をしているかが分かるわけです。

【標本平均の分布と標本の大きさ】

実際に課題で出された3つのファイルを使って,標本平均の分布のようすを 見てみると,当然のことながら,抽出されるデータの数(標本の大きさ)が 大きい場合ほど標準偏差は小さくなり,ある平均値のまわりに小さく 集中していることが分かるでしょう。 このことは,配布プリントの p.51, 式(6.4)に表現されています。つまり 分散は標本の大きさに反比例して小さくなる。標準偏差のほうは 分散の平方根であるから,標本の大きさの平方根に反比例することになります。

さらに,式(6.4)で n = 1 とすると,標本の大きさが1のとき, つまりデータ1個だけを取り出した場合には,その分散は母集団のものと 一致するという結論になります(ちゃんとプリントを見なさい)。 これはいわば当然であって, 1個ずつの抽出を続けて平均をとっていくことは,結局は母集団の 要素全体の平均を取っていくことに他ならないから,1個抽出の 場合の平均値(=1個の値そのもの)の分布=母分散 となるのです。

逆に抽出数を多くしていくとその平均値(標本平均)の分布はどうなるか, 式(6.4)からは,標本平均の分散はゼロに近づきます。つまり, 何回抽出をやっても,その値は真の値である母平均のごく近くで 揺らぐだけですから,得られた標本平均の信頼度は高くなります。


$\chi^2$分布を使って,母分散を推定する:

【やろうとしていること】

標本抽出による母集団の統計的取り扱いでは,前問で見たように, 標本のサイズを大きくすれば,母平均については十分な信頼度を もって推定することが可能でした。 この問題の 1. は,そのことの復習をかねて, 母平均を求めています。

しかし,抽出された標本から母分散を知るというのは, それほど簡単ではありません。なぜなら,標本分散と母分散の 間の関係はあまり直接的ではないということに加えて, 標本分散は抽出のたびにかなり大きく変動するからです。

実例で見てみましょう。次の数値は,10個の卵を無作為にとってくる標本 抽出(標本の大きさ=10)を,16回繰り返したときに得られた平均値(標本平均) と分散(標本分散)です。

標本平均:48.88, 49.26, 48.39, 50.08, 49.41, 45.38, 51.63, 49.92, 50.66, 49.64, 53.24, 52.26, 51.36, 50.27, 51.84, 50.19

標本分散: 56.88, 34.94, 61.06, 71.06, 78.67, 35.17, 48.57, 71.82, 45.45, 37.75, 37.33, 49.15, 34.87, 49.15, 42.48, 63.71

この値をみると,平均のほうは 50 前後の値にまとまっているけれど, 分散のほうは 35 〜 79 のあたりまで広がってしまっています。 ですから,一度だけ抽出された標本から母分散を求めるというのは, かなり危険なことです。 そこで 何度も抽出を行った結果から,母分散を推定しようというわけです。

【1. 母平均の推定】

ここでは小さな標本を何度も抽出していますので, その回ごとの平均値(標本平均)はいくぶんばらつきますが, それらを平均してしまえば,母集団の真の平均(母平均)に近い値が得られます。 実際,上の例でいうと,10個のデータを抽出することを16回やっていますが, これらの平均値の平均を出すということは,とりもなおさず160個のデータの 平均を計算していることに他ならないので,得られた標本平均は,母平均に かなり近いだろうと信じてもよいのです。

【母分散を推定する】

次に母分散を求めてみましょう。母集団の統計的性質として, その分散の大きさを知ることは非常に大切です。たとえば 工場での品質管理を考えた場合,製品の出来にばらつきがあっては 品質への信頼を損なうことになりますので,分散がどうなっているかを 常に監視しておかなければなりません。 ただし,無作為抽出の標本から母分散を算出する簡単なやり方は, 母集団が正規分布しているときに限られます。 そのことは念頭においておかねばなりません。

母分散の推定にはいくつかの方法がありますが,ここでは2つのやり方を 考えています。

【2. $\chi^2$分布を使う】

$\chi^2$分布 を使った母分散の推定は,プリントの p.59 以降に 述べられています。このやり方の特徴は,直接データを 何かの式に代入して求めるというのではなく,まず標本分散がどう分布するかという 性質を考えているところで,その分布を表すのが $\chi^2$ 分布だというわけです。

$\chi^2$ 分布というのは,分散がどのように分布するかを表すものです。 詳細はテキストに譲りますが,ここで重要なのは p.75 の (7.17) 式とその前後の記述です。 ここの記述は,

\[ Z = \frac{1}{\sigma^2}{ (X_1- \bar{X})^2 + (X_2- \bar{X})^2 + \cdots (X_n- \bar{X})^2 } = n s^2/ \sigma^2 \]

で与えられる $Z$ という量が,自由度 $n - 1 $ の $\chi^2$ 分布に従うとなっています。なんのこっちゃ?ですね。

ここで式の複雑さに目を奪われてしまってはいけません。 真ん中の式は,先に出てきている(7.2)式からの流れで登場しているのであって, 肝心なところは, $\frac{ns}{\sigma^2} $ が自由度 $n-1$ の $\chi^2$分布に従うということです。 そこをよく考えましょう。

さて,この式で $ n $ は標本のサイズ,つまり抽出されるデータの数で, 上の具体例でいうと 10 でした。また $s^2$ は,標本分散です。 つまりこの例で $s^2$ は, \[ 56.88, 34.94, 61.06, 71.06, 78.67, 35.17, 48.57, 71.82, 45.45, 37.75, 37.33, 49.15, 34.87, 49.15, 42.48, 63.71 \]

というデータのひとつひとつのことです。 もう1つの $\sigma^2$ は母分散ですから,これは母集団が与えられれば決まる一定の値です。

こう見ると, $ns/\sigma^2 $ という量が 何らかの分布をするというのは,次のことを意味します。

標本分散 $s^2$ というのは 抽出のたびにいろいろと変わる(つまり分布を持つ)ので,それ に $n/\sigma^2$ を掛けた $Z$ という量も,いろいろと変わる。その分布の仕方が 自由度 $n-1$ の $\chi^2$分布になっているということなのである。

image ここで $\chi^2$分布 のグラフを見てみましょう。左図は $\chi^2$分布の代表的な形を描いてみたものです。 表に与えられているのは,このαの値が 0.05, 0.1, 0.5 などの時に $ t $ がとる値です。上の例に適用することを考えると, $n = 10$ ですから 自由度 $n - 1 = 9$ の表を参照します。すると $\alpha = 0.500$ のときの $ t $ の値は 8.343 であると分かります。 これはどういう意味を持つのでしょうか? それは次のようなことです。

グラフで表された$\chi^2$ 分布に従うデータを たくさん集めると,8.343 を境目にして半々に分かれることになる。

さあ,やっと核心にたどりつきました。 前の命題とこのことを組み合わせると, $ns^2/\sigma^2$ で表される数は,8.343 を境にして半数ずつに 分かれるはずというわけです。 ところで,標本分散 $s^2$ のほうは どのように分布しているでしょうか?上に挙げた16個の値を 昇順にソート(並べ替え)してみます。

\[ 34.87, 34.94, 35.17, 37.33, 37.75, 42.48, 45.45, 48.57, 49.15, 49.15, 56.88, 61.06, 63.71, 71.06, 71.82, 78.67 \]

これを見ると,16個の数値は,48.57 と 49.15 の中間 を 境にして半々に分かれています。そこで分け目の値はちょうど真ん中 をとって(つまり平均して), 48.86 とします。

つまり, $n$ $s^2$$/\sigma^2 $ の分け目は 8.343 であるが,$s^2$ の分け目は 48.96 なのです。赤字で共通のところを強調して おきました。 両者を比べると, 48.96 に $n/\sigma^2$ を 掛ければ 8.343 になるのだということが見えるでしょう。 $n$ は 10 でしたから,簡単な計算で $\sigma^2$ の値は 58.68... と求められます。 解答は適当に丸めて 58.7 とします。

【3. 標本平均の平均値を使う】

$\chi^2$分布を使って母分散を求める方法は 上で解説しました。やってみると,この方法の手間はやや大変です。 そこで,もう少し簡便で値を出しやすい方法を紹介します。 次の式(6.5)を思い出してください。

\[ E[s^2] = \frac{n-1}{n}\sigma^2 \]

この式の意味は,s2 の期待値は, 母分散の $(n-1)/n$ 倍であるということです。つまり, 十分な回数の抽出を行っていったときに,標本分散の平均値が どんな値に近づくかを示しているのがこの式です。

結局, σ2 を求めるには, 平均して得られた $E[s^2]$ に $n / (n - 1)$ を掛ければよろしい。


母平均の区間推定:

【やろうとしていること】

前の問題ですでに母平均の推定を行いました。 ただし,そこで求められたのは,母集団の平均値という一点の 値でした。このような推定を点推定といいます。 しかし,抽出された標本から得られる値は必ず誤差を含んでいて, 点推定された母平均というのは「母平均としてもっとも確からしい値」 でしかありません。ようするにその値は真の値とは ずれているわけです。

そういう事情を踏まえると, よりまともな母平均のとり方としては

真の母平均は,90% の確率でこの範囲に入っています

というふうに表現するのが,最も厳密なやり方です。つまり, 「どの程度信用していいか」ということも含めて判断材料として 使えるようにしようというわけです。 (そうしておけば,外れてもいいわけできますし) で,このように幅をもって推定するのが 区間推定です。またここで 90% の確率で入るであろう区間という意味で, データの幅を 90%の信頼区間と呼びます。 ふつうの統計では,90%, 95%, 99%という確率がよく使われます。

抽出された 標本のデータから 母平均を区間推定するには,抽出の状況や既知の情報が 何であるかによって,いくつかの方法が選択されます。 もしも仮に母分散が知られているのであれば,この後説明するように 簡単に区間推定ができます。しかし現実には母平均も分かっていない(分かっていればもうやることはない )のに 母分散が分かっているなどということはあまりないでしょうが,この やり方を拡張して, 大標本についての 推定が可能です。標本の大きさがおよそ20以上であれば, この扱いが可能です。

さらに, 標本の大きさが十数個以下といった小標本の場合には, スチューデント分布と呼ばれる確率分布が現われます。取り扱いの手順は よく似ていますので,ここで大標本についてやっておけば, 技術的にはすぐに応用できるでしょう。

【最初に求めておく量】

この問題で使われるデータは,親切なことに,CSV ファイルでも提供されていますから,それをダウンロードして,平均と分散を求めておく 必要があります。 Excel などの表計算ソフトでデータの分散を求める関数としては,VAR( ), VARP( ), VARA( ) というふうに いくつかのものがあります。ここで欲しいのは標本分散です。 標本分散はどんなものであって,どれとは違う,ということを 教科書の説明や ヘルプを使って,この際しっかりと 調べておきましょう。この後の説明でもこれらの違いには触れてあります。

【まずは点推定】

それでは大標本から母平均を区間推定する手続きを進めましょう。 まず区間の中心となる母平均の点推定値は,標本平均そのものです。 これはテキストで繰り返し登場している (式(8.1)) 次の式
$ E[ \bar{X} ] = \mu$
が意味するところそのものです。このように,標本平均の期待値が 母平均と一致するということを,

標本平均は,母平均の不偏推定量である

といいます。テキストの8.2節にはこのことが書かれています。

【区間推定の準備】

さて問題は,90% あるいは 99% の信頼区間の幅を求める ほうです。これを求めるには, 上の式(8.1)とペアになる式
$ V[ \bar{X} ] = \frac{\sigma^2}{n} $
を考えます(式(8.2))。 これは 標本平均 $\bar{X} $ の分散が,$\sigma^2/n$ と等しい, あるいはその平方根を考えて, 標本平均 $\bar[X]$ の標準偏差が,$\sigma \sqrt{n}$ と等しい, ことを意味しています。

式(8.1)(8.2)の意味を図で表しておきましょう。

平均の点推定と区間推定

上の図は,標本の大きさ n が 10 (青) と100(赤) のときに 標本平均 $\bar{ X }$ がどのように 分布するかを表しています。 矢印はそれぞれの場合の $\sigma \sqrt{n}$ (式8.2 の平方根) で, $\bar{ X }$ の標準偏差の幅を表しています。また, グラフの外側の塗りつぶされた部分は,面積が 0.05 の領域を表していますので,その内側の白い部分は 赤青いずれも 0.9 の面積をもっています。 図を見ると, 標本平均は真の平均 μ を中心にした正規分布を しています。これは式(6.3)の意味するところです。 また,n が大きいと標本平均は狭い範囲に まとまり,式(6.4)の意味,つまり $\bar{ X }$ の分散が n に反比例している ことを表現しています。 グラフを見れば,標本の大きさが大きいほど 90% という 信頼区間の幅は狭まっていて,より精密な推定が 可能になることが分かります。

【簡単な区間推定 --- 母分散既知のとき】

もし母分散 $\sigma^2$ が分かっていたとすると,それと 標本の大きさ $n$ とから,式(8.1),(8.2)を使って,上のような グラフが描けます。それから両側の塗りつぶした領域の 内側の面積が 0.9 になるように境界線を決めてやれば, それが求める領域です。 では次のような例を考えましょう。

母分散が 1.35 であるような母集団から 大きさが 10 の標本を抽出したところ,標本平均が 7.51 となった。母平均を 90% の信頼区間で推定せよ。

まず母平均の点推定値は,標本平均そのものですから, 7.51 をそのまま使います。

次に,標本平均の広がりの幅,つまり標準偏差を求める 必要がありますが,それには式(8.2)を用います。 それによると標本平均の分散は $\sigma^2/n = 1.35/10 = 0.135 ...$ となり,その平方根をとって 0.367... を得ます。90% 信頼区間を求めるには,95パーセント点 を知ればよいので,表から z = 1.645 を得ます。これは 標準偏差が 1 のときの幅ですから,標準偏差が 0.367... のときは,1.645 × 0.367.. = 0.604... となります。従って信頼区間の両端は
$7.51 \pm 0.60$
これが答えです。あるいは計算してしまって,
$6.91 \lt \mu \lt 8.11 $
としてもよろしい。

【母分散が未知のとき(大標本)】

上の例では母分散が既知である場合を扱いました。 しかし母平均も分からないのに母分散が分かっている なんてことはあまりないでしょう。実用的には, ここにあるように母分散が未知の場合の取り扱いが必要です。 この場合,標本の大きさが大体 20 を越えるような 大標本と,それ未満の小標本については,扱いが異なります。

まずは大標本です。 次のような問題を考えることにしましょう。

大きな箱から30個の卵を無作為に取り出してその重量を 測定したところ,標本平均は 56.4 g, 標本分散は 7.29 g2 であった。 母集団の卵の重量の平均値を90%の信頼区間で推定せよ。

題意から標本平均 $\bar[X] = 56.4 $, 標本分散 $s^2 = 7.29$,それに標本の大きさ $n = 30$ です。 前問と違うのは,標本分散は分かっているが,母分散 $\sigma^2$ は 分かっていないということです。母分散さえ分かれば 上と同じような手順が使えますから, そこを何とかすればよいのです。

そこでテキストp.69 の式 (7.5)を思い出すことにしましょう。

$E[s^2] = \frac{n-1}{n}\sigma^2 $

この式は,標本分散の期待値は右辺の量,つまり母分散 に $(n-1)/n$ を掛けたものになるという ことを意味しています。 これを変形して,

$\sigma^2 = E[\frac{n}{n-1} s^2] $

とすると,

$s^2$ に $n/(n-1)$を掛けたものの 期待値は, 母分散 $\sigma^2$ に一致する
と言えます。 このことを,
$s^2$ に $n/(n-1)$ を掛けたものは, 母分散 $\sigma^2$の 不偏推定量である

と表現することがあります。また $\frac{n}{n-1}s^2$ のことを標本不偏分散と呼びます (⇒別の式もあります)。

さて,この標本不偏分散というのは, 期待値が母分散になるような量ですから, これを母分散として扱うことは,手許にある 知識ではとりあえず最も適切でしょう。 そこで,標本不偏分散を母分散の代わりに使って 信頼区間を求めようというのがここでの方針です。

そこで標本不偏分散 $\frac{n}{n-1}s^2$ を 母分散として,上ですでに見た母分散が分かっているときの解法を 真似ることにしましょう。 母分散 $\sigma^2$ が分かっているときには, $\sigma^2/n$ の平方根をとって,それを $\bar{X}$ が正規分布しているときの 標準偏差として, 90% 点と比較したのでした。その方法にならえば, 標本不偏分散 $\frac{n}{n-1}s^2$ を $n$ で割り, その平方根を使って,母分散既知のときと同様の計算をやればよいのです。 ここで, $\frac{n}{n-1}s^2$ を $n$ で割ったものは, $\frac{s^2}{n-1}$ であることに注意しましょう。 結局,この量の平方根を使って,計算を行えばよろしい。

問題に戻りましょう。標本分散 $s^2$ は 7.29 でしたから, $\frac{s^2}{n-1}$ の値は, 7.29 / 29 = 0.251... で, その平方根は 0.501... となります。これが標本平均 $\bar{X}$ の標準偏差に相当するので, 95%点の位置は 0.501... × 1.645 = 0.824... と求められます。 結局,母平均 μ を90% の信頼度で推定すると,その区間は 56.4 ± 0.8, あるいは 55.6 < μ < 57.2 となります。

99% 信頼区間を求める方法はまったく同じことです。この場合も どのパーセント点を使うのかを間違えないようにしましょう。

【母分散が未知の場合(小標本)】

詳述はしませんが,標本の大きさがおよそ20よりも小さいときには, 上のような扱いはできなくなります。つまり,標本不偏分散を母分散と みなすことはできず,t-分布,あるいはスチューデント分布という 分布を使います。ただし,やりかたは大標本の場合と ほとんど同じで,使う表が正規分布表ではなく,t-分布の表に 替わるだけですから,上の手順を飲み込めればすぐにできるでしょう。


仮説と検定:

【やろうとしていること】

この問題の基礎的な部分は,既に何度も出てきている二項分布です(検定 の問題一般の基礎が二項分布だというわけではありません!)。 青と白の花があり,この実験ではF2 における青の出現確率は 3/4 になりますが,それはあくまで確率の期待値であって, ちょうど 全数の 3/4 を中心に裾が広がった分布をします。 その広がりを規定している標準偏差の値は,すでに二項分布で さんざんやりました。

ここでは特に,二項分布を正規分布に 近似して計算するやり方を使うようになっています。→こちらの世論調査のケースを参照。 平均値(期待値)や標準偏差の計算部分については,世論調査の問題でのやり方を参考にしてください。

さて,検定の作業というのは,これまでの標本抽出による母数の 推定などの計算に 比べると,やっていることの内容はずっと簡単です。 つまり,あるデータが「はずれているか」ということだけを問題に するので,一点の比較だけでいいのです。

【今度は両側検定】

テキストに出てきたひょうたん島の最初の事件では, ドンガバチョが在庫品をホゲーXと名づけて,従来品よりも エネルギー消費が少ないと宣伝したわけです。 この場合には分布の左端,つまり従来品の分布の平均よりも 小さい値の10%に 入っていれば,「ホゲーX という商品のエネルギー消費率の平均は,オリジナルの平均に 等しい」という仮説が棄却されるはずでした。 しかし,この仮説は棄却されなったのですが。 上でも書いたように, これは危険率 10% での片側検定と呼ばれます。

しかし,ここで与えられている問題では,アサガオの株の青と白の 数の分布がどうずれるかということについて,あらかじめ予測はできません。 ですから,1% の危険率といっても,右端と左端に 0.5 % 含まれる 裾を考えて,そこに入るかどうかで検定を行います。これを両側検定と 呼びます。

そのため,片側検定と両側検定では,同じ危険率をとっていても, パーセント点の取り方が変わります。たとえば危険率5%なら,


                片側検定 → 95% 点を使う
                両側検定 → 両端の 97.5%点を使う
            

となります。次の図に両者の違いを示します。

image image

以上から,この問題では どのパーセント点を棄却域の範囲決定に使えばよいのかを 判断してください。


$\chi^2$検定を含む総合問題:

この問題の1. の実質は母平均の区間推定そのものですね。本物だったら, 95% の確率でその間に入るだろうということです。 2. は要するに, その区間よりも外側に実際のデータが外れていたら,持ち込まれたものが 本物から抽出されたものであるとは いえないといっても間違う危険は5%以下であるということです。言葉を換えれば, 持ち込まれたものが本物ではないといっても95%大丈夫だといってもよい。

後半は,いうまでもなくテキストのひょっこりひょうたん島の海賊の悪だくみの ストーリーと同じです。


最小2乗法と相関係数:

この問題はテキストの第10章を追った流れになっています。長いですが, 求められていることに従って淡々と計算を進めていけばできるはずです。

最初に求めさせているのは $x, y$ の分散,およびこれら2つの変数の共分散で,これらから相関係数 $\rho_{xy}$ が求められます(式(10.3))。 さらに, これらと $x, y$ それぞれの平均値をも使えば,最小2乗法 による回帰直線の係数 $a, b$ を求めます(式(10.11),(10.12))。 ここまでの計算では,与えられているCSV ファイルをエクセル(か適当な表計算ソフト)に取り込んで, 平均や分散,および共分散を計算していってください。なお,共分散の計算方法は, p.110 の式(10.2) のあたりの解説にあるように, $x, y$ の積の平均 $\frac{1}{n}(x_1\times y_1 + x_2\times y_2 + \ldots + x_n\times y_n)$ から $x$ の平均と $y$ の平均の積 $\bar{x}\times \bar{y}$ を引いて得られます。

最後に相関の有無の検証を行います。ここで求めさせている $T$ という量は,テキストに あるように, データ数 $n$ と相関係数から簡単に計算できます。その後,$T$ を $t$ - 分布表から必要な自由度における $\alpha = 0.01$ となる 点(99パーセント点)と比較してみて,$T$ がその外側に外れているとなれば, 相関がないという仮説は棄却できることになります。


CSVファイルを活用する:

CSV (Comma Separated Values) ファイルというのは,(英文の)文字通りに カンマでデータを区切って作られた,下のような形のテキストファイルのことです。 一般に拡張子としては .csv が使われます。 この形式のファイルは簡単に作成できて,しかもどの表計算アプリケーションでも 扱えるので,作り方を知っておくと非常に便利です。 練習として次のように作業をしてみてください。

  1. エディタ(Emacsやメモ帳など)を立ち上げる
  2. 次の5行をコピー&ペーストしてエディタに貼り付ける
    45.5,22
    35.6,40
    56.2,31
    61.3,28
    70.5,8
                        
  3. test.csv というファイル名でファイルを保存する。
  4. 保存したファイルのアイコンをダブルクリックする。これで Excel (またはそのPCにインストールされている他の表計算アプリケーション)が起動するはずです。
  5. 必要な計算処理を行う
  6. 結果を保存したいのであれば,CSV ファイルではなく,そのアプリケーション本来の 形(Excel なら xls 形式)に「名前を付けて保存」する

これで要領をつかんだら,他の問題にも使ってみるとよいでしょう。このテクニックは 応用が利くので覚えておいてください。



平方根を求めるには

標本不偏分散

この量は s2 の定義を使うと,次の式のようにも表せます。 \[ \frac{1}{n-1}\{ (X_1-\overline{X})^2 + (X_2-\overline{X})^2 + \cdots + (X_n-\overline{X})^2 \} \]

つまり標本不偏分散を求めるには, 標本分散 $s^2$ に $n/(n-1)$ を掛けてもよいし,上の式のように 偏差の二乗の和を $(n-1)$で割ってもよろしい。なお, Excel では STDEV という関数で標本不偏分散が 直接に与えられるようになっています。