理系の理系による理系のためのブログ

理系以外の人も大歓迎です。

東進数学特待日記 統計の前編(17章・18章)

どっかの塾の公開テストで全教科ひどい点数をとって悲しんでいる里得木だよ。
真面目に勉強しないとだね。
ということで、久しぶりに数特日記を書こうと思うよ。
復習大事だもんね......

「東進数学特待日記」シリーズでは、数学特待生として東進の数学の授業を受けた感想を書いている。
数学特待制度についてはこちらの記事を見てほしい。
※あくまで、メモである。(見やすくは作っていない)

数学ではなく統計学だということが強調されていた。
完全な証明は現段階ではできないから、直観的な理解で我慢してねということだった。
あと、高校の統計学は用語の暗記ばっかりなので、データを分析するといった楽しいことは大学のお楽しみだそう。
楽しみ~。
ということで、用語を覚えていこうと思う。
ただ、いくつかは第12章 確率変数と期待値・分散で扱っているので説明が適当です。

すべての確率変数Xにそれが起きる確率P(X)をかけたものの総和をXの「期待値」という。(期待値を平均ということもある。)

その平均をmとおいたときに、「Y=(X-m)²」となるYの総和を「分散」という。(一般的には、分散が小さいと平均に偏ったグラフに、平均によった大きいと平均から遠いところに多く分布しているグラフになる。)

この、「分散」は値が大きすぎるということや単位がわかりにくい(単位が2乗?)であるため、「標準偏差」が用いられることがある。(「標準偏差」は「分散」の正の平方根のことである。)(そして、「分散 = 確率変数の2乗の平均 - 確率変数の平均の2乗」という公式は計算を楽するうえで非常に便利である。)

あと、データの整理をやった。
主に、箱ひげ図だ。

上を例にすると、

左の縦棒が最小値
箱の左端が第一四分位数(データを小さい順に並べたときの下四分の一のラインの値)
箱を区切っているところが中央値(第二四分位数)
箱の右端が第三四分位数(データを小さい順に並べたときの上四分の一のラインの値)
右の縦棒が最大値
プラス記号が平均(ないことも多い)

最大値-最小値=範囲
第三四分位数-第一四分位数=四分位範囲

値-平均=偏差
偏差の2乗の平均=分散
分散の平方根=標準偏差

A「数学が得意な人は理科もできるよね」
B「絶対そうというわけではないけど、そういうことが多いよね」
という会話を数学的に考える。

「一方が大きくなるほど、もう一方も大きくなる」という関係があるとき「正の相関がある」といい、
「一方が大きくなるほど、もう一方は小さくなる」という関係があるとき「負の相関がある」という。

片方のデータの偏差ともう片方のデータの偏差の積の平均を「共分散」という。
そして、
「相関係数」=共分散/(片方のデータの分散×もう片方のデータ分散)
が成り立つ。

相関係数は-1から1の間の値をとり、-1に近いとき負の相関があるといい、0に近いとき相関がないといい、1に近いとき正の相関があるという。

お次は18章の内容。
100回サイコロを投げて偶数が出る回数を確率変数Xとすると、
Xは二項分布B(100,1/2)に従う
という。
このように1回の試行で起こる確率がpの事象をn回繰り返した時にその事象が起こる回数Xは二項分布(n,p)に従う。

正規分布というのがあって、それは、正規分布N(m,σ²)
意味は(平均,標準偏差²)
で表される。
N(0,1)については標準正規分布という名前で知られていて、中心からどれだけずれたら面積(正規分布では確率が面積で表せれる)がわかるという表がある。

そして、二項分布B(n,p)に従う確率変数Xは正規分布(np,npq)に従う(q=p-1)。
さらに、確率変数Xが正規分布(m,σ²)に従うとき、z=(X-m)/σで定義される確率変数Zは標準正規分布に従う。
これを使うと、

100回サイコロを投げて偶数が出る回数を確率変数Xとするとき、40≦X≦60となる確率を求めよ。

ができるはず。

ということでやってみよう。

確率変数XはB(100,(1/2))に従うので、
正規分布N(50,25)にも従う。
Z=(X-50)/5
とすると、
P(10≦X≦20)
=P(-10≦X≦10)
標準正規分布は左右対称なので、
=2×P(0≦X≦10)
=2×0.3413
=0.6826
ということで出ました。

ばいば~い。