実データを用いてSpreadsheetでデータのdescribeを見るのは普段から行うけれども、いざ度数分布表を使って計算しろと言われると頭にハテナ記号が浮かんでしまい…ダメだなと思ったのでメモを。
度数分布表から中央値を算出 🔗
用語は間違っているかもしれませんが、何となくこんな感じ。
$階級区間の初期値+階級幅*\frac{中央値となる度数-一つ前の階級までの累積度数}{度数}$
例えば以下の表で中央値を求める場合、中央値となる63番目の値は階級8に含まれるため
階級 | 階級幅(以上-未満) | 階級値 | 度数 | 累積度数 |
---|---|---|---|---|
1 | 45-50 | 47.5 | 3 | 3 |
2 | 50-55 | 52.5 | 4 | 7 |
3 | 55-60 | 57.5 | 6 | 13 |
4 | 60-65 | 62.5 | 3 | 16 |
5 | 65-70 | 67.5 | 7 | 23 |
6 | 70-75 | 72.5 | 14 | 37 |
7 | 75-80 | 77.5 | 24 | 61 |
8 | 80-85 | 82.5 | 30 | 91 |
9 | 85-90 | 87.5 | 27 | 118 |
10 | 90-95 | 92.5 | 7 | 125 |
11 | 95-100 | 97.5 | 1 | 126 |
$80+5*\frac{63-61}{30}$
となる。これは中央値が入る階級幅5の中で度数30に対し、何番目に位置するかという情報を基に概算で求めている事を意味している。