統計学のきほん

データのバラツキ示す「分散と標準偏差」が統計のキモ

本丸諒・サイエンスライター
  • 文字
  • 印刷

 平均値だけを見ていると、全体の姿(分布)を見誤る可能性があります。「データ全体のバラツキ状態」がわからないからです。データのバラツキ度を数値で示すのが「分散」と「標準偏差」です。平均値に加えて標準偏差と分散のいずれかがわかると、統計学を使う分析の“出発点”に立つことができます。今回は、分散と標準偏差の考え方の基本を身に着けます。

 下のグラフは、いずれも平均値が同じ三つのデータです。データのバラツキ具合は、Cが一番大きいことは一目瞭然です。このバラツキ具合を数値化できれば客観的に比べられ、データの全体像も見えてきます。バラツキ具合の数値化はとても重要です。

 まず、バラツキ具合を数値化するために、平均値との差(偏差といいます)を数える方法があります。各データについて、「データ1-平均値」「データ2-平均値」というように差を取っていけば、平均値に比べてそれぞれがどのくらい離れているかがわかります。

この記事は有料記事です。

残り1403文字(全文1805文字)

本丸諒

サイエンスライター

横浜市立大学卒業後、出版社に勤務。主にサイエンス分野の書籍を手掛け、月刊のデータ専門誌編集長を務める。独立後、編集工房シラクサを設立。日本数学協会会員。著書に「文系でも仕事に使える統計学はじめの一歩」(かんき出版)、「マンガでわかる幾何」(SBクリエイティブ)、「意味がわかる微分・積分」(ベレ出版)などがある。