外れ値の梅雨明けデータ

一昨日の6月29日,2018年の関東地方の梅雨が明けた,そうだ.
観測史上,6月に梅雨明けするのは初めて,だというから,今年の記録はしばらく「外れ値」となることが決まった,という意味でもある.
何回か,梅雨がいつ明けたのかわからないという年もあった.これは,「データなし」として記録されたはずである.

「外れ値(はずれち)」は,「例外」という要素をもつ.
だから,「例年」という「平均」を表現するときには,これを除外しないと,データの数がすくなければすくないほど,外れ値の影響がおおきくなって,「平均値」を狂わしてしまうこともある.

そもそも,ふつう「平均」という言い方をしているのは,「『算術』平均」のことである.
データの数字をぜんぶ足して,データの個数で割ることで算出される.
計算方法が簡単だから,たいへんよくつかわれているし,あることを調べようとしたときに,元のデータの特徴をしめす方法として重宝されている.

「平均売上」や「平均人数」などは,経営指標としても典型的な数字だ.
学校では,「平均身長」や「平均点数」を例に学習するのが定番である.
ここで,外れ値も習うのだが,どういうわけか「実務」で忘れられてしまうことがおおい.
地震や水害などで生じた「特別な数字」が,機械的に「平均」の計算につかわれて,自社の業績が理由なく悪化しているように見えることがある.

そこで,外れ値をいれて計算するのと,外れ値をはずして計算することで比較して,外れ値の効果を確認しないといけない.
しかし,いまはたいがいパソコンの表計算ソフトをつかうから,グラフ化させれば視覚的に理解できる.

また,表計算ソフトには,「平均(mean)」のほかに,「中央値(median)」や「最頻値(mode)」も自動計算して表示する機能があるから,これらも加えて表示するとすこぶるわかりやすい.
「外れ値」が「平均値」をゆがめた状態が,「中央値」でみると納得できるだろう.
だから,経営数字の表現には「グラフを使う」のが常識になっている.

自然界での現象のデータをたくさん集めてグラフにすると,きれいな釣り鐘型になることが確認されている.
どうして?
なぜかわからないけど,不思議なことにきれいな釣り鐘型になる.

たとえば,人間の身長のデータ,全国一斉テストの点数とかは,きちんと「釣り鐘型」になる.
これを応用したのが「偏差値」なのだが,「偏差値」で痛いめにあう割りに,「偏差値」がしめす意味をしらないことがおおいのも,不思議なことだ.

算術平均をいつものように計算して,それぞれのデータがこの「平均」からどれほどズレているかをみるために「データ-平均」を計算する.これは「偏差」というので,「偏差」の平均が「標準偏差」と呼ばれるものだ.
これから「偏差値」が計算できる.詳しくはこちらをどうぞ.

さて,天気も経営も,重要なのは「予測」である.
そこで,過去の数字から将来の数字を予測するための手法がかんがえられた.
これを「回帰分析」といったりする.
関数電卓の機能解説にある,「二変数統計計算」がそれだ.

数年間の売上高と営業利益などを「二変数統計計算」してみて,相関関数が0.8以上だったら,「つかえる」から,今年や来年の「予算」にすることもできるかもしれない.
ところで,計算からでた数字をそのままつかっては「能が」ない.
これよりも「上回る」数字,すなわち「外れ値」を目指す!というてがある.
簡単便利な方法なのだが,このやり方で成功すると,たまったデータが外れ値ばかりなるから,簡単便利な方法は,やっぱり長くつかえない.

ことしの夏は,梅雨明けが異常に早かった分「長い」はずだから,例年比較で「外れ値」だらけになる可能性がある.
すると,来年になって,今年の経営データをどのように使うか?
かなりむずかしい問題を解かなければならなくなるから,いまのうちから「日記」でもつけて,「例年とのちがい」を記録しておかないと,かならず困ることになる.

この「日記」のことをふつうは「日報」と呼ぶ.
どんな「日報」を蓄積することができる組織なのか?
ここが,実力差の出発点なのである.

コメントを残す

メールアドレスが公開されることはありません。

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください