(300万の人が口説く為に『俺たちの平均年収は1270万円』とか言っても嘘ではないのですな・・), 上の年収のデータでは中央値が300万円になるので、極端な外れ値を含むデータの中では 中学3年生の身長は、ある特定の場所(150〜154)に集中している。2. 中央値も外れ値に強いが、平均値はやや敏感である。 連続な単峰性分布では、経験則として、平均値から最頻値の方に3分の1ほどのところに中央値がある。式で表すと「中央値 ≈ (2 × 平均値 + 最頻値)/3」と … * 年収500万円から年収1000万円 1人 平均値,中央値,最頻値の意味と計算方法を解説します。いくつかの具体例を通じてそれぞれのメリット・デメリットを見ていきます。 平均値の求め方と例. 平均値も間違った値ではありませんが、今回のケースであれば「トラックの使用年数が古いことをアピールして新しいトラックに買い換える」ことが目的なので、交渉の際には「中央値」と「最頻値」を用いてアピールすればいいことがわかりました。 (街コンとかで男性10人がいるとか考えてみてください。。。), 平均値を算出すると平均年収は1270万円になります。 Why not register and get more from Qiita? * 年収1000万円以上 1人, とかだと最頻値による分析はできなくなってしまいます。 * 年収300万円から年収500万円 1人 平均値も間違った値ではありませんが、今回のケースであれば「トラックの使用年数が古いことをアピールして新しいトラックに買い換える」ことが目的なので、交渉の際には「中央値」と「最頻値」を用いてアピールすればいいことがわかりました。 What is going on with this article? 平均よりも集団の特徴を捉えている数値と言えそうです。 ここでは度数分布表とヒストグラムを理解することによって、データの階級分けを学んでいきます。 まず、中学3年生の身長を調べるために100人分のデータ(架空値)を使ってみましょう。 データの集団には「分布の特性」と呼ばれる何らかの特徴があります。 「平均」とはすべてのデータを足してデータの数で割ったものです。 「中央値」とはデータを小さい順に並べたデータのちょうど中央にあるデータのことです。 「最頻値」は「モード」ともよばれ、最も頻度が高い値(一番多く出現している値)を指します。 平均値、中央値、最頻値のどれを見るべきか?, 平均値(mean,average)とは、データの総和をデータの個数で割ったものです。, 問題は、ほとんどの人が、データを要約するために平均値を利用してしまうということです。上で紹介をしたように、平均値はデータが左右対称でない限り、意味のある要約ではありません。, 2016年の日本の2人以上の世帯の貯蓄額の平均値は1820万円ですが、同じく総務省統計局によると、各世帯の貯蓄額は以下のように分布をしています。, この図を見て分かるように、貯蓄額の分布は大きく右に歪んでいます。そして貯蓄額4000万円以上といった、「外れ値」と呼ばれる、他のデータに比べて大幅に大きい値が存在します。, 平均値は、このように貯蓄額4000万円以上といった極端な値の影響を非常に受けやすいのです。, 例えば、日本の2人以上の全世帯から10世帯を抽出したとして、その10世帯の貯蓄額が以下のように分布していたとします。, この10世帯の平均値を計算すると、2450万円となります。このように、平均値は極端な値が一つあるだけでそれに引きずられ、実態を反映しない要約になります。, 平均値を考える際は、データの分布が左右対称になっているものなのか?極端な値がないか?を意識することをお勧めします。, 中央値は50パーセンタイルとも呼びます。50パーセンタイルは、データを最小値から順番に並べた時に、ちょうど50%のところに位置する値のことです。, 世帯所得のように、歪んだ分布を持つデータを要約する際には、平均値よりも中央値を利用するのがベターです。, この10世帯の中央値は550万円です。このデータの個数は偶数ですから、データを最小値から最大値まで順番に並べたときちょうど真ん中に来るのは500万円と600万円となり、中央値はその平均(500万+600万)/2 = 550万となるわけです。, 比べてみると一目瞭然、平均値は2億円という外れ値に大きく影響をされているのにないし、中央値は外れ値の影響を受けません。これを「中央値は外れ値に対しロバストである」と言います。, このように、データの分布が左右対称でない場合や、外れ値が存在する場合には、平均値よりも中央値の方が実態を理解するために優れた要約値であると言えます。, なお、正規分布や一様分布のように、データが完全に左右対称である場合、平均値と中央値は一致します。, 改めて以下のように日本の2人以上世帯の貯蓄額の分布を見てみると、一番多いのは貯蓄が100万円未満の世帯で、なんと全体の10%以上になります。つまり最頻値は「0円〜100万円」ということになります。, 最頻値を見る際、このデータのように数値が連続型に近い場合、一定の区間ごとに区切って、最も頻繁に数値が出現する区間を見ることが一般的です。, つまり、貯蓄額の場合は「0円の世帯」「1円の世帯」「2円の世帯」などと1円単位で数値を見てもキリがないので、100万円ごと、または10万円ごと、などの区間に区切るのです。, データを理解する際、まずは平均値、中央値、最頻値などの要約を見るだけでなく、できる限りデータの分布を見るようにすることをお勧めします。, このデータは作ったもので、実際のデータではありませんが、実際の学校でのテストにおいても、点数がこれと似た分布をすることは多いです。, このデータの平均値と中央値は上記のようになりますが、このデータはバイモダルと呼ばれる頻出するデータの山が2つあるタイプの分布なので、分布を見ることなしに平均値と中央値を見ても、それだけではデータを理解することが難しくなります。, 度数分布表を見ると45〜50点の間に18人、75〜80点の間に18人と、多くの人が集まっていて、その間の60〜65点には1人しかいないことが分かります。, つまり平均値の62.61点や中央値の61.21点といった値だけを見ても、データ全体の良い要約とは言えませんね。, このように、データを理解する際は、平均値だけに惑わされるのではなく、できる限りその分布を見て、何が起こっているのかを把握することが大変大切です。, ほとんどの人はデータの分布を見る習慣がないので、その1点を意識するだけで他の人に比べてデータを理解する力が格段に上がりますよ!, 統計ドットリンクでは広告出稿をご希望のスポンサー様を募集しております。ページビューなどは、「お問い合わせ」からご連絡ください。, 以下からFacebookページをフォローもしくは、メールマガジンへの登録をすると、更新情報、勉強会、講習会、交流会の案内など各種情報を受け取ることができます。, 統計ドットリンクでは、理系の大学生、大学院生、第二新卒の就職や転職を応援しています。職業訓練、求人やエージェントなどの必要な情報を選別し、紹介しています。, 平均値(mean)、中央値(median)、最頻値(mode)とは何か?それぞれの違い。, 単純無作為抽出(Simple Random Sampling)とは何か?標本(サンプル)の抽出方法。. ここでは度数分布表とヒストグラムを理解することによって、データの階級分けを学んでいきます。 まず、中学3年生の身長を調べるために100人分のデータ(架空値)を使ってみましょう。 データの集団には「分布の特性」と呼ばれる何らかの特徴があります。 平均値、中央値、最頻値のどれを見るべきか? データを理解する際、まずは平均値、中央値、最頻値などの要約を見るだけでなく、できる限りデータの分布を見るようにすることをお勧めします。 例えば、以下はある100名のクラスのテストの点数の分布です。 https://archive.ics.uci.edu/ml/machine-learning-databases/00320/, you can read useful information later efficiently. By following users and tags, you can catch up information on technical fields that you are interested in as a whole, By "stocking" the articles you like, you can search right away. 「中央値」とはデータを小さい順に並べたデータのちょうど中央にあるデータのことです。, 「最頻値」は「モード」ともよばれ、最も頻度が高い値(一番多く出現している値)を指します。, 「四分位数(しぶんいすう)」とはデータを小さい順に並び替えたときに、データの数で4等分した時の区切り値のことです。4等分すると3つの区切りの値が得られ、小さいほうから「25パーセンタイル(第一四分位数)」、「50パーセンタイル(中央値)」、「75パーセンタイル(第三四分位数)」とよびます。, また、75パーセンタイル(第三四分位数)から25パーセンタイル(第一四分位数)を引いた値を「四分位範囲」とよびます。, ■四分位数の求め方(データの数が奇数個の場合:2.2 2.8 3.0 3.4 3.5 3.8 4.0 4.2 4.2 4.7 5.5), 中央値を求めるデータの数は全部で11個なので、小さい順に並べ替えたときの6番目の値が中央値になります。したがって「3.8」です。, 中央値でデータを2つに分ける小さい値のグループと大きい値のグループに分けます。ただし、データの数が奇数であり、中央値である6番目の値「3.8」はどちらかのグループに分けることができないため、「3.8」を除いて2つのグループに分けます。それぞれのグループには5個ずつのデータが含まれています。, 2つに分けたデータのうち小さい値のグループを使って中央値を求めるデータの数は全部で5個なので、小さい順に並べ替えたときの3番目の値が中央値になります。したがって「3.0」です。, 2つに分けたデータのうち大きい値のグループを使って中央値を求めるデータの数は全部で5個なので、小さい順に並べ替えたときの3番目の値が中央値になります。したがって「4.2」です。, 第一四分位数 3.0第二四分位数 3.8第三四分位数 4.2四分位範囲 4.2-3.0=1.2, ■四分位数の求め方(データの数が偶数個の場合:2.2 2.8 3.0 3.4 3.5 3.8 4.0 4.2 4.2 4.6 4.7 5.5), 中央値を求めるデータの数は全部で12個なので、小さい順に並べ替えたときの6番目と7番目の値の平均値が中央値になります。したがって「{3.8+4.0}÷2=3.9」です。, 半分に分ける小さい値のグループと大きい値のグループに分けます。データの数は偶数の12個なので、6番目の値「3.8」は小さい値のグループに、7番目の値「4.0」は大きい値のグループに分けられます。それぞれのグループには6個ずつのデータが含まれています。, 2つに分けたデータのうち小さい値のグループを使って中央値を求めるデータの数は全部で6個なので、小さい順に並べ替えたときの3番目の値と4番目の値の平均値が中央値になります。したがって「{3.0+3.4}÷2=3.2」です。, 2つに分けたデータのうち大きい値のグループを使って中央値を求めるデータの数は全部で6個なので、小さい順に並べ替えたときの3番目の値と4番目の値の平均値が中央値になります。したがって「「{4.2+4.6}÷2=4.4」」です。, 第一四分位数 3.2第二四分位数 3.9第三四分位数 4.4四分位範囲 4.4-3.2=1.2, 箱ひげ図とは、データの分布を「箱」と「ひげ」で表したグラフのことで、データの分布の様子をおおざっぱに把握することができます。, 箱を描くためには「第一四分位数」、「第二四分位数(中央値)」、「第三四分位数」の情報を使います。箱の下端が「第一四分位数」を、箱の上端が「第三四分位数」を、箱の中央を横切る線が「第二四分位数(中央値)」を表します。, 箱の上と下に「ひげ」を描きます。ひげの長さは、箱の高さ(四分位範囲)の1.5倍以下の範囲にあるデータの中で、, 最後に、ひげの範囲から外れたデータを「〇」もしくは「×」で示します。このようなデータは「外れ値」とよばれます。, 機械学習(マシーンラーニング)、AI、ブロックチェーン、統計、データサイエンティスト、データ集計、言語としてのPythonを勉強中です。. 最頻値とは何か? ピークが真ん中にある, ヒストグラムは、データ集団のだいたいの中心がどこか、範囲がどの程度か、分布の様子、ピークがいくつあるか、異常値がないか、といったことが視覚的にわかることが利点です。, このように度数分布表にまとめてしまうと、個別のデータ値の情報が隠され、見えなくなってしまいます。しかしその代わりに、度数分布表にまとめヒストグラムに表現することで上記のような特徴をみつけることができました。, 上記例ではヒストグラムの横軸に身長という量的データを取り扱ってきました。衣料品メーカーであれば、入学式や卒業式など、同一学年のイベント衣服をビジネス展開するのに、どのサイズの在庫量を多くすればよいのかのヒントになります。, 具体的には、度数がもっとも多い階級のサイズを多めに準備すればよいことがわかります。, また、幼稚園の入園式と高校の入学式では身長に差があるため、それぞれのヒストグラムの様子は変わったものになるでしょう。横軸を同一にしてヒストグラムを展開したときには、ピークが左右にふれます。, ここで、ヒストグラムを使うときの注意点を述べます。最初に、階級の設定についてです。, 広すぎでも狭すぎてもピークがどこにあるのか探しにくくなります。グラフ化したときに特徴がつかめなければ、階級の幅を変更するなど工夫をして、ほどよい設定を見つけ出しましょう。, 次に、ヒストグラムの形です。複数のピークが見られることもあります。また、左右のばらつきに偏りがあり、歪んだ分布をする場合もあります。このように複数のピークや歪んだ形のときには、その背景を探るようにすれば、新たな特徴の発見につながります。, 人間の身長や体重は、年齢などの条件をそろえてもみんな同じではありません。目的に応じて取得する分析のためのデータは、一つひとつをみれば大小さまざまな値の集合であり、これを統計用語では「分布する」と呼びます。データが分布する背景には、何かしらの固有の癖があり、そのデータの特徴をとらえるために統計学が発展してきました。, では、どのようにしてその特徴をとらえればよいのでしょうか。まずは、データ集団をなんらかの序列にそって並べ替えてみましょう。そうしてから、その集団を代表する値を決めていけばよいのです。, 分布の特徴を「分布の特性値」とよび、なかでも「中心的傾向の特性値」といわれるものは3つあります。最も一般的なものに平均値、メディアン(中央値)、モード(最頻値)です。, 母集団のなかに他と大きく値が異なる「外れ値」がある場合、平均値は大きく影響をうけるので別記します。ここでは、外れ値からの影響をうけないメディアン(中央値)とモード(最頻値)について解説します。, 分布の特徴を示す特性値のなかでメディアン(中央値)と呼ばれるものは、データを大きさ順にならべたときに真ん中に位置する値です。, ・標本が偶数の場合 データを大きさ順にならべ、全体を半分にわける境にある2値の中点を計算します。足して2で割った値を使用します。, 分布の特徴を示す特性値のなかでモード(最頻値)と呼ばれるものは、度数分布表の階級のなかでもっとも度数が多いデータ値です。ヒストグラムのピークに該当する部分です。その階級で上下の値の算術平均を階級値が、そのまま最頻値になります。, 分布の代表値としてモードを使う場合には、注意点があります。モードは階級の度数が重要になるため、階級の分け方により変わってしまいます。また、ピークが1つではなく複数あり同じ度数の場合には、最頻値を決めることができません。, ピークの値が異なる場合にも、その集団をあらわす代表値だと言い難い場合もあります。加えて、サイコロのように同じ確率で出現する分布の場合にも最頻値を使うことはできません。, 分布の特徴を示す特性値のなかで、平均値と呼ばれるものは日常的によく使われています。2つのデータの間の値を示す平均値ですが、足して割るだけではない平均値があることをご存知でしょうか。用途によって使い分けられるよう、4つの平均値について解説します。, 一般的に平均として知られているものは、算術平均です。データの合計をデータ数で割った値です。, n個の数を掛けてn乗根にした値で、成長率を平均するときなどに利用します。例えば、ある商品が爆発的にヒットをとばし、2年目に200%増の売上を達成したものの、3年目に72%減少した事例で説明をします。この場合3年目の売上は、1年目と比較して144%となります。2年間の平均20%増で、120%×120%=144%となります。, その商品の売り上げの伸びを幾何平均で考える計算式は、√(2.0×0.72)=√1.44=1.2 となり、平均20%の伸びだということがわかります。このとき算術平均をしてしまうと、(2+0.72)/2=1.36となり、平均36%の伸びと算出されますがこの値は誤りです。, 平均したい数値を2乗して合計し個数nで割る値を平方根して算出します。輸送機関の時刻表に対する到着時間との差分を算出したいときなどに利用します。, 2分の遅れも2分早く到着することも、時刻の乱れがあることに違いはないのですが、プラスマイナスがあるまま算術平均をすると相殺してしまいます。このような場合には、2乗することでマイナスをなくして計算をおこなう二乗平均がふさわしいのです。, いかがでしょうか。すべての値が異なることがわかります。扱うデータの意味を考え、最適な平均値を使い分けることが大事です。, 分布の特徴を示す特性値が話題になるのは、世帯別所得がニュースになる場合です。厚生労働省の平成28年国民生活基礎調査の概況資料から図を掲載します。, 所得は正の値しかとらず、上限は所得の大きいほうに引っ張られています。この分布の平均は545.8万円となっていますが、実は過半数の人はこの平均値を超えていません。平均所得金額以下の世帯は61.4%もあるのです。, このように、値が大きい(もしくは小さい)データに引っ張られる分布のときに使われるのが中央値です。中央値は428万円で、外れ値があても影響されにくいことがよくわかります。, また、頻度をみてみると「200〜300 万円未満」が13.7%であり、最も割合の多い階級になります。したがって、最頻値は250万円です。このように、L字型分布の場合、分布の特性値はバラバラになります。, ここで、度数分布表での平均値を計算してみましょう。上記の平成28年国民生活基礎調査の概況(厚生労働省)から参考表8を掲載します。, しかし、各階級に存在するデータ全部が階級値と同じだ、と考えましょう。階級140-150階級値145のなかで度数が6であるならば、本来は【141、144、145、146、147、149】であったとしても、145が6つあるとみなすのです。, 平均値=((階級1の階級値)×(度数)+(階級2の階級値)×(度数)…÷(総データ数)   =(階級1の階級値)×(階級1の度数)÷(総データ数)+ (階級2の階級値)×(階級2の度数) ÷(総データ数)…   =(階級1の階級値)×(階級1の相対度数)+(階級2の階級値)×(階級2の相対度数) …   =(階級値)×(相対度数)の合計になります。, その結果は、534.1万円となりました。ここで、元のデータの平均値545.8万円と比較してみると、大きなずれはありません。, 度数分布表にまとめヒストグラムにすると分布にはさまざまな形があり、左右対称にならない場合には、中央値、最頻値、平均値の値に差があることがわかっています。そのような場合には、分布の広がり具合に着目してみましょう。, 特急列車の時刻表と到着時刻を例にあげます。通勤時間帯の特急列車は、時刻表7時00分より平均値として1分遅れることがわかりました。しかし、それだけで列車の信頼性を決めることはできません。到着時刻にはばらつきがあるからです。そこで、標準偏差をもとめると約2.6分だとわかりました。言いかえれば、列車は平均到着時刻7時01分から前後2.6分ほどの間に散らばって到着する、といえます。, このように、幅をもって値が分布していることを話題にするとき、統計用語で「変動の特性値」と呼びます。代表的なものを3つあげます。, 変動の特性値1:分散データと平均値の差を2乗して合計し個数で割る値で、平均値からどの程度離れているのかを示す。2乗しているので値は大きくなりがちで、もとの値と単位が異なる。, 変動の特性値2:標準偏差分散の平方根の値で、もとの値と単位が同じくなるので直観的に理解しやすい。, 変動の特性値3:変動係数標準偏差を平均で割った値で、異なる標本のばらつきを比較するのに利用する。, 3分遅れたり3分早く到着する列車と、10分遅れたり10分早く到着する列車では、ホームに到着する心構えが異なります。基準時刻に対してプラスマイナスがあると、算術平均ではその値が小さくなってしまい意味をなしません。, そのような場合には、ばらつきの幅を知る「分散」を使います。分散の算出方法は、まずデータと平均値との差「偏差」を求めます。, 次にプラスマイナスをなくすため偏差を2乗して足し「変動」をもとめ、最後に個数で割ることで算出します。2乗することで、小さい差はより小さく、大きい差はより大きく表現されます。, 分散は値の2乗を平均しているため、元の数値と単位が変わっています。そこで、分散を平方根し算出した値を「標準偏差」と呼びます。, この標準偏差は、平均値の二乗平均と同じものです。標準偏差は元のデータと同じ単位を持つため、平均値+標準偏差といった算術をすることができます。, 偏差=(データ値)-(平均値)分散=((偏差の2乗)の合計)÷(データ数)標準偏差=√(分散). また、データの幅を以下のように変えると, 今度は最頻値が出て来ます。データを適切に区切らないと最頻値は様相をコロコロ変えてしまうので注意が必要です。, 今回は統計を勉強し始めると必ず出てくる『平均』『中央値』『最頻値』についてまとめてみました。 データの代表値は「平均値(ミーン)」「中央値(メジアン)」「最頻値(モード)」の3つがありますが、こんな疑問を抱いたことはありませんか?, 確かに、平均値を使う場面はよく見かけますが、実はそれだけではデータの分析は上手くいきません。, よって本記事では、平均値・中央値・最頻値のメリット・デメリットを、具体例 $3$ つを通して, まず、はじめの $5$ 人の平均点は $\displaystyle \frac{5+6+9+8+4}{5}=6.4$ 点です。, ここで、$6$ 人目を加えた平均点をあらためて求めてみると、$\displaystyle \frac{5+6+9+8+4+100}{6}=22$ 点となります。, ただ、平均点は外れ値(極端に大きいまたは小さい値)の影響を受けやすいことは、ほとんどの場合デメリットとして働きます。, 詳しくは「四分位範囲・四分位偏差・四分位数とは?【意味や求め方をわかりやすく解説します】」の記事をご覧ください。, さて、中央付近しか考えないことにより、たとえば例題 $1$ における中央値の変化は, (1)では、中央値は変わらず $50$ 点のままですが、$70$ → $100$ 点まで $30$ 点アップした生徒の努力が全く反映されていません。, また(2)では、中央値は $50$ → $65$ 点まで $15$ 点アップしていますが、実際に点数が上がった生徒はたった $1$ 名で、他 $2$ 名の点数は下がっています。, 平均値であれば、(1)の平均値は上がり、(2)の平均値は若干下がるため、データの変化を上手く表せていますね。, そこで、外れ値を一切無視できるような代表値である「最頻値(モード)」を考えることにします。, 日本は民主主義ですし、データの分析においても「多数こそ最強だ」と定義したわけですね。, 途中、政治の話に行きかけましたが、データの個数が $100$ 個、$1000$ 個と多くなければあまり意味がない、という点では民主主義と近い部分があるかもしれませんね。, 先の章では、すべて「数学のテストの点数」という例で考えてみましたが、ここからはより一層深い内容にしたいため、もっといろんな例を使って考えていきたいと思います。, さて、テストの点数や身長・体重など、自然的に発生するデータはほとんど「正規分布(せいきぶんぷ)」に従います。, また、正規分布において平均値・中央値・最頻値はほぼ一致するため、「どれを採用するか」は正直あまり重要ではありません。, それが「分散(ぶんさん)」や「標準偏差(ひょうじゅんへんさ)」と呼ばれる数値です。, おそらく、平均年収 $441$ 万円と聞いて、「え…高くね?」と思った方が大半だと思います。, これは、資本主義の国ではよくあることなのですが、一部の大富豪によって平均年収が大きく底上げされてしまうのです。, しかし最頻値である $200$ 万 ~ $300$ 万だと、今度は低く感じると思います。, こういう場合、中央値である $360$ 万円ぐらいが、大多数が納得できる数値となります。, カイ二乗分布やt分布は、大学の統計学においてよく登場するので、気になる方はこちらをどうぞ, もしこういう場合、平均値や中央値である $25 \ (\mathrm{cm})$ の靴を仕入れた方が良いでしょうか?, 違いますよね。一番売れる $26 \ (\mathrm{cm})$ を絶対に仕入れるべきです。, 次は $24 \ (\mathrm{cm})$ です。$25 \ (\mathrm{cm})$ は売れないのならいらないです。, このように、データの分布とか関係なく、一番個数が多いものを重視したい場面もあります。, つまり、「最頻値(モード)」が、店の売り上げにおいては一番重要な指標となるわけです。, 数学Ⅰ「データの分析」の全 $18$ 記事をまとめた記事を作りました。よろしければこちらからどうぞ。, ウチダショウマ。数学が大好きな25歳男性。東北大学理学部数学科卒業→教員採用試験1発合格→高校教師になるも、働き方に疑問を感じわずか1年で退職。現在は塾講師をしながら、趣味ブロガーとして活動中。楽しい。, 確認画面は表示されません。上記内容にて送信しますので、よろしければチェックを入れてください。, 例題1.$5$ 人が数学のテストを受けた結果、点数は$$5 \ , \ 6 \ , \ 9 \ , \ 8 \ , \ 4$$点だった。ここで、もう $1$ 人同じ数学のテストを受けた。結果は $100$ 点だった。平均値について思うことを述べなさい。, $100$ 点を取った生徒のおかげで、$6$ 人全体の平均点が約 $16$ 点アップしたという、変化がわかって面白いね。(メリット), でも、$100$ 点を取った生徒以外が「僕たちの平均点は $22$ 点だ!」と自信満々に言うのも、ちょっとどうかと思うわね…。(デメリット), 実は $2$ 人とも正解です。ようは、データの変化をどうとらえるかで、平均値の意味合いも全く異なるということです。, 例題 $1$ においては、$22$ という平均値より $7$ という中央値の方が、データの分析に向いてそうだね。(メリット), 例題2.$3$ 人が数学の本テストを受けた結果、$30$,$50$,$70$ 点であった。このとき、中央値について述べなさい。, たしかに例題 $2$ の場合は、中央値より平均値の変化を追う方が、データの分析には向いてそうだわ。(デメリット), でもたしかに、多数の意見って重要だよね。$1$ 人が賛成、$99$ 人が反対であれば、反対の意見を尊重したほうが多くの人が幸せになるしね。(メリット), 例題3.$6$ 人が数学のテストを受けた結果、$$3 \ , \ 3 \ , \ 7 \ , \ 7 \ , \ 100 \ , \ 100$$点だった。最頻値について述べなさい。, 問題1.今までの話を踏まえ、テストの点数および身長などのデータの分布を分析する際、どの代表値を重視するべきか、述べなさい。, ちなみに平均が $50$、標準偏差が $10$ の正規分布に従うように調整したものが「, 問題2.日本人の平均年収は $441$ 万円である。これを聞いて、平均値の危うさを述べなさい。, つまり、平均値の特徴である「外れ値(極端な値)に左右されやすい」ことが、わかりやすくデメリットとして働くわけですね。, 収入の分布の形(右すそ型)によく似ているものとして「カイ二乗分布」や「t分布」などが挙げられます。, 問題3.靴屋さんAで最も多く売れるシューズのサイズは $26 \ (\mathrm{cm})$ であり、次に売れるサイズは $24 \ (\mathrm{cm})$ である。仕入れる優先度をサイズ別に述べなさい。, 角の二等分線と比の定理とは?作図方法(書き方)や性質の証明を解説!【外角の問題アリ】, 食塩水の問題とは?濃度の計算公式や連立方程式を用いた解き方を解説!【小学生も必見】, 絶対値とは?絶対値の計算問題・意味や性質・分数の絶対値の外し方について解説!【ルート】, ※平均値には様々な種類があるため、正確には「相加平均(そうかへいきん)」と呼ぶこともあります。.