相関比
統計では、 相関比は、個々のカテゴリ内の統計的分散と母集団またはサンプル全体の分散との関係の尺度です。メジャーは、これらのタイプの変動を表す2つの標準偏差の比率として定義されます。ここでのコンテキストは、クラス内相関係数のコンテキストと同じであり、その値は相関比の2乗です。
定義
各観測値がyxiであり、 xは観測値が属するカテゴリを示し、 iは特定の観測値のラベルであるとします。 nxをカテゴリxの観測値の数とし、
y¯x= ∑iyxinx {\ displaystyle {\ overline {y}} _ {x} = {\ frac {\ sum _ {i} y_ {xi}} {n_ {x}}}}およびy¯= ∑xnxy ¯x∑xnx、{\ displaystyle {\ overline {y}} = {\ frac {\ sum _ {x} n_ {x} {\ overline {y}} _ {x}} {\ sum _ {x} n_ {バツ}}}、}ここで、y¯x{\ displaystyle {\ overline {y}} _ {x}}はカテゴリxの平均であり、y¯{\ displaystyle {\ overline {y}}}は母集団全体の平均です。相関比η(eta)は、
η2= ∑xnx(y¯x−y¯)2∑x、i(yxi−y¯)2 {\ displaystyle \ eta ^ {2} = {\ frac {\ sum _ {x} n_ {x}({ \ overline {y}} _ {x}-{\ overline {y}})^ {2}} {\ sum _ {x、i}(y_ {xi}-{\ overline {y}})^ {2 }}}}次のように書くことができます
η2=σy¯2σy2、ここでσy¯2= ∑xnx(y¯x−y¯)2∑xnxおよびσy2= ∑x、i(yxi−y¯)2n、{\ displaystyle \ eta ^ {2} = { \ frac {{\ sigma _ {\ overline {y}}} ^ {2}} {{\ sigma _ {y}} ^ {2}}}、{\ text {where}} {\ sigma _ {\ overline {y}}} ^ {2} = {\ frac {\ sum _ {x} n_ {x}({\ overline {y}} _ {x}-{\ overline {y}})^ {2}} {\ sum _ {x} n_ {x}}} {\ text {および}} {\ sigma _ {y}} ^ {2} = {\ frac {\ sum _ {x、i}(y_ {xi} -{\ overline {y}})^ {2}} {n}}、}つまり、カテゴリの加重分散は、すべてのサンプルの分散で除算されます。
x {\ displaystyle x}の値とy¯x{\ displaystyle {\ overline {y}} _ {x}}の値との関係が線形である場合( xに 2つの可能性しかない場合は確かに当てはまります)ピアソンの相関係数の二乗と同じ結果が得られます。そうしないと、相関比の大きさが大きくなります。したがって、非線形の関係を判断するために使用できます。
範囲
相関比η{\ displaystyle \ eta}は0〜1の値を取ります。限界η= 0 {\ displaystyle \ eta = 0}は、異なるカテゴリの平均間で分散がない特殊なケースを表し、η= 1 { \ displaystyle \ eta = 1}は、それぞれのカテゴリ内に分散がないことを示します。完全な母集団のすべてのデータポイントが同じ値を取る場合、η{\ displaystyle \ eta}は未定義です。
例
3つのトピック(カテゴリ)にテストスコアの分布があると仮定します。
- 代数:45、70、29、15、21(5スコア)
- ジオメトリ:40、20、30、および42(4スコア)
- 統計:65、95、80、70、85および73(6スコア)。
被験者の平均は36、33、78で、全体の平均は52です。
被験者の平均との差の二乗和は、代数では1952、幾何学では308、統計では600であり、2860に加算されます。全体の平均との差の二乗の合計は9640です。また、被験者の平均と全体の平均との差の二乗の加重和:
5(36−52)2 + 4(33−52)2 + 6(78−52)2 = 6780。{\ displaystyle 5(36-52)^ {2} +4(33-52)^ {2} +6(78-52)^ {2} = 6780。}これは与える
η2= 67809640 = 0.7033…{\ displaystyle \ eta ^ {2} = {\ frac {6780} {9640}} = 0.7033 \ ldots}全体的な分散の大部分は、トピック内ではなくトピック間の違いの結果であることを示唆しています。平方根を取ると
η= 67809640 = 0.8386…。{\ displaystyle \ eta = {\ sqrt {\ frac {6780} {9640}}} = 0.8386 \ ldots。}η= 1 {\ displaystyle \ eta = 1}の場合、サンプル全体の分散は純粋にカテゴリ間の分散によるものであり、個々のカテゴリ内の分散によるものではありません。簡単に理解するために、すべての代数、幾何学、および統計のスコアがそれぞれ同じであると想像してください(5回36回、4回33回、6回78回など)。
限界η= 0 {\ displaystyle \ eta = 0}は、全体的な分散に寄与するカテゴリ間の分散がない場合を指します。この極端な場合の簡単な要件は、すべてのカテゴリ平均が同じであることです。
ピアソンv。フィッシャー
相関比は、分散分析の一部としてカールピアソンによって導入されました。ロナルド・フィッシャーはコメントしました:
記述統計として、相関比の有用性は非常に限られています。 η2{\ displaystyle \ eta ^ {2}}の分子の自由度の数は配列の数に依存することに気づくでしょう
エゴン・ピアソン(カールの息子)は次のように答えました
繰り返しになりますが、相関比の使用などの長年確立された方法は、適切な説明なしに少数の言葉で伝えられます。
この記事には参考文献、関連する読み物、または外部リンクのリストが含まれていますが、その情報源はインライン引用がないため不明です。より正確な引用を導入することにより、この記事の改善にご協力ください。 (2011年8月) (このテンプレートメッセージを削除する方法とタイミングをご覧ください) |