知識ベース

サイコメトリックス

Psychometricsは、心理学的測定の理論と技術に関わる研究の分野です。米国教育評価委員会(NCME)で定義されているように、心理測定とは心理測定を指します。一般的に、それはテスト、測定、評価、および関連する活動に専念する心理学および教育の分野を指します。

この分野は、スキルと知識、能力、態度、人格特性、および教育成果の客観的測定に関係しています。一部の心理測定研究者は、アンケート、テスト、評価者の判断、性格テストなどの評価手段の構築と検証に焦点を当てています。他の人は、測定理論に関連する研究に焦点を当てています(例、アイテム応答理論、クラス内相関)。

開業医は心理測定者と呼ばれます。心理測定学者は通常、特定の資格を有しており、ほとんどが高度な大学院訓練を受けた心理学者です。従来の学術機関に加えて、多くの精神測定学者は政府や人事部門で働いています。その他は、学習と開発の専門家として専門にしています。

歴史的基盤

心理テストは、2つの思考の流れから生まれました.1つ目は、ダーウィン、ガルトン、およびCattellによる個人差の測定に関するものであり、2つ目は、Herbart、Weber、Fechner、およびWundtおよびそれらの同様の構成物の精神物理学的測定によるものです。個人とその研究の2番目のセットは、実験心理学と標準化されたテストの開発につながったものです。

ビクトリア朝のストリーム

チャールズダーウィンは、心理測定の作成につながったフランシスガルトンGalの背後にあるインスピレーションでした。 1859年、ダーウィンは彼の著書「The Origin of Species」を出版しました。これは動物の個体差に関するものです。この本は、種の個々のメンバーがどのように異なり、より適応的で成功するか、または適応的であまり成功しない特性をどのように持っているかを議論しました。順応性と成功を収めているのは、生き残り、次の世代に道を譲る人たちです。以前に動物で研究されたこのアイデアは、人間と、それらが互いにどのように異なるか、そしてより重要なことには、それらの違いをどのように測定するかに関するGaltonの興味と研究につながりました。

ガルトンは、人々が持つさまざまな特性と、それらの特性が他の特性よりも「適合」させる方法について、「遺伝的天才」というタイトルの本を書きました。今日、感覚や運動機能(反応時間、視力、体力)などのこれらの違いは、科学心理学の重要な領域です。心理測定の初期の理論的および応用的な作業の多くは、知能を測定する試みで行われました。しばしば「心理測定の父」と呼ばれるGaltonは、彼の人体測定法に精神検査を考案し、含めました。心理測定の先駆者と考えられているジェームズ・マッキーン・キャテルは、ガルトンの研究を拡大し続けました。 Cattellはまた、 メンタルテストという用語を生み出し、最終的に現代のテストの開発につながった研究と知識を担当しています。 (Kaplan&Saccuzzo、2010)

ドイツのストリーム

心理測定の起源は、心理物理学の関連分野とも関係しています。ダーウィン、ガルトン、およびキャッテルが発見をしたのとほぼ同時期に、ハーバートは科学的方法を通して「人間の意識の謎を解き明かす」ことにも興味がありました。 (Kaplan&Saccuzzo、2010)Herbartは、今後数年間の教育慣行に影響を与える心の数学的モデルの作成を担当しました。

EH WeberはHerbartの研究に基づいて、感覚系を活性化するには最低限の刺激が必要だと言って、心理的閾値の存在を証明しようとしました。ウェーバーの後、GTフェクナーは、彼がハーバートとウェーバーから収集した知識に基づいて、刺激強度の対数として感覚の強さが増大するという法則を考案しました。ウェーバーとフェヒナーの信者であるウィルヘルム・ヴントは、心理学の科学を設立したと信じられています。他の人が心理テストを開発する道を開いたのは、Wundtの影響です。

20世紀

心理測定学者LL Thurstoneは、1936年にPsychometric Societyの創設者であり初代大統領であり、エルンストハインリッヒウェーバーとグスタフフェクナーの精神物理学理論と密接に関連する比較判断法と呼ばれる理論的アプローチを開発し、測定に適用しました。 。さらに、スピアマンとサーストンはともに、心理分析で広く開発され使用されている統計的手法である因子分析の理論と応用に重要な貢献をしました。 1950年代後半、レオポルドゾンディは、過去数十年間に統計的思考が心理学に与えた影響の歴史的および認識論的評価を行いました。「過去数十年で、特に心理学的思考はほぼ完全に抑制され、削除され、統計的思考に置き換えられました正確にここでは、今日のテストロジーとテストマニアのがんを見ることができます。」

最近では、心理測定理論が人格、態度、信念、および学業成績の測定に適用されています。これらの観察不可能な現象の測定は困難であり、この分野の研究と蓄積された科学の多くは、そのような現象を適切に定義し、定量化するために開発されました。物理学および社会活動家の実務家を含む批評家は、そのような定義と定量化は不可能なほど困難であり、そのような測定は雇用手続きで使用される心理測定的性格テストなどで誤用されることが多いと主張しています:

「たとえば、繰り返しの細部に一貫した注意を要する役割を誰かに求めている雇用主は、非常に創造的で退屈しやすい人にその仕事を与えたくないでしょう。」

心理測定に大きく貢献した人物には、カールピアソン、ヘンリーF.カイザー、カールブリガム、LLサーストン、アンアナスタシ、ゲオルグラッシュ、ユージーンガランター、ジョンソンオコナー、フレデリックM.ロード、レッドヤードRタッカー、アーサージェンセン、デイビッドが含まれますアンドリッチ。

社会科学における測定の定義

社会科学における測定の定義には長い歴史があります。スタンリー・スミス・スティーブンス(1946)によって提案された現在広く定義されている定義は、測定は「ある規則に従ってオブジェクトまたはイベントに数字を割り当てること」であるということです。この定義は、スティーブンスが4つのレベルの測定を提案した論文で紹介されました。広く採用されていますが、この定義は物理科学で採用されている測定のより古典的な定義とは重要な点で異なります。つまり、科学的測定は「同じ属性の単位に対する定量的属性の大きさの比率の推定または発見"(p。358)

実際、スティーブンスの測定の定義は、イギリスのファーガソン委員会の議長であるA.ファーガソンが物理学者であったことに応えて提唱されました。委員会は、感覚イベントを定量的に推定する可能性を調査するために、英国科学振興協会によって1932年に任命されました。委員長と他のメンバーは物理学者でしたが、委員会にはいくつかの心理学者も含まれていました。委員会の報告書は、測定の定義の重要性を強調しました。スティーブンスの回答は新しい定義を提案することでしたが、この定義はこの分野でかなりの影響力を持っていますが、この報告に対する唯一の回答ではありませんでした。別の、特に異なる応答は、次のステートメントに反映されているように、古典的な定義を受け入れることでした。

心理学と物理学の測定は、まったく違いはありません。物理学者は、必要な基準を満たすことができる操作を見つけることができるときを測定できます。心理学者は同じことをしなければなりません。 2つの科学における測定の意味の神秘的な違いを心配する必要はありません。 (リース、1943年、49ページ)

これらの異なる反応は、測定の代替アプローチに反映されます。たとえば、共分散行列に基づく方法は通常、評価か​​ら得られた生のスコアなどの数値が測定値であるという前提で採用されています。そのようなアプローチは暗黙的にスティーブンスの測定の定義を必要とし、それは数が何らかの規則に従って割り当てられることだけを必要とします。したがって、主な研究課題は、一般に、スコア間の関連性、およびそのような関連性の根底にあると推定される要因の発見であると考えられています。

一方、Raschモデルなどの測定モデルを使用する場合、ルールに基づいて番号が割り当てられることはありません。代わりに、上記のリースの声明に沿って、測定の特定の基準が述べられており、目標は関連する基準を満たすデータを提供する手順または操作を構築することです。モデルに基づいて測定値が推定され、関連する基準が満たされているかどうかを確認するためにテストが実施されます。

器具と手順

最初の心理測定機器は、知能の概念を測定するために設計されました。歴史的なアプローチの1つは、元はフランスの心理学者Alfred Binetによって開発されたStanford-Binet IQテストに関係していました。インテリジェンステストは、さまざまな目的に役立つツールです。知性の別の概念は、個人内の認知能力は、特定のドメインに固有の認知能力と同様に、一般的なコンポーネントまたは一般的な知能因子の現れであるということです。

心理測定のもう1つの主要な焦点は、性格テストにあります。人格の概念化と測定には、さまざまな理論的アプローチがあります。よく知られている機器には、ミネソタ多相性人格インベントリ、5因子モデル(または「ビッグ5」)、人格および嗜好インベントリ、マイヤーズブリッグスタイプインジケータなどのツールがあります。態度も心理測定的アプローチを使用して広範囲に研究されています。態度の測定における一般的な方法は、リッカート尺度の使用です。別の方法としては、展開モデルの適用があり、最も一般的なのは双曲線余弦モデルです(Andrich&Luo、1993)。

理論的アプローチ

心理測定学者は多くの異なる測定理論を開発しました。これらには、古典的テスト理論(CTT)とアイテム応答理論(IRT)が含まれます。数学的にはIRTに似ているが、その起源と特徴の点で非常に特徴的であるアプローチは、測定用のRaschモデルで表されます。 Raschモデルの開発、およびそれが属するモデルのより広範なクラスは、物理科学の測定要件に明示的に基づいています。

心理測定学者は、相関と共分散の大きな行列を扱う方法も開発しました。この一般的な伝統の手法には、以下が含まれます。因子分析、データの基礎となる次元を決定する方法。多次元スケーリング、多数の潜在次元を持つデータの単純な表現を見つける方法。データクラスタリング、互いに似ているオブジェクトを見つけるためのアプローチ。これらすべての多変量記述方法は、大量のデータをより単純な構造に蒸留しようとします。最近では、構造方程式モデリングとパス解析は、大きな共分散行列を扱うためのより洗練されたアプローチを表しています。これらの方法により、統計的に洗練されたモデルをデータに適合させ、それらが適切に適合しているかどうかを判断するためにテストすることができます。

さまざまな要因分析の主な欠陥の1つは、潜在的な要因の数を決定するためのカッティングポイントのコンセンサスの欠如です。通常の手順は、元の球が縮小するために固有値が1を下回ったときに因数分解を停止することです。切断点の欠如は、他の多変量法にも関係しています。

キーコンセプト

古典的なテスト理論の重要な概念は、信頼性と妥当性です。信頼できる測定とは、時間、個人、および状況全体で一貫して構造を測定するものです。有効な測定とは、測定対象を測定するものです。信頼性は必要ですが、有効性には十分ではありません。

信頼性と妥当性の両方を統計的に評価できます。同じテストの反復測定に対する一貫性は、ピアソン相関係数で評価でき、 テストと再テストの信頼性と呼ばれます。同様に、同じメジャーの異なるバージョンの等価性は、ピアソン相関によってインデックス付けすることができ、 等価形式の信頼性または同様の用語と呼ばれます。

単一のテストフォームの均一性に対処する内部一貫性は、テストの2つの半分のパフォーマンスを相関させることで評価できます。これは、 スプリットハーフ信頼性と呼ばます。 2つのハーフテストのこのピアソンの積率相関係数の値は、2つの完全なテスト間の相関に対応するために、スピアマンブラウン予測式で調整されます。おそらく、最も一般的に使用される信頼性の指標はCronbachのαであり、これは考えられるすべての分割半分係数の平均に相当します。他のアプローチには、クラス内相関が含まれます。これは、すべてのターゲットの分散に対する特定のターゲットの測定値の分散の比率です。

有効性にはさまざまな形式があります。基準に関連する妥当性は、測定値を、理論的に関連すると予想される基準測定値と相関させることにより評価できます。基準尺度が有効にされている尺度と同時に収集されるとき、目標は同時有効性を確立することです;基準が後で集められるとき、目標は予測的有効性を確立することです。メジャーは、理論で要求される他の構成のメジャーに関連している場合、 構成の有効性を持ちます。 コンテンツの有効性は、テストの項目が測定対象のドメインをカバーする適切な仕事をすることの実証です。人員選択の例では、テスト内容が定義ステートメントに基づいているか、 ジョブ解析から得られた知識、スキル、能力、または他の特性のステートメントのセット。

項目応答理論は、潜在特性とテスト項目への応答との関係をモデル化します。他の利点の中でも、IRTは、特定の潜在特性に関する受験者の位置の推定値と、その位置の測定の標準誤差を取得するための基礎を提供します。たとえば、大学生の歴史に関する知識は、大学のテストで得点から推定され、その後、それほど難しくないテストから推定される高校生の知識と確実に比較されます。古典的なテスト理論によって導き出されたスコアにはこの特性はなく、実際の能力(他の受験者に対する能力ではなく)の評価は、母集団からランダムに選択された「ノルムグループ」のスコアと比較して評価する必要があります。実際、古典的なテスト理論から導出されたすべての尺度は、テストされたサンプルに依存していますが、原則として、アイテム応答理論から導出された尺度はそうではありません。

多くの心理測定者は、心理テストからテストバイアスを見つけて排除することにも関心があります。テストバイアスとは、ある人口統計グループの受験者が別の人口統計グループの受験者に比べて不当な優位性をもつ体系的な(つまり、ランダムではない)エラーの一種です。有力な専門家によると、テストバイアスは人口統計学的グループ全体で平均スコアに差を生じる可能性がありますが、グループスコアの差は、テストがグループ間の実際の差を測定している可能性があるため、テストバイアスが実際に存在するという十分な証拠ではありません。心理測定学者は、洗練された科学的手法を使用して、テストバイアスを検索し、それを排除します。調査によると、通常、テスト項目を読んでいる人がそれが偏っているかどうかを正確に判断することは不可能です。

品質の基準

有効性と信頼性の考慮事項は、通常、テストの品質を決定するための重要な要素と見なされます。ただし、専門家および実務家の協会は、標準を開発し、特定のコンテキスト内のテスト全体の品質について全体的な判断を下す際に、これらの懸念をより広いコンテキスト内に配置することがよくあります。多くの応用研究の設定における懸念事項の考慮事項は、特定の心理的インベントリのメトリックが意味があるかどうかです。

試験基準

2014年、アメリカ教育研究協会(AERA)、アメリカ心理学会(APA)、および教育における測定に関する全国評議会(NCME)は、 教育および心理テストの基準の改訂版を発行しました。使用します。 規格は 、妥当性、測定の信頼性/エラー、テストの公平性など、テストの重要なトピックをカバーしています。この本は、テストの設計と開発、スコア、スケール、基準、スコアリンク、カットスコア、テスト管理、スコアリング、レポート、スコアの解釈、テストドキュメント、受験者とテストユーザーの権利と責任など、テスト操作に関連する標準も確立しています。 。最後に、 基準は心理テストと評価、職場テストと資格認定、教育テストと評価、プログラム評価と公共政策におけるテストなど、テストアプリケーションに関連するトピックをカバーしています。

評価基準

評価の分野、特に教育評価では、教育評価基準に関する合同委員会が評価のための3つの基準を公開しています。 人事評価基準は1988年に、 プログラム評価基準 (第2版)は1994年に、 学生評価基準は2003年に発行されました。

各出版物は、さまざまな教育現場で使用するための一連の標準を提示し、詳しく説明しています。この規格は、特定された形式の評価を設計、実装、評価、および改善するためのガイドラインを提供します。各標準は、適切で、有用で、実行可能で、正確な教育評価を促進するために、4つの基本的なカテゴリのいずれかに配置されています。これらの標準セットでは、有効性と信頼性の考慮事項が精度のトピックでカバーされています。たとえば、学生の精度基準は、学生の評価が学生の学習とパフォーマンスに関する健全で正確で信頼できる情報を提供することを保証するのに役立ちます。

人間以外:動物と機械

サイコメトリックスは、 人間の能力、態度、特性、および教育の進化に対処します。特に、人間以外の動物の行動、精神プロセス、能力の研究は、通常、比較心理学によって、または進化心理学によって人間以外の動物と他の動物との間の連続体で対処されます。それにもかかわらず、人間のためにとられたアプローチと(非人間)動物のためにとられたアプローチとの間のより漸進的な移行のための支持者がいます。

機械の能力、特性、および学習の進化の評価は、人工知能の分野での特定のアプローチにより、人間および人間以外の動物の場合とほとんど無関係です。ユニバーサルサイコメトリクスという名前のより統合されたアプローチも提案されています。