リンカーンインデックス
リンカーンインデックスは、観測された2つの独立したケースセットに基づいて、まだ観測されていないケースの数を推定するためにいくつかのフィールドで使用される統計的尺度です。 1930年にフレデリックチャールズリンカーンによって説明されたが、関連するマークアンドリキャプチャメソッドを最初に使用したCGヨハネスピーターセンにちなんで、 リンカーン-ピーターセンメソッドとしても知られています。
用途
特定の地域の植物や動物の異なる種を別々に数える2人のオブザーバーを考えてみましょう。彼らがそれぞれ100種を見つけて戻ってきたが、 両方の観察者が特定の5種しか見つけなかった場合、各観察者は少なくとも95種(つまり、他の観察者だけが見つけた95種)を見逃した。したがって、両方のオブザーバーが多くを見逃していることがわかります。一方、各オブザーバーが発見した100種のうち99種が両方で見つかった場合、そこに存在する全種のはるかに高い割合を見つけたと期待するのは公平です。
同じ理由がマークと再取得にも当てはまります。特定のエリアの一部の動物を捕まえてマークし、後で2回目の捕獲を行った場合:2回目のラウンドで見つかったマークした動物の数を使用して、総個体数の推定値を生成できます。
別の例は、言語の総語彙を推定するための計算言語学で発生します。 2つの独立したサンプルが与えられると、語彙の重複により、語彙アイテムがさらにいくつ存在するかの有用な推定が可能になりますが、どちらのサンプルにも現れませんでした。同様の例では、2人の校正者のカウントから、テキストに残っている誤字の数を推定します。
処方
リンカーンインデックスはこの現象を形式化します。 E1とE2が2つの独立した方法で観測される種(または単語、または他の現象)の数であり、Sが共通の観測数である場合、リンカーンインデックスは単純に
L = E1E2S {\ displaystyle L = {E_ {1} E_ {2} \ over S}}
S 10の値の場合、この推定値はおおまかで、S 5の値の場合は非常におおまかになります。S= 0の場合(つまり、オーバーラップがまったくない場合)、リンカーンインデックスは正式に定義されません。これは、オブザーバーが実際の種のわずかな割合しか見つけない場合(おそらく十分に長く見ないことによって)、統計的に独立していない方法を使用している場合(たとえば、大きな生き物だけを探し、その他の小規模な場合のみ)、またはその他の状況。
制限事項
リンカーンインデックスは単なる推定値です。たとえば、特定の地域の種は、非常に一般的または非常にまれであるか、非常に困難または非常に見やすい傾向があります。そうすると、両方のオブザーバーが共通種の大部分を見つけ、両方のオブザーバーが希少種の大部分を逃す可能性があります。このような分布は、結果として生じる推定を無効にします。ただし、このような分布は、Zipfの法則で示唆されているように、自然現象では珍しいことです。
TJ GaskellとBJ Georgeは、バイアスを減らすと主張するリンカーンインデックスの強化を提案します。