知識ベース

語彙密度

語彙密度は、言語における人間のコミュニケーションの構造と複雑さを測定する計算言語学の概念です。語彙密度は、機能語(文法単位)と内容語(語彙単位、語彙素)から、書かれたまたは話された構成の言語の複雑さを推定します。語彙密度を計算する1つの方法は、語彙アイテムと単語の合計数の比率を計算することです。別の方法は、文章内の節の総数など、構成内の上位構造アイテムの数に対する語彙アイテムの比率を計算することです。

個人の語彙密度は、年齢、教育、コミュニケーションスタイル、状況、異常な怪我や病状、および彼または彼女の創造性とともに進化します。人間の言語と第一言語の固有の構造は、個人の文章と話し方の語彙密度に影響を与える可能性があります。さらに、書面による人間のコミュニケーションは、一般的に幼児期後の話し言葉による形態よりも語彙的に密集しています。語彙密度は、作曲の読みやすさと、リスナーまたはリーダーがコミュニケーションを理解できる容易さに影響します。語彙密度は、文とメッセージの記憶性と保持にも影響する場合があります。

討論

語彙密度は、特定の談話における内容語(語彙項目)の割合です。これは、語彙アイテムの総単語数に対する比率として、または語彙アイテムの文中の上位構造アイテム数に対する比率として(例えば、句として)測定できます。語彙アイテムは通常、実際のコンテンツであり、名詞、動詞、形容詞、副詞が含まれます。文法項目は通常、コンテンツを編む機能的な接着剤とスレッドであり、代名詞、接続詞、前置詞、決定詞、および有限動詞と副詞の特定のクラスが含まれます。

語彙密度は、談話分析で説明パラメーターとして使用される方法の1つであり、レジスターおよびジャンルによって異なります。任意の構成またはコーパスの語彙密度を計算するための多くの提案された方法があります。語彙密度は次のように決定できます。

Ld =(Nlex / N)×100 {\ displaystyle L_ {d} =(N _ {\ mathrm {lex}} / N)\ times 100} Where:Ld {\ displaystyle L_ {d}} =分析されたテキストの語彙密度Nlex {\ displaystyle N _ {\ mathrm {lex}}} =分析されたテキスト内の字句または文法トークン(名詞、形容詞、動詞、副詞)の数N {\ displaystyle N} =すべてのトークンの数(単語の総数)分析されたテキスト

字句密度

Ureは、文の字句密度を計算するために1971年に次の式を提案しました。

Ld =語彙アイテムの数/単語の合計数* 100

Biberはこの比率を「タイプトークン比率」と呼びます。

ハリデー語彙密度

1985年、ハリデーはUre式の分母を修正し、文の語彙密度を計算するために以下を提案しました。

Ld =語彙アイテムの数/節の合計数* 100

一部の定式化では、ハリデーが提案した語彙密度は、「100」乗数なしの単純な比率として計算されます。

特徴

字句密度の測定値は、「字句項目」がどのように定義されているか、どの項目が字句項目または文法項目として分類されているかに応じて、同じ構成で異なる場合があります。採用された方法論は、さまざまな構成に一貫して適用される場合、それらの構成の語彙密度を提供します。通常、書かれた作曲の語彙密度は、話された作曲よりも高くなります。 Ureによると、英語で書かれた人間のコミュニケーションの形式は通常、語彙密度が40%を超えていますが、音声形式は40%未満の語彙密度を持っている傾向があります。 Michael Stubbsによる歴史的テキストの調査では、フィクション文学の典型的な語彙密度は40%から54%の範囲でしたが、ノンフィクションは40%から65%の範囲でした。

特定のコミュニケーションの参加者間の関係と親密さは、同じスピーカーまたはライターのコミュニケーションの開始前の状況と同様に、語彙密度に影響を与えます。彼女が提案した文書形式のコミュニケーションの語彙密度が高いのは、主に、文書形式の人間のコミュニケーションには、より大きな準備、反省、修正が必要だからです。フィードバックを含むまたはフィードバックを予想する人間の議論および会話は、よりまばらで、語彙密度が低い傾向があります。対照的に、州のスタッブスとビーバー、指示、法執行命令、割り当てられた時間内に画面プロンプトから読むニュース、および著者が再読のために読者に利用できると期待する文献は、語彙密度を最大にする傾向があります。ヨハンソンとストームクヴィストは、ヨーロッパのさまざまな国や年齢層で話されている資料の語彙密度の調査で、人口グループの語彙密度は類似しており、母国語の形態学的構造と国内で年齢層がサンプリングされていることを報告しています。語彙密度は成人で最も高く、一方、語彙の多様性として推定される変動は、同じ年齢層(13歳、17歳)のティーンエイジャーでより高かったと述べています。