知識ベース

ストップワード

コンピューティングでは、 ストップワードは、自然言語データ(テキスト)の処理前に除外されるワードです。ストップワードは、一般的に言語で最も一般的な単語です。すべての自然言語処理ツールで使用されるストップワードの単一の普遍的なリストはなく、実際、すべてのツールがそのようなリストを使用しているわけでもありません。一部のツールでは、フレーズ検索をサポートするためにストップワードの削除を回避しています。

特定の目的のストップワードとして、任意の単語セットを選択できます。いくつかの検索エンジンのために、これらは最も一般的な、短い機能語のいくつか、など、 これ 、と上のあるあります。この場合、ストップワードは、特に「The Who」、「The The」、または「Take That」などの名前に含まれるフレーズを検索するときに問題を引き起こす可能性があります。他の検索エンジンは、パフォーマンスを向上させるために、「want」などの語彙を含む最も一般的な単語の一部をクエリから削除します。

情報検索の先駆者の一人であるハンス・ピーター・ルーンは、このフレーズを作成し、コンセプトを使用したと信じられています。 Luhnの1959年のプレゼンテーションにはない「ストップワード」というフレーズ、および関連する「ストップリスト」と「ストップリスト」という用語は、すぐ後に文献に登場します。

いくつかのコンコーダンスを作成する際に、先行コンセプトが使用されました。たとえば、最初のヘブライ語の一致、Me'ir nativには、索引付けされていない単語の1ページのリストが含まれていました。

SEOの用語では、ストップワードはほとんどの検索エンジンで回避される最も一般的な単語であり、クロールまたはインデックス作成中に大きなデータを処理するスペースと時間を節約します。これは、検索エンジンがデータベースのスペースを節約するのに役立ちます。