ソーシャル
パラレルテキスト
平行テキストは、翻訳と平行して配置されるテキストです。 平行テキストの整列は、 平行テキストの両方の半分の対応する文の識別です。ローブクラシックライブラリーとクレイサンスクリットライブラリーは、二言語シリーズのテキストの2つの例です。参照聖書には、比較と研究を容易にするために、元の言語と翻訳が含まれている場合があります。 OrigenのHexapla(「sixfold」のギリシャ語)は、旧約聖書の6つのバージョンを並べて配置しました。最も有名な例は、ロゼッタストーンです。
並列テキストの大規模なコレクションは、 並列コーパスと呼ばれます(テキストコーパスを参照)。文レベルでの並列コーパスの整列は、言語研究の多くの分野の前提条件です。翻訳中に、翻訳者は文を分割、結合、削除、挿入、または並べ替えることができます。これにより、アライメントが簡単なタスクになります。
並列コーパスの種類
4つの主要なコーパスタイプを区別できます。
ノイズの多い並列コーパスには、完全に揃っていないか、翻訳の品質が低いバイリンガル文が含まれています。それにもかかわらず、その内容のほとんどは、特定のドキュメントのバイリンガル翻訳です。
比較可能なコーパスは、非文揃えで未翻訳のバイリンガルドキュメントから構築されますが、ドキュメントはトピックに合わせて調整されます。
準比較可能なコーパスには、非常に不均一で非並列のバイリンガルドキュメントが含まれます。
最もまれな並列コーパスは、同じドキュメントの2つ以上の言語への翻訳を含むコーパスであり、少なくとも文レベルで整列されています。
コーパスのノイズ
機械翻訳アルゴリズムのトレーニングセットとして使用される大きなコーパスは、通常、類似のイベントを説明する第1言語と第2言語で書かれたニュース記事のデータベースなど、類似ソースの大規模なボディから抽出されます。
ただし、抽出されたフラグメントはノイズが多く、各コーパスに余分な要素が挿入される場合があります。抽出手法では、コーパスで表現されたバイリンガル要素とコーパスのみで表現されたモノリンガル要素を区別して、バイリンガル要素のよりクリーンな並列フラグメントを抽出できます。比較可能なコーパスを使用して、翻訳目的の知識を直接取得します。ただし、特にリソース不足の言語では、高品質の並列データを取得するのは困難です。
バイテキスト
翻訳研究の分野では、 bitextは、特定のテキストのソース言語バージョンとターゲット言語バージョンの両方で構成されるマージされたドキュメントです。
Bitexts アライメントツールと呼ばれるソフトウェアの一部、または自動的に同じテキストの元と翻訳版を整列bitextツールによって生成されます。ツールは通常、これら2つのテキストを文ごとに一致させます。 bitextのコレクションは、 bitextデータベースまたはバイリンガルコーパスと呼ばれ、検索ツールで調べることができます。
バイテキストと翻訳メモリ
bitextの概念は、翻訳メモリの概念と特定の類似点を示しています。一般に、bitextと翻訳メモリの最も顕著な違いは、翻訳メモリは、そのセグメント(一致した文)が元のコンテキストとはまったく関係のない方法で格納されるデータベースであることです。元の文の順序は失われます。 bitextは、元の文の順序を保持します。ただし、コンピューター支援翻訳(CAT)プログラム間で翻訳メモリを交換するための標準XML形式であるTranslation Memory eXchange(TMX)など、翻訳メモリの一部の実装では、元の文の順序を維持できます。
バイテキストは、機械ではなく人間の翻訳者が相談するように設計されています。そのため、翻訳メモリの障害を引き起こす小さなアライメントエラーや小さな不一致は重要ではありません。
ハリスは、1988年の最初の記事で、bitextが、翻訳者がどのようにソーステキストとターゲットテキストを精神的な作業の思い出の中で一緒に保持するかを表すと仮定しました。ただし、この仮説はフォローアップされていません。