生物学
デノボトランスクリプトームアセンブリ
de novoトランスクリプトームアセンブリは、参照ゲノムの助けを借りずにトランスクリプトームを作成するde novoシーケンスアセンブリ方法です。
前書き
新しいシーケンシングテクノロジーの開発の結果、2008年から2012年の間に、シーケンシングのコストが大幅に低下しました。メガベースおよびゲノムごとに、コストはそれぞれ価格の10万分の1および1万分の1に低下しました。これに先立ち、科学研究に広く関心と有用性がある生物のトランスクリプトームのみが配列決定されました。ただし、2010年代に開発されたこれらのハイスループットシーケンス(次世代シーケンスとも呼ばれる)テクノロジーは、費用対効果と労働効率の両方が高く、これらの方法で研究される生物の範囲は拡大しています。トランスクリプトームは、ひよこ豆、プラナリア、 Parhyale hawaiensisのほか、ナイルクロコダイル、コーンスネーク、ひげを生やしたドラゴン、赤耳のスライダーの頭脳のために作成されました。
非モデル生物を調べることで、地球上の生命の豊かさを可能にした「魅力的な形態学的革新の多様性」の根底にあるメカニズムへの新しい洞察を提供できます。動物や植物では、一般的なモデル生物で調べることができない「革新」には、模倣、相利共生、寄生、無性生殖が含まれます。 De novoトランスクリプトームアセンブリは、ゲノムを構築するよりも安価で簡単であり、既存のゲノムがないと参照ベースの方法は不可能なので、非モデル生物の研究に適した方法であることがよくあります。したがって、これらの生物のトランスクリプトームは、そのようなユニークな生物学的現象に関係している新規タンパク質とそのアイソフォームを明らかにすることができます。
デノボと参照ベースのアセンブリ
組み立てられた転写産物のセットにより、初期の遺伝子発現研究が可能になります。トランスクリプトームアセンブリコンピュータープログラムの開発に先立って、トランスクリプトームデータは主に参照ゲノムにマッピングすることによって分析されました。ゲノムアラインメントは転写産物配列を特徴づける堅牢な方法ですが、この方法は、選択的スプライシングなどのmRNA転写産物の構造変化の出来事を説明できないという欠点があります。ゲノムには転写産物に存在する可能性のあるすべてのイントロンとエクソンの合計が含まれているため、ゲノムに沿って連続的に整列しないスプライスされたバリアントは、実際のタンパク質アイソフォームとして割り引かれます。参照ゲノムが利用可能であっても、de novoアセンブリを実行する必要があります。これは、ゲノムアセンブリから欠落しているゲノムのセグメントから転写された転写産物を回収できるためです。
トランスクリプトームとゲノムアセンブリ
DNAの非コードイントロン領域の繰り返しコンテンツの結果としてランダムに変化する可能性があるゲノムシーケンスカバレッジレベルとは異なり、トランスクリプトームシーケンスカバレッジレベルは、遺伝子発現レベルを直接示すことができます。これらの反復配列は、ゲノムアセンブリのコンティグの形成にあいまいさを生み出しますが、トランスクリプトームアセンブリコンティグのあいまいさは、通常、スプライスされたアイソフォーム、または遺伝子ファミリーのメンバー間のわずかな変動に対応します。ゲノムアセンブラーは、いくつかの理由でトランスクリプトームアセンブリに直接使用できません。まず、ゲノムシーケンスの深さは通常、ゲノム全体で同じですが、転写産物の深さはさまざまです。第二に、ゲノム配列決定では両方の鎖が常に配列決定されますが、RNA-seqは鎖特異的です。第三に、同じ遺伝子の転写変異体はエクソンを共有する可能性があり、明確に解決することが難しいため、トランスクリプトームのアセンブリはより困難です。
方法
RNA-seq
RNAが細胞から抽出および精製されると、それはハイスループットシーケンス施設に送られ、そこで最初に逆転写されてcDNAライブラリーが作成されます。このcDNAは、シーケンスに使用されるプラットフォームに応じて、さまざまな長さに断片化できます。以下の各プラットフォームは、異なるタイプのテクノロジーを使用して、数百万の短い読み取りをシーケンスします:454シーケンス、イルミナ、およびSOLiD。
組立アルゴリズム
RNA-Seqバイオインフォマティクスツールのリストもご覧ください。
cDNAシーケンスの読み取りは、短い読み取りトランスクリプトアセンブリプログラムを介してトランスクリプトにアセンブルされます。最も可能性が高いのは、他の点では類似している転写産物間のいくつかのアミノ酸変異は、異なるタンパク質アイソフォームを反映していることです。また、変異の程度に応じて、同じ遺伝子ファミリー内の異なる遺伝子、または保存されたドメインのみを共有する遺伝子を表す可能性もあります。
多数のアセンブリプログラムが利用可能です(アセンブラを参照)。これらのプログラムは一般にゲノムの組み立てに成功していますが、トランスクリプトームの組み立てにはいくつかのユニークな課題があります。ゲノムの高い配列カバレッジは、反復配列の存在を示す可能性があります(したがって、マスクされます)が、トランスクリプトームの場合は、豊富であることを示します。さらに、ゲノムシーケンスとは異なり、センスとアンチセンスの両方の転写産物の可能性があるため、トランスクリプトームシーケンスは鎖特異的です。最後に、すべてのスプライシングアイソフォームを再構築して分解することは困難です。
通常、ショートリードアセンブラは、オーバーラップグラフとde Bruijnグラフの2つの基本アルゴリズムのいずれかを使用します。オーバーラップグラフは、サンガーシーケンスリード用に設計されたほとんどのアセンブラで使用されます。読み取りの各ペア間のオーバーラップが計算され、グラフにコンパイルされます。各ノードは単一のシーケンス読み取りを表します。このアルゴリズムは、de Bruijnグラフよりも計算集約的であり、重複の少ない読み取りを組み立てるのに最も効果的です。DeBruijnグラフは、k-1シーケンス保存に基づいてk-mer(通常25-50 bp)を整列させ、コンティグを作成します。 k-merは読み取りの長さよりも短いため、高速ハッシュが可能になるため、de Bruijnグラフの操作は一般的に計算集約的ではありません。
機能注釈
アセンブルされた転写物の機能注釈により、特定の分子機能、細胞成分、および推定タンパク質が関与する生物学的プロセスへの洞察が可能になります。 Blast2GO(B2G)は、Gene Ontologyベースのデータマイニングを可能にし、GOアノテーションがまだ利用できないシーケンスデータにアノテーションを付けます。非モデル種の機能ゲノミクス研究でよく使用される研究ツールです。組み立てられたコンティグを(NCBIの)非冗長タンパク質データベースに対してブラストし、配列の類似性に基づいて注釈を付けます。 GOannaは、同様の方法で機能する動物および農業植物の遺伝子産物に固有の別のGO注釈プログラムです。これは、GOアノテーションおよび分析用の計算ツールの公開されたアクセス可能なスイートのAgBaseデータベースの一部です。注釈に続いて、KEGG(Kyoto Encyclopedia of Genes and Genomes)は、トランスクリプトームでキャプチャされた代謝経路と分子相互作用ネットワークの視覚化を可能にします。
GO用語の注釈が付けられていることに加えて、これらの転写産物に由来するタンパク質のアミノ酸配列を予測するために、オープンリーディングフレーム(ORF)のコンティグをスクリーニングすることもできます。別のアプローチは、タンパク質ドメインに注釈を付け、特定の遺伝子ではなく遺伝子ファミリーの存在を判断することです。
検証と品質管理
参照ゲノムが利用できないため、コンピューターで組み立てられたコンティグの品質は、組み立てられた配列をそれらを生成するために使用されたリードと比較することにより(参照なし)、またはmRNA転写産物に見られる保存された遺伝子ドメインの配列を整列することにより検証されます近縁種のトランスクリプトームまたはゲノム(参照ベース)。 TransrateやDETONATEなどのツールを使用すると、これらの方法でアセンブリの品質を統計的に分析できます。もう1つの方法は、予想される転写産物のPCRプライマーを設計し、cDNAライブラリーから増幅することです。多くの場合、非常に短い読み取りは除外されます。短い配列(40アミノ酸)は、独立して折りたたまれて疎水性コアを形成することができないため、機能性タンパク質を表す可能性は低いです。
アセンブラー
以下は、トランスクリプトームを生成するために使用され、科学文献でも引用されているアセンブリソフトウェアの部分的な概要です。
SeqMan NGen
DNASTARのソフトウェアパイプラインの一部であるSeqMan NGenには、小規模または大規模なトランスクリプトームデータセット用のde novoトランスクリプトームアセンブラが含まれています。 SeqMan NGenは、RefSeqを使用して転写物を識別およびマージする特許取得済みのアルゴリズムを使用し、DNASTAR独自の転写物注釈ツールを使用して、既知および新規の遺伝子を識別および強調表示して、組み立てられた転写物に自動的に注釈を付けます。
SOAPdenovo-Trans
SOAPdenovo-Transは、SOAPdenovo2フレームワークから継承したde novoトランスクリプトームアセンブラーであり、代替スプライシングと異なる発現レベルでトランスクリプトームをアセンブルするために設計されています。アセンブラは、SOAPdenovo2と比較して、完全な長さのトランスクリプトセットを構築するためのより包括的な方法を提供します。
ベルベット/オアシス
Velvetアルゴリズムは、de Bruijnグラフを使用してトランスクリプトを組み立てます。シミュレーションでは、ベルベットは原核生物データと哺乳類バクテリア人工染色体(BAC)の3 kb N50を使用して、最大50 kb N50長のコンティグを作成できます。これらの予備転写物はOasesに転送され、Oasesは、エンドリード情報とロングリード情報のペアを使用して、転写物アイソフォームを構築します。
Trans-ABySS
ABySSは、並列のペアエンドシーケンスアセンブラです。 Trans-ABySS(Assembly By Short Sequences)は、PythonおよびPerlで記述されたABySSで組み立てられたトランスクリプトームコンティグを分析するためのソフトウェアパイプラインです。このパイプラインは、さまざまなk値にわたって生成されたアセンブリに適用できます。最初にデータセットを非冗長コンティグの小さなセットに縮小し、エクソンスキッピング、新規エクソン、保持イントロン、新規イントロン、代替スプライシングなどのスプライシングイベントを特定します。 Trans-ABySSアルゴリズムは、遺伝子発現レベルの推定、潜在的なポリアデニル化部位、および遺伝子融合イベントの候補の特定も可能です。
三位一体
Trinityは最初に、配列データをいくつかのde Bruijnグラフに分割します。各グラフは、単一の遺伝子または遺伝子座での転写変異を表します。次に、全長スプライシングアイソフォームを抽出し、各グラフからパラロガス遺伝子に由来する転写産物を個別に区別します。 Trinityは、3つの独立したソフトウェアモジュールで構成され、順番に使用してトランスクリプトを生成します。
- Inchwormは、RNA-Seqデータを転写配列にアセンブルし、多くの場合、優勢なアイソフォームの完全長転写物を生成しますが、選択的スプライシングされた転写物の固有部分のみを報告します。
- ChrysalisはInchwormコンティグをクラスター化し、各クラスターの完全なde Bruijnグラフを構築します。各クラスターは、特定の遺伝子(または保存された配列を共有するファミリーまたは遺伝子セット)の完全な転写の複雑さを表します。 Chrysalisは、これらの個別のグラフ間で完全な読み取りセットを分割します。
- 次に、 Butterflyは個々のグラフを並行して処理し、グラフ内の読み取りのパスをトレースし、最終的に代替スプライスアイソフォームの完全長転写物を報告し、パラロガス遺伝子に対応する転写物をばらばらにします。