核酸構造予測
核酸構造予測は、その配列から二次および三次核酸構造を決定する計算方法です。二次構造は、1つまたは複数の核酸配列から予測できます。三次構造は、配列から、または比較モデリング(相同配列の構造がわかっている場合)によって予測できます。
核酸の二次構造を予測する問題は、主に塩基対合と塩基スタッキング相互作用に依存しています。多くの分子にはいくつかの可能な3次元構造があるため、トランスファーRNA(tRNA)またはマイクロRNA(miRNA)などの既知のクラスの核酸分子との明らかな配列および機能的類似性が観察されない限り、これらの構造の予測は手の届かないままです。多くの二次構造予測方法は、動的計画法のバリエーションに依存しているため、擬似結び目を効率的に識別することができません。
方法は似ていますが、RNAとDNAの構造予測へのアプローチにはわずかな違いがあります。 生体内では 、DNA構造は2本の鎖間で完全な相補性を持つ二重鎖である可能性が高く、RNA構造はリボソーム、スプライセオソーム、またはトランスファーRNAなどの複雑な二次および三次構造に折り畳まれやすいです。これは、RNAの余分な酸素が核酸骨格の水素結合の傾向を高めるためです。エネルギーパラメータも2つの核酸で異なります。構造予測法は、完全に理論的なアプローチ、または実験データを組み込んだハイブリッドのアプローチに従うことができます。
単一配列構造予測
RNAを扱う研究者に共通する問題は、核酸配列のみが与えられた分子の3次元構造を決定することです。しかし、RNAの場合、最終構造の多くは、分子の二次構造または分子内塩基対相互作用によって決定されます。これは、多様な種にわたる塩基対の高度な保存によって示されます。
最も安定した構造
低分子RNA分子の二次構造は、水素結合や塩基スタッキングなどの強力な局所相互作用によって大きく決定されます。そのような相互作用の自由エネルギーを合計すると、特定の構造の安定性の近似値が得られます。与えられた二次構造の折り畳み自由エネルギーを予測するために、経験的最近傍モデルが使用されます。最近傍モデルでは、各モチーフの自由エネルギーの変化は、モチーフとその最も近い塩基対の配列に依存します。 Watson-Crickペア、GUペア、ループ領域の最小エネルギーのモデルとパラメーターは経験的な熱量測定実験から導き出され、最新のパラメーターは2004年に公開されましたが、ほとんどのソフトウェアパッケージは1999年に組み立てられた以前のセットを使用します。
最も低い自由エネルギー構造を見つける最も簡単な方法は、すべての可能な構造を生成し、その自由エネルギーを計算することですが、シーケンスの可能な構造の数は、RNAの長さとともに指数関数的に増加します:二次構造の数=(1、 8)N、N-ヌクレオチド数。より長い分子の場合、可能な二次構造の数は膨大です。100ヌクレオチドのシーケンスには、1025を超える二次構造があります。
動的プログラミングアルゴリズム
RNAおよびDNAの二次構造を予測する最も一般的な方法には、動的プログラミングが含まれます。 RNAの二次構造を予測する初期の試みの1つは、一連の「ブロック」(ポリヌクレオチドチェーン)の長さと数を最大化する動的プログラミングベースのアルゴリズムを開発したRuth Nussinovと同僚によって行われました。各「ブロック」には少なくとも2つのヌクレオチドが必要であり、これにより、単一の塩基マッチングアプローチよりもアルゴリズムのストレージ要件が削減されました。ヌシノフらその後、パフォーマンスを改善した適応型アプローチを発表しました。これにより、サイズを大きくしたサブセクションを折り畳みながら、以前の折り畳みの結果を保存することで、RNAサイズ制限を最大1,000塩基まで増やしました。 1981年、Michael ZukerとPatrick Stieglerは、Nussinov et al。のソリューションに匹敵するパフォーマンスを備えた洗練されたアプローチを提案しましたが、「準最適」な二次構造を見つける追加機能も備えています。
動的プログラミングアルゴリズムは、構造を明示的に生成することなく、可能なRNA二次構造のすべてのバリアントを暗黙的にチェックする手段を提供します。最初に、最短のフラグメントから開始して、次に長いフラグメントの各可能な配列フラグメントについて、最低の立体配座自由エネルギーが決定されます。長いフラグメントの場合、短いシーケンスで決定された最適な自由エネルギー変化の再帰により、最低の折り畳み自由エネルギーの決定が高速化されます。完全な配列の最低自由エネルギーが計算されると、RNA分子の正確な構造が決定されます。
ダイナミックプログラミングアルゴリズムは、「よくネストされた」塩基配列パターンを検出するためによく使用されます。つまり、配列位置で互いに重ならない塩基にのみ水素結合を形成します。このカテゴリーに分類される二次構造には、二重らせん、ステムループ、およびトランスファーRNA分子に見られる「クローバー」パターンのバリアントが含まれます。これらの方法は、Watson-CrickおよびHoogsteen塩基対などの特定の種類の塩基対相互作用に関連する自由エネルギーを推定する事前計算されたパラメーターに依存しています。方法の複雑さに応じて、単一の塩基対、および短い2塩基または3塩基のセグメントを考慮して、塩基スタッキングの効果を組み込むことができます。この方法では、計算上非常にコストのかかる大幅なアルゴリズムの変更を行わないと、入れ子になっていない疑似結び目を特定できません。
準最適構造
自由エネルギー最小化による1つのシーケンスからのRNA二次構造予測の精度は、いくつかの要因によって制限されます。
- 最近傍モデルの自由エネルギー値のリストは不完全です
- すべての既知のRNAが、熱力学的最小値に適合するような方法で折りたたまれるわけではありません。
- 一部のRNA配列は、複数の生物学的に活性な立体構造を持っています(すなわち、リボスイッチ)
このため、同様の低い自由エネルギーを持つ構造を予測する能力は、重要な情報を提供できます。このような構造は、準最適構造と呼ばれます。 MFOLDは、次善の構造を生成するプログラムの1つです。
擬似ノットの予測
RNAの二次構造を予測する際の問題の1つは、標準的な自由エネルギーの最小化と統計的なサンプリング手法ではシュードノットが見つからないことです。主な問題は、二次構造を予測する際に通常の動的プログラミングアルゴリズムが最も近いヌクレオチド間の相互作用のみを考慮し、一方で、遠く離れたヌクレオチド間の相互作用によりシュードノット構造が形成されることです。 RivasとEddyは、疑似結び目を予測するための動的プログラミングアルゴリズムを公開しました。ただし、この動的プログラミングアルゴリズムは非常に低速です。自由エネルギー最小化のための標準的な動的プログラミングアルゴリズムはO(N3)を時間でスケーリングします(Nはシーケンス内のヌクレオチドの数です)一方で、RivasおよびEddyアルゴリズムはO(N6)を時間でスケーリングします。これにより、いくつかの研究者は、疑似結び目のクラスを制限するアルゴリズムのバージョンを実装するようになり、パフォーマンスが向上しました。たとえば、pknotsRGツールには、単純な再帰的な疑似ノットのクラスのみが含まれ、O(N4)が時間内にスケーリングされます。
RNA二次構造予測のための他のアプローチ
RNAの二次構造決定の別のアプローチは、プログラムSFOLDに例示されているように、ボルツマンアンサンブルから構造をサンプリングすることです。このプログラムは、考えられるすべてのRNA二次構造の統計サンプルを生成します。アルゴリズムは、ボルツマン分布に従って二次構造をサンプリングします。サンプリング方法は、折りたたみの不確実性の問題に対する魅力的なソリューションを提供します。
比較二次構造予測
配列共変法は、関連するが類似しない配列を持つ複数の相同RNA配列で構成されるデータセットの存在に依存しています。これらの方法は、進化における個々のベースサイトの共変動を分析します。一対の塩基対形成ヌクレオチドの2つの広く離れた部位での維持は、それらの位置間に構造的に必要な水素結合の存在を示します。シュードノット予測の一般的な問題は、NP完全であることが示されています。
一般に、アライメントとコンセンサス構造予測の問題は密接に関連しています。コンセンサス構造の予測に対する3つの異なるアプローチを区別できます。
- アライメントの折り畳み
- 同時配列アライメントとフォールディング
- 予測構造のアライメント
整列してから折ります
実用的な発見的アプローチは、複数の配列アラインメントツールを使用して、いくつかのRNA配列のアラインメントを生成し、コンセンサス配列を見つけて折り畳むことです。アライメントの品質により、コンセンサス構造モデルの精度が決まります。コンセンサス配列は、個々の構造予測問題と同様に、さまざまなアプローチを使用してフォールディングされます。熱力学的折り畳みアプローチは、RNAalifoldプログラムによって例示されます。さまざまなアプローチの例として、PfoldおよびILMプログラムがあります。 PfoldプログラムはSCFGを実装します。 ILM(反復ループマッチング)は、アライメントを折り畳むための他のアルゴリズムとは異なり、疑似結び目構造を返すことができます。熱力学と相互情報コンテンツスコアの組み合わせを使用します。
整列して折り畳む
進化は、RNA配列よりも機能的なRNA構造を頻繁に保存します。したがって、一般的な生物学的問題は、2つ以上の高度に分岐しているが相同なRNA配列の共通構造を推測することです。実際には、2つのシーケンスのシーケンス類似性が50%未満の場合、シーケンスアラインメントは不適切になり、構造予測の精度を向上させる助けにはなりません。
構造ベースのアライメントプログラムは、これらのアライメントのパフォーマンスを向上させ、それらのほとんどはSankoffアルゴリズムのバリアントです。基本的に、サンコフアルゴリズムは、シーケンスアラインメントとNussinov(最大ペアリング)フォールディングダイナミックプログラミング手法の合併です。 Sankoffアルゴリズム自体は、極端な計算リソース(時間でO(n3m)、空間でO(n2m)を必要とするため、理論的な演習です。nはシーケンスの長さ、mはシーケンスの数です)。 Sankoffのアルゴリズムの制限付きバージョンを実装するいくつかの注目すべき試みは、Foldalign、Dynalign、PMmulti / PMcomp、Stemloc、およびMurletです。これらの実装では、アラインメントの最大長または可能なコンセンサス構造の変形が制限されています。たとえば、Foldalignはローカルアラインメントに焦点を合わせ、シーケンスアラインメントの可能な長さを制限します。
折りたたんで整列
あまり広く使用されていないアプローチは、単一のシーケンス構造予測方法を使用してシーケンスを折りたたみ、ツリーベースのメトリックを使用して結果の構造を調整することです。このアプローチの根本的な弱点は、単一シーケンスの予測が不正確であることが多いため、それ以降のすべての分析が影響を受けることです。
三次構造予測
RNAの二次構造がわかったら、次の課題は三次構造を予測することです。最大の問題は、二本鎖らせん領域間の領域の構造を決定することです。また、RNA分子には転写後修飾されたヌクレオシドが含まれることが多く、これは新しい非正規相互作用の可能性があるため、三次構造予測に多くの問題を引き起こします。
3次元構造予測方法では、テンプレートとして知られる関連する既知の構造から始まる比較モデリングを使用できます。代替戦略は、RNAの二次構造のde novoモデリングであり、分子動力学や立体構造のランダムサンプリングなどの物理学に基づいた原理を使用し、スコアリングの統計的可能性を備えたスクリーニングが続きます。これらの方法は、核酸構造の全原子表現または粗視化表現のいずれかを使用します。これらのモデリング手法の多くによって生成された低解像度の構造は、その後、高解像度の改良を受けます。