タンパク質の全て:バイオインフォマティクスの基礎知識4

バイオインフォマティクスの基礎知識

更新日:2022年10月27日(初回投稿)
著者:中央大学 理工学部 物理学科 教授 田口 善弘

前回まで、デジタル情報処理系としてのゲノムについて説明しました。DNAの配列情報をあたかもコンピュータのプログラムのように扱うことで、情報科学的なアプローチが可能になりました。そこがまさにバイオインフォマティクスの真髄です。今回は、DNA→RNA→タンパク質というセントラルドグマの末端に位置するタンパク質について解説します。

1. デジタルとアナログをつなぐ

これまで説明したように、DNAやRNAは、基本的には単なる情報媒体に過ぎません。そこには「こういう動作をしろ」とは書かれていても、実際にその動作をどう実現するのかは書かれていません。コンピュータのプログラムに「どういう動作をすべきか」が書かれていても、ディスプレイやCPU(Central Processing Unit:中央処理装置)といった動作する実体がなければ何もできないのと同じことです。そして、この動作する実体に相当するのがタンパク質です。

ディスプレイやCPUといったコンピュータのパーツと、タンパク質の最も大きな違いは、パーツとしての設計図までもがDNAやRNAに書かれている、ということでしょう。通常のコンピュータは、あくまで用意されたハードウェアの中で動作するだけです。一方、ゲノムは動作する実体であるタンパク質の構造自体をコーディング(情報データをコードに置き換え符号化すること)しているので、目的に応じてその都度、さまざまなパーツを作り出せます。これは、コンピュータのプログラムにコンピュータのハードウェア設計図までが書かれていて、プログラムを実行するとパーツの生成から始まる、といった仕組みを想像すると分かりやすいでしょう。よって、タンパク質の構造は、塩基配列から1対1で作り出せるアミノ酸が一次元的につながった構造に限定されています(図1)。

図1:アミノ酸、ペプチド、タンパク質の構造
図1:アミノ酸、ペプチド、タンパク質の構造

それでも、この一次元的なひもに過ぎないタンパク質は、針金細工のように自在に折りたたまれることで複雑な構造を実現し、そこから高度な機能を獲得してきました。バイオインフォマティクスにとって、タンパク質がいかにして複雑な構造であり、どのような機能を実現するかを予測することは、20年来の課題でした。キーとなったのは、アミノ酸配列(タンパク質を構成するアミノ酸の並ぶ順序)情報です。

ここでいうデジタルとは、アミノ酸の並びのことです。アミノ酸の並びは記号の列であり情報に過ぎません。しかし、このアミノ酸の一次元的な羅列が複雑な構造をとることにより、現実のアナログの世界においては、離散的ではない連続的な値を取るという不思議なことが起こります。

2. タンパクの立体構造~AlphaFold2の衝撃~

前述の20年来の課題は、つい最近、奇(く)しくも機械学習によって解明されました。人間のプロを打ち負かす囲碁AIプログラム・AlphaGOの開発で有名なアメリカのアルファベット社のAlphaFold2が、「アミノ酸の一次元配列からタンパク質の折りたたまれ方(立体構造)を推定する」というテーマに挑戦し、見事解決しました。図2は、AlphaFold2を使って計算予測したモデル図と実験結果の比較図を示します。実験結果と計算予測が重なり合っていることが分かるでしょう。

図2:AlphaFold2を使って計算予測したモデル図と実験結果の比較図(引用:Git Hubウェブサイト)
図2:AlphaFold2を使って計算予測したモデル図と実験結果の比較図(引用:Git Hubウェブサイト

これまでの連載で強調してきたように、バイオインフォマティクスは他分野に先駆け、データサイエンスや機械学習の手法を取り入れ成果を出してきた分野です。そのバイオインフォマティクスとは無関係な分野で発展した深層学習という機械学習の手法が、バイオインフォマティクスにおける20年来の難問、タンパク質の立体構造予測を解いてしまったのでした。それは、ある意味皮肉でもありました。

3. 薬とは

続きは、保管用PDFに掲載中。ぜひ、下記よりダウンロードして、ご覧ください。