ゲノム:バイオインフォマティクスの基礎知識2

バイオインフォマティクスの基礎知識

更新日:2022年9月14日(初回投稿)
著者:中央大学 理工学部 物理学科 教授 田口 善弘

前回は、バイオインフォマティクスの概要を説明しました。今回は、バイオインフォマティクスという分野の成立に深くかかわるゲノムについて解説します。

1. セントラルドグマ

ゲノム科学は、バイオインフォマティクスの大きな一分野を成す研究対象です。ゲノム科学を知るためには、まずセントラルドグマの説明が必要です。セントラルドグマとは、DNA→RNA→タンパク質という情報の流れの一方向性を表す言葉です(図1)。

図1:セントラルドグマ
図1:セントラルドグマ

ここでいう情報とは、DNA(Deoxyribo Nucleic Acid:デオキシリボ核酸)、RNA(Ribo Nucleic Acid:リボ核酸)など核酸の種類を表現するATGC、AUGCの4文字(A:アデニン、T:チミン、U:ウラシル、G:グアニン、C:シトシン)です(図2)。また、タンパク質の場合は20種類のアミノ酸を表す20文字で完全に表現でき、(A:アラニン、Q:グルタミン、I:イソロイシン、W:トリプトファンなど)デジタル情報として扱えます。

図2:DNAとRNAの構造
図2:DNAとRNAの構造

その並びも完全に1次元的なもので、計算機科学の基礎である01列からなる2値のデジタルデータで完全に記述できます。その意味で、ゲノムというのは、まさにデジタルコンピュータ(の記録媒体)であると見なすことが可能です。このような、情報蓄積形態の計算機科学との親和性の高さが、初期のバイオインフォマティクスの発展に大きく貢献したのは間違いありません。DNA→RNA→タンパク質というように、DNAの変化はタンパク質のアミノ酸の並びに影響を与えることができる一方、その逆は決してありえないというゲノム科学の大法則こそが、セントラルドグマです。

2. デジタル処理としてのセントラルドグマ

このように、ゲノム(DNA)は、生物現象の全ての司令塔であると同時に、デジタルデータでも表せます。となれば、DNAは、生物学と情報学の境界に位置するバイオインフォマティクスの標的になるのは必然的です。

さらに、ゲノムは単にデジタルデータであるという以上に、現在のコンピュータに対して親和性の高い部分が多々あります。例えば、プログラムとデータがきちんと別れた状態で記録されていないことです。私たちが普段使っているコンピュータは、実行部分であるプログラムと音声や映像などのデータ部分が、ハードウェア的には全く同じメモリという領域に保存されています。従ってあるデータが、ただのデータなのか、あるいは実行可能なプログラムなのかは、あらかじめ目印でも付いていない限り区別はできません。極端な場合、実行してみて初めてどちらであるかはっきりすることさえあります。

いわばゲノムとは、人間には意味不明であっても、確実に動くことだけは分かっているコンピュータのOSとデータ、アプリケーションなどの混然一体となったものが、DNAで構成されたメモリという同じカード(=ゲノム)の上にデジタルデータとして記録された総体であるといっても過言ではありません。

3. コンピュータで挑む

続きは、保管用PDFに掲載中。ぜひ、下記よりダウンロードして、ご覧ください。