バイオインフォマティクスとは:バイオインフォマティクスの基礎知識1

バイオインフォマティクスの基礎知識

更新日:2022年8月23日(初回投稿)
著者:中央大学 理工学部 物理学科 教授 田口 善弘

バイオインフォマティクスという言葉が広く知られるようになってから、既に長い時が経ちました。Bioinformaticsという名を冠する、この分野のトップジャーナルが発行されたのが1998年、ざっくり四半世紀の歴史があるといっていいでしょう。にもかかわらず、バイオインフォマティクスという分野があることを知らない人も少なくありません。実際、バイオインフォマティクス学科というものは、日本には存在しません。似た名前の「生命(生物)情報(科・工)学科」といった名称の学科は複数あるものの、その中身は必ずしも本稿で示すようなバイオインフォマティクスそのものということではなく、それを緩く含むざっくりとした学問分野であることが多いようです。本連載では、6回にわたりバイオインフォマティクスについて、さまざまな方向から解説していきます。

1. Biology meets informatics

バイオインフォマティクスとは、生物学(Biology)と情報学(informatics)の融合分野のことをいい、生物が持っているさまざまな情報を計算機で解析する分野として期待されています(図1)。一般に、既存の学問分野に計算機が使われる場合、「計算〇〇学」というサブ学問分野が形成されることは珍しくありません(例:計算物理学、計算機化学など)。しかし、バイオインフォマティクスは生物学の分野でも、計算機科学の分野でもありません。それ自体が独立した一つの分野と見なされることが多く、例外的な存在です。それは、なぜでしょう。

図1:バイオインフォマティクスのイメージ
図1:バイオインフォマティクスのイメージ

理由の一つには、計算◯◯学が登場する時は、◯○学の専門家のうち計算機の扱いが得意な者たちが、計算機を使って研究を始めることがほとんどであるのに対し、バイオインフォマティクスは、生物学者のうち計算機が得意な者たちが起こした分野ではない、ということが挙げられます。

これは、物理学などではもともと数理科学的な研究があり、それを計算機で解くという形で計算物理学という分野が発展していったのに対して、バイオインフォマティクスが対象としている分野、例えばゲノム解析のようなものは、そもそも計算機がないと成り立たず、バイオインフォマティクスという分野の確立とゲノム科学の確立がほぼ同時だったためです。その意味で、ヒトゲノムのドラフト配列の発表が、バイオインフォマティクスという分野が確立したと思われる時期とほぼ同時の21世紀初頭2001年だったのは、実に示唆的です。

バイオインフォマティクスという分野は、生物学や情報学から派生したものというより、生物学と情報学との出会い、まさにBiology meets informaticsによって発生した、非常に特異な学問分野であるといえるでしょう。

2. データサイエンスと機械学習

上述のように、異色の出自を持つバイオインフォマティクスは、振り返ってみると、実は他分野の展開を先取りしていた部分があります。例えば、データサイエンスと機械学習の分野です(図2)。周知のとおり、今、世間は第三次AIブームに沸き返っています。バイオインフォマティクスは、その成立当時からデータサイエンスと機械学習を活用した科学でした。

図2:バイオインフォマティクスはデータサイエンスと機械学習の展開を先取り
図2:バイオインフォマティクスはデータサイエンスと機械学習の展開を先取り

一般に、データサイエンスはあらかじめ仮説を設けることなく、データ自身に対し、先入観を持たず広く平らに見つめることで、法則性の詳細を明らかにする学問です。そして、バイオインフォマティクスの方法論は、まずはゲノムを全部読んでしまい、後からその意味を考えるという点で、まさにデータサイエンスそのものです。

また、機械学習は既知の基礎方程式や法則を用いず、データから直接学び予測などを行う科学であり、バイオインフォマティクスがゲノムを解析するのに用いた方法は、まさに機械学習そのものでした。このような経緯を持つバイオインフォマティクスは、その方法論的な観点から、データサイエンスや機械学習との親和性が高いといえます。例えば、バイオインフォマティクスで博士号を取得した学生の就職先は、生物学とは縁もゆかりもないように思える、情報系の会社だったという例も散見されます。

3. バイオインフォマティクスの歴史の幕開け

バイオインフォマティクスは成立してからの歴史は浅く、まさに発展段階にある科学といえます。実際、筆者が2020年、ブルーバックスから上梓したバイオインフォマティクスの啓蒙(もう)書「生命はデジタルでできている」において、そこに書いたことのいくつかは、その後の発展によって早くも嘘(うそ)になってしまいました。今回の連載では、拙著を底本とし、その概要を紹介するとともに、その後の発展を織り込んだアップデート版としてお届けします。連載自体は文字数に制限もあり、全容は紹介できないので、さらに深く学びたい方は是非、拙著を参照してください。そして、もし興味を持ったならば、研究者として最前線に参加してほしいと思います。まだ、バイオインフォマティクスという分野の歴史は、始まったばかりなのです。

いかがでしたか? 今回は、バイオインフォマティクスの概念と成り立ちについて説明しました。次回は、バイオインフォマティクスにおけるゲノム研究を取り上げて解説します。お楽しみに!