研究開発読本

膨大なデータからがんの根源を探りだす

個別化医療を支えるために、解析技術の進歩によって得られるようになったゲノムのビッグデータから、生命現象や病気の理解につながる情報を引き出すための研究を行っています。

※こちらはサブ課題Ａの研究開発読本のページです。【サブ課題Ａ・サブ課題Ｂ・サブ課題Ｃ】

関連記事：
ニュースレターVol.6 Research Report がんの遺伝子解析とスーパーコンピューティング
 ニュースレターVol.10 Research Report スーパーコンピュータが照らし出すがんの多様性
 ニュースレターVol.14 Research Report 次世代のがん治療に向けた変異検出の高精度化

今までのがん研究は、特定の遺伝子に注目しその役割を調べるのが主流でした。最近では、遺伝情報や遺伝子の発現(それぞれの遺伝子がどれだけ使われているか)、タンパク質などを網羅的に探索しようとする研究分野(オミックス)が盛んになり、オミックスデータと呼ばれる、大規模な臨床データも得られるようになりました。

「京」やポスト｢京」(スーパーコンピュータ｢富岳」)を用いてそれらの膨大なデータから有用な情報を引き出す技術開発が進めば、病気の危険性を調べたり、最適な治療法や予防法の選択や副作用の回避などが可能になります。

サブ課題Ａの研究は、がんをシステムとして捉え、より大局的な理解を目指して、数理的手法とスーパーコンピュータの圧倒的な計算力を駆使し、がんの病態とオミックスデータの関係性を調べることでがんの理解を深めていきます。

　どうしてがんになるの？　

がんはDNAの変異によって生じる病気です。
変異といっても、からだの中ではそれほど珍しい現象ではありません。細胞中のDNAは、お酒やたばこなどの生活習慣や、紫外線、アスベストやウィルス感染などの外的要因や加齢など、さまざまな要因によって傷つきます。

小さな傷なら自己修復機能によって回復します。修復できない大きな傷や修復に失敗したときは、その細胞は自ら死ぬようにプログラムされており、新しく作られた細胞に置き換えられます。このように通常はDNAに異常が起きても正常な状態に戻ります。

ところが修復されなかった細胞が生き残ることがあります。修復も細胞死も免れて生き残った細胞（変異細胞）のDNAに変異が蓄積していくのです。
変異の蓄積により、例えば細胞分裂を制御する働きが壊されて細胞が異常増殖し始めて、がん細胞に変化します。
※浸潤
発生場所で増え続けていくとともに、周りの器官に直接広がっていくこと
※転移
周囲にある血管やリンパ管に入り込み、血液やリンパ液の流れでたどりついた場所で広がること
※がんの血管新生
がんは、ゲノムに生じた複数の遺伝子異常が複雑に組み合わさって、自分自身で増殖命令を出し、外からの増殖停止命令を無視し、浸潤・転移により健康なところへ飛んでいき、無限に細胞分裂を繰り返しながら、その生存と増殖のため勝手に血管を作りまくり（がんの血管新生）、がんをばらまき、壊れているにもかかわらず自滅するシステムが機能しない、というシステムであることが明らかになりました。たとえば、血管新生を遮断する治療法は、がんを「兵糧攻め」にできるため、がん治療法の基本概念のひとつになっています。

　大規模データをスパコンでひも解く　

スーパーコンピュータを使ってがんの原因を特定するには、はじめに正常細胞とがん細胞を複数の患者さんから取り出し、ゲノムの配列を調べます。そして数理的な手法を使って、特定の配列が変異を含むか含まないかを推定するプログラムを構築し、スーパーコンピュータに実装。遺伝子配列をスーパーコンピュータに読み込ませ、解析を行います。解析の結果をもとにさらに詳細に調べることで、その背後に隠されている生命現象の本質に迫ることができるのです。

※シークエンサー
生物のDNA情報を読み取る装置のこと。A, T, C, Gの文字で綴られるゲノム情報（ヒトの場合30億文字のDNA情報）をコンピュータで読めるように取り出すことを「シークエンス」とよんでいます。私たちのゲノムは平均で300文字に１か所の割合で少しずつ異なっています。シークエンサーからでてくる生のデータは、たとえて言えば、30億文字が印刷された書類のコピー30部をシュレッダーにかけて出てくる、100文字ほどの長さに切り刻まれた断片の山です。

　膨大なデータの解析にはスパコンが不可欠　

全ゲノムを対象にしたがんの研究では一般的に、1サンプル当たりDNA30～40コピー分(ヒトのDNAは約30塩基対あるので、900～1200億文字のデータになる)の塩基配列情報を読み取ります。よく利用されているシークエンサーは約100数十文字の断片にするので、断片の塩基配列の長さを100塩基と仮定すると、断片の本数は約10億本になります。このような膨大なデータを高速に処理するためには、スパコンが必要なのです。

　成果：がん細胞が免疫の攻撃を逃れるしくみを解明　

本来、生体には「免疫」の働きが備わっており、がんの発症を防いでいます。しかし、がん細胞は免疫細胞からの攻撃を逃れるためにPD-L1タンパク質を細胞表面に出すことがあります。このPD-L1タンパク質と、免疫細胞のPD-1タンパク質が結合すると、攻撃にブレーキがかかります。ブレーキの部分は免疫チェックポイント、ブレーキを阻害する薬である抗PD-1抗体や抗PD-L1抗体は、免疫チェックポイント阻害剤（以下、「阻害剤」）と呼ばれています。阻害剤はがん免疫の働きを回復させ、がん細胞の増殖を阻止できると考えられており、実際の治療で使われています。多くのがん種で、顕著な臨床効果を示し、末期がん患者にも効果が認められています。

しかし阻害剤は特定のがん種では極めて高い効果がありますが、他のがん種では効く割合が大変低く、また特定のがん種であっても全ての患者に効くわけではありません。治療費も高額で、治療効果を正確に予測し効果の期待される症例に同薬剤を選択的に投与するためのバイオマーカーの開発が望まれていますが、いままで臨床的に有用なバイオマーカーは知られていません。マーカーを見出すには、がん細胞がどのようにPD-L1分子を出して免疫を回避するのか、薬が効く・効かない人がいるのはなぜか、の理解が鍵になります。2016年、サブ課題Aの研究チームは、がん細胞が免疫細胞の攻撃から逃れるしくみの一端を解明することに成功しました。

　未来の医療のためにはポスト｢京」(スーパーコンピュータ｢富岳」)が不可欠　

この成果を踏まえて、高額な医療費を必要とする免疫チェックポイント阻害抗体を用いた治療に対するバイオマーカーの開発が進んでおり、「再発または難治性成人T 細胞白血病・リンパ腫」への免疫チェックポイント阻害剤ニボルマブの臨床試験が進行中です。ニボルマブの効果予測ができれば、治療効果を最大限にし、国の医療費も抑えられます。今後もさらに研究を進め、バイオマーカーやコンパニオン診断薬の開発といったプレシジョンメディシンへの適用をめざします。

今回は「京」などの計算力で、膨大な量のゲノムデータを解析することで末期がんに効く薬に関係する重要な成果を出すことができました。しかしながら、全世界で産出されるゲノムのデータ量は急速に増えています。2020年頃には、その総データサイズは2 エクサバイトを超えると予想されています。そのような大量サンプル数そして大規模なデータを解析して、いまだ治療法が未知の疾病のメカニズムの解明等、医療や健康に有用な情報を抽出するためには、ポスト｢京」(スーパーコンピュータ｢富岳」)のようなスパコンが不可欠なのです。

＜詳しい情報＞
研究紹介記事：ニュースレターVol.2 Research Interview 大規模データ解析で生命システムを明らかに
プレスリリース：
がん細胞が免疫から逃れるメカニズムの解明－免疫チェックポイント阻害剤への効果予測への応用に期待－