この記事はIQ1 Advent Calendar 2019 の8日目の記事です。
IQ1 Advent Calendar 2019 – Adventar
https://adventar.org/calendars/4115

 

※ IQ1記事です。内容の正確さは全く保証しかねます、助けて/許して
※ 「塩基配列」と「DNA配列」という言葉を混ぜて使っていることがありますが大体同じ意味だと思ってください。本当はちゃんと区別した方が良いです。

 

生物の塩基配列、つまりDNAまたはRNAの配列が知りたい、今すぐ、安く、お布団で寝ているだけで・・・

どうして?
・役に立つタンパク質(インスリンとか免疫グロブリンなど)の設計図が得られる

・健康や病気とかを予知できるかも知れない
ただし現状ではDNA配列で確定的に影響が分かるのは頻度が稀な遺伝病のみ。認知症や一般的ながんになるならないなどは今のところよく分からない。でも将来、関係性が明らかになった時に国民1人調べるのに3000億円・15年が必要となると国民全員を調べるのは無理です。

・その生物の起源が分かる

他にも色々いい事があります

 

塩基配列を調べる方法
たくさんありますがその中でも非常に有名な3つの方法があります。
(主に「DNAシーケンサー」と記述しますが、RNAは別の反応でDNAに変換可能です)

1. サンガー法
昔ながらの塩基読み取り方法。今の高校生物でも教えることがあるそうです。
原理は以下の動画が分かりやすいです
The Sanger Method of DNA Sequencing – YouTube
https://www.youtube.com/watch?v=FvHRio1yyhQ

反応液を調製したり電気泳動したりといった実際の実験の様子は以下の動画が分かりやすいです
サンガー法による配列読み取り手法(再現映像) その1 – YouTube
https://www.youtube.com/watch?v=dq8KWC9UJcY

サンガー法による配列読み取り手法(再現映像) その2 – YouTube
https://www.youtube.com/watch?v=JrAr6wFxSds

動画通りの古典的な手作業なので塩基配列の読み取り速度は非常に遅いです。
この読み取りの遅さを解消するために、以下2つで記述するDNAシーケンサーと言う塩基配列を読み取る専用の機械を使い、機械の内部で蛍光標識を用いた合成によるシーケンシングと、ショットガン・シークエンシング法によって読み取りを並列化させて速くしています。

 

方法2と方法3の前にDNAシーケンサー(≒ 並列化)の簡単な原理を説明
以下で記述する方法2及び3のDNAシーケンサーの簡単な原理として、
私はその人を常に先生と呼んでいた。」という未知の塩基配列があったとします。
この文字列を大量コピーして、ランダムな位置で切断して5文字の断片にした上に、それぞれを並列に読み取ると以下のような断片読み取り結果が得られます。

断片1 常に先生と
断片2 私はその人
断片3 の人を常に

横書きの日本語では必ず左から右と読み取り方法が決まっているのと同様に、DNAも読み取り方向が必ず決まっていてその方向でしか機器で読み取れません。
この事実と断片1~3の文字列同士の重なりを利用すれば、
私はその人を常に先生と」までの文字列が再構成できます。他の断片も大量に読み込んで、それを繰り返して「私はその人を常に先生と呼んでいた。」という完全な文字列を再構成します。
DNAも同様にしてA, T, G, Cから成り立っている塩基断片を読み取って完全な長さのDNAを得ます。ヒトゲノムでは3000Mb(つまり3000×106文字)の大きさです。

一言で言うと「並列化」がミソです

 

2. キャピラリーシーケンス法を利用したDNAシーケンサー
2000年頃のちょっと昔の塩基配列決定法。自動化 + 2~96本くらいの並列化によってサンガー法に比べて読み取りが速い。
速度は機種で違いますがおおまかに100k~1Mb/day(※)程度です。サンガー法が1塩基対ずつ手作業で読み取っていたのに比べればかなり速いです。詳しくはページ末参考の「次世代シーケンシング(NGS)とは | コスモ・バイオ株式会社」に載っています。
この方式のDNAシーケンサーはかつて日立が圧倒的に強かったそうです。私ももう稼働していない日立製のシーケンサーを見たことはあります。
※ Mb/day = 1×106 base(塩基)/1日の意味です

 

3. 次世代シーケンサー(Next generation sequencer, NGS)
現在の主流のシーケンサー機器および方法。並列度がとんでもないので読み取り速度は100 Gb/dayほどで圧倒的に速いです。イルミナ社が非常に有名です。現在ではヒトゲノム全てを読み取るのに期間が1日、費用が10万円前後と劇的に手軽になりました。

ただしこれらショットガン・シークエンシング法は完全無欠の塩基読み取り方法ではありません。

問題点1 繰り返し配列に弱い
私のDNA配列に、「私はIQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1IQ1です。」という塩基配列が含まれているとします。(IQ1の繰り返し数20回)これでは5文字の断片を用いるとIQ1繰り返し数の決定は不可能です。

問題点2 似た父性、母性由来の塩基配列が決定できない
ヒトの染色体は父、母から1本ずつ染色体を受け継ぎますがそれらの塩基配列は非常によく似ています。
仮にその中に含まれている塩基配列が

父由来 「私はその人を常に先生と呼んでいた。」
母由来 「私はこの人を常に先生とよんでいた。」

が正しい配列だとしても、5文字断片で読み取ると候補が4つ出現します。

候補1 「私はその人を常に先生と呼んでいた。」(正しい父性配列)
候補2 「私はこの人を常に先生と呼んでいた。」
候補3 「私はその人を常に先生とよんでいた。」
候補4 「私はこの人を常に先生とよんでいた。」(正しい母性配列)

どれが正しいのかは決定できません。(「ハプロタイプフェージング」と言うそうです)

 

以上2つの問題点は読み取る断片を5文字より多くすれば解決します。これをDNAシーケンサーでは「リード長」と言い、1断片から読み取る塩基配列の長さを表します。
現に次世代シーケンサーにもいくつか世代があり、断片のリード長が長い機種も存在しますが現状では全体の読み取り速度とトレードオフだそうです。

 

参考(全部とても分かりやすい)

次世代シーケンシング(NGS)とは | コスモ・バイオ株式会社
https://www.cosmobio.co.jp/support/technology/a/next-generation-sequencing-introduction-apb.asp

 

2019年度 バイオインフォマティクス 講義ノート
https://www.dna.bio.keio.ac.jp/lecture/bioinfo/bioinformatics-2.pdf

https://www.dna.bio.keio.ac.jp/lecture/bioinfo/ より

 

おわり