2017年9月25日 星期一

諾貝爾獎前奏:「度日如年」的次世代定序

DNA是生命的密碼,這個秘密全都記錄了在一連串ATCG四個鹼基中。這些由ATCG組成的密碼指揮著蛋白質的生成,從而影響生物的運作。只要破解到DNAATCG鹼基的次序,就等同破解到生命的秘密。

破解鹼基次序的過程叫做定序(sequencing)。其實定序也不是甚麼新奇事,科學家早在1960年代已經發明了定序的技術。現在最常用的DNA定序方法是桑格定序(Sanger sequencing),發明者桑格(Frederick Sanger)是歷史上唯一一位獲得兩次諾貝爾化學獎的科學家(除了發明了DNA定序法,他的另一個獲獎研究是完整地定出胰島素的胺基酸序列,幫助我們認識蛋白質的結構組成)。

桑格定序的做法是用特別的手段去複製出需要被定序的DNADNA是由脫氧核糖核苷酸(deoxyribonucleotide)組成的,但在這個反應中使用的使用的原材料除了脫氧核糖核苷酸,更有雙脫氧核糖核苷酸。雙脫氧核苷酸(dideoxynucleotide一旦它被加入到DNA鏈上,這個DNA鏈就不能再繼續增加長度。而且這個雙脫氧核苷酸更加入了特別的螢光部分,令它可以在雷射的作用下發出螢光。

DNA有雙螺旋結構,由兩股AT相對應,CG相對應的去氧核苷酸鏈構成,舉一個例子,假如我們目標DNA的次序是…ACGTGATA…,與它互補的一段DNA就是…TGCACTAT…,我們稱之為範本(template)。在桑格定序的過程中,DNA範本會被進行複製,這樣理論上就可以合成出我們的目標…ACGTGATA…

現在假設A’T’C’G’分別是ATCG的雙脫氧核苷酸版本,只要它們一加到DNA鏈上,這個DNA鏈會停止增加長度。

如果第一個裝進去的是A’,那這段DNA就完結了。
如果第一個裝進去的是A,那DNA複製可以繼續,如果第二個裝下去的C’,那這段DNA又完結了。我們得出的DNA段就是AC’

如此類推,我們可能得出的DNA鏈分別是
…A’
…AC’
…ACG’
…ACGT’
…ACGTG’
…ACGTGA’
…ACGTGAT’
…ACGATATA’
…ACGATATA…

這幾段DNA鏈有不同的重量,只要用毛細管電泳(capillary electrophoresis)分離,然後用雷射找出最末端雙脫氧核苷酸發出那一種色的螢光,就可以得到這段DNA排列的次序。大家可以參考下圖。

桑格定序的原理(來源:Lieberman M, Peet A. (2018). Marks basic medical biochemistry: a clinical approach. Philadelphia: Wolters Kluwer.)


桑格定序是一個非常聰明的定序方法,問題是它到了今天很多時候都力不從心了。桑格的方法每次可以定序約1,000 bp,即一千個鹼基,這大約是一條基因的大小。如果遇到較大的基因,也可以分開幾次去定序,只是可能要花多一點時間。但現今的生物科技人員希望的是為大量的基因,甚至是生物的整個基因組定序。以人類為例,人類的基因組共有30億對鹼基。 幸好,一項革命性的科技成功扭轉了這個局面。這項技術有一個很壯麗的名稱,叫做「次世代定序」 Next Generation SequencingNGS)。

不同公司已經推出過很多不同原理的次世代定序方法,但它們的大原則基本上是一樣的,就是:
1. 先把一大段要定序的DNA隨機的打散
2. 把打散了的DNA片段分開,然後各自大規模複製
3. 同一時間為大量打散的DNA片段定序
4. 透過強大的電腦,利用隨機打散的DNA次序重新組回原來的DNA次序

這個原理就好像,如果同學被老師罰抄一本書,當然要好多時間。但如果有方法可以把這本書分成很多部分,一大班人同時抄書中不同的部分,最後把各自抄完的部分跟次序併合回成為原本的抄本,那樣就省時省力了。在過往,最後的一個步驟在技術上是沒有可能的。如此大量DNA的資料亂七八糟,就如亂碼一樣,試問怎麼可能可以併回成原狀呢?幸好現在有非常強大的電腦,可以用複雜的統計學方法完成這個任務。

要知道次世代定序有多利害,讓史丹福跟大家分享一些驚人的數字。2003 年人類基因體完整定序圖譜完成,共用了 13 年的時間和 27 億美元的費用,定序了一組基因體序列共30億個鹼基,也就是基因體的一半。到了今天,使用最新的次世代定序方法,完成一個人的基因體定序僅需26小時和 1,500 美元!那簡直是一個天與地的距離!史丹福在標題中使用的「度日如年」是一個「食字」,意思就是科學家過去用十幾年才完成到的任務,在今天使用次世代定序,可以在幾日內完成

歷史上第一個次世代定序的系統是由Jonathan Rothberg創立的454生物科學公司在2005年所創作的。後來,454生物科學公司於2007年被羅氏集團(Roche)所收購,所以這個次世代定序方法現在被稱為羅氏454。我們先看看這個系統的運作方法:

1. 先把一大段要定序的DNA隨機的打散

2. 把打散了的DNA片段分開,然後各自大規模複製:

先為打散的DNA短鏈加上接頭(adapter,一節幫DNA短鏈與瓊脂凝膠珠子連接的DNA),然後用一種特別的技術「乳液PCR」(emulsion PCR)把它們大量複製。做法是把DNA短鏈與一種特製的瓊脂凝膠珠子混合。這些特製的珠子有很多寡核苷酸(oligonucleotide),與接頭互補。然後再用礦油與水調成一個微乳液(microemulsion),把各個連上DNA短鏈的珠子分開。這時,每個微乳液就是一個反應器,PCR反應在這些微乳液裡進行,最後每個珠子上都有過百萬段複製出來的DNA短鏈。 接著把微乳液打散,把珠子轉移到微孔板,板上有大量的微孔,每個微孔有一顆珠子,珠子上有數百萬條同一個序列的DNA短鏈。

「乳液PCR」的運作原理 (來源:Casey G, Conti D, Haile R, Duggan D. Next generation sequencing and a new era of medicine. Gut 2012: 62(6), 920-932.

3. 同一時間為大量打散的DNA片段定序

做好準備工作後,羅氏454使用的定序方法是焦磷酸定序(pyrosequencing)。這項技術是由技術是由Mostafa RonaghiPål Nyrén1996年在斯德哥爾摩的皇家工學院發展出來的。做法是把四種脫氧核糖核苷酸輪流加入,每次只加入一種。當脫氧核糖核苷酸加入去DNA鏈時,會釋放出焦磷酸(PPi)。焦磷酸與APS反應,會生成ATP。如果大家讀過生物學,都一定會對ATP很熟悉,它是一種可以儲存能量的分子。它釋放的能量可以與螢光素氧化為氧化螢光素。系統透過偵測光信號的強度,就可以得知有多少脫氧核糖核苷酸被加進DNA鏈中。加入得越多,反應釋出的光信號就越多。之後系統會用酵素把多出的脫氧核糖核苷酸輪降解,再加入另一種脫氧核糖核苷酸輪,直到每個微孔上珠子的DNA都被完整地定序。

454系統使用的焦磷酸定序(來源:Goodwin S, Mcpherson JD, Mccombie WR. Coming of age: ten years of next-generation sequencing technologies. Nature Reviews Genetics, 2016:17(6), 333-351.

4. 透過強大的電腦,利用隨機打散的DNA次序重新組回原來的DNA次序

454是一個劃時代的新定序方法,但之後由兩位英國劍橋大學科學家David KlenermanShankar Balasubramanian成立的Solexa公司很快就發表了另一個次世代定序系統,而且非常成功,它的光芒可以說是完全把454完全掩蓋了。這兩位科學家原先是打算用螢光標記的脫氧核糖核苷酸去觀察DNA聚合酶(DNA polymerase)去觀察這種酵素在複製DNA時的移動模式,誰不知他們討論時卻忽發奇想到想到用這個原理來製造出新的DNA定序方法,於是他們就設立了Solexa公司去繼續落實他們的想法

Solexa公司於 2007 年被Illumina公司買下,目前Illumina 堪稱 DNA 定序的全球龍頭,全世界約九成的次世代定序工作都是由Illumina的機器所完成的。

Solexa(即現時的Illumina)系統用的概念與545系統類似,但細節上卻是完全兩回事。讓我們一起看一看Solexa系統的運作原理。

1. 先把一大段要定序的DNA隨機的打散

2. 把打散了的DNA片段分開,然後各自大規模複製:

Solexa系統用了一個與乳液PCR完全不同的方法,它先為打散的DNA短鏈加上接頭,然後把它們與特製的晶片連接,晶片表面帶有大量與接頭序列互補的寡核苷酸。

之後DNA短鏈彎下來,讓另一接頭與旁邊的寡核苷酸連接,形成一個類似橋的結構。再加入脫氧核糖核苷酸,讓「橋」可以複製成兩段。然後又讓兩段「橋」重新弄直。讓這個過程不斷重複,最後在晶片上做出一大堆不同的DNA短鏈群,每一群都是由相同的DNA短鏈複製出來的。這個方法被稱為「橋式PCR」(Bridge PCR)。

「橋式PCR」的運作原理(來源:ATDBio

3. 同一時間為大量打散的DNA片段定序

Solexa系統用的方法叫做合成性定序(Sequencing by synthesis),方法是類似最基本的的桑格定序。它由Solexa公司的始創人,之前提及過的David KlenermanShankar Balasubramanian所發明。

它使用了一種特別的脫氧核糖核苷酸。這種新研發的特殊脫氧核糖核苷酸比桑格定序使用的雙脫氧核苷酸又進步多了。它都帶有螢光的部分,每一種脫氧核糖核苷酸有不同的顏色,它本來可以令DNA短鏈不再增長,但在經過特殊的化學反應之後,又可以令DNA短鏈重新再繼續增加長度。

當一個脫氧核糖核苷酸被加進DNA短鏈,反應就會停止,DNA短鏈不能再繼續增加長度,系統會記錄脫氧核糖核苷酸的顏色,這樣系統就可以知道被加進的是那一種脫氧核糖核苷酸。然後在經過特殊的化學反應之後,另一脫氧核糖核苷酸可以再被加進DNA短鏈中,這個過程不斷重複,直到晶片上的每一群DNA短鏈都被完整地定序。

Solexa系統使用的定序法(來源:ATDBio

4. 透過強大的電腦,利用隨機打散的DNA次序重新組回原來的DNA次序

其實除了454Solexa系統之外,不同的次世代定序系統如也都陸續被推出,如SOLiD系統、Ion Torrent系統,但由於篇幅所限,史丹福就只介紹兩個最有代表性的系統。

次世代定序的出現對科研工作帶來了革命性的改變,以癌症研究為例,科學家現場可以輕易地把各種癌症的全基因體序列定出,所以現在找尋致癌基因要比以前容易得多了。除了科研外,次世代定序對臨床醫學也帶來了翻天覆地的變化,令到「個人化醫學」(personalized medicine)不再是幻想。甚麼是「個人化醫學」呢?簡單些來說就是為每個病人都制定出獨一無二,最適合他們的療法。以急性髓性白血病(Acute myeloid leukemiaAML)為例,在過去醫生會用大致上相同的療法去治療這個疾病,但現在我們已經知道至少四十多組基因是與這個疾病有關的(未來應該會繼續増多),如果我們可以知道每個病人這四十多組基因的狀態,我們理論上就可以更準確地預測病情,用一些可以針對特定基因的藥。但如果用傳統的桑格定序,要定出四十多組基因的序列,以一般醫院的資源來就簡直是痴人說夢。直到次世代定序的出現,醫生的這個願望即刻變得近在咫尺。事實上,現在已經有不少醫院引進了或準備引進這個科技,相信這將會是病人之福。

1980年,桑格因發明了DNA定序法而獲得了諾貝爾化學獎。到了今天這個「次世代」,不知道桑格的繼承者們又會否得到這個榮耀呢?


資料來源:

1. Goodwin S, Mcpherson JD, Mccombie WR. Coming of age: ten years of next-generation sequencing technologies. Nature Reviews Genetics, 2016:17(6), 333-351. 

2. Voelkerding KV, Dames SA, Durtschi JD. Next-Generation Sequencing: From Basic Research to Diagnostics. Clinical Chemistry, 2009:55(4), 641-658. 

3. Illumina | Sequencing and array-based solutions for genetic research ( https://www.illumina.com/ )

沒有留言:

張貼留言