2017年9月30日 星期六

諾貝爾獎前奏:改變生命密碼的CRISPR-Cas9技術

DNA是生命的密碼,上次介紹過很厲害的次世代定序,幫助我們破解這個密碼。但如果我們想再進一步,想改變這個密碼,從而改變生命呢?今次史丹福想介紹一個幫助我們改變基因,從而改變生命的突破性新技術──CRISPR-Cas9技術。

CRISPR-Cas9是一個可以隨意切斷任何指定的DNA位置,從而刪除或者改變某個特定基因。其實在CRISPR/Cas9出現之前,科學家都有幾個方法可以做到這個工作,如ZFNZinc Finger Nuclease)及TALENTranscription Activator-Like Effector Nuclease),但這些蛋白質都不容易製作,科學家往往要費九牛二虎之力才能編輯一個基因,而且它出錯的機會也很高。這些困難要等到 CRISPR – Cas9技術出現才得以解決。

故事發生在1990年代初,地中海的一個美麗港口──聖波拉。博士後研究生Francisco Mojica在這個港口城市長大,所以他的研究也是跟這個海港有關的Haloferax mediterranei──一種在聖波拉沼澤中分離出來,可以在極高鹽分環境下生長的細菌。他在這種細菌的DNA中找到一個很有趣的結構。這些約30bpDNA片段前後對稱,也就是正著念和反著念都相同。它們不斷重複,而且中間隔著約36bp的間隔DNA。簡單來說,你可以想像這個結構像是一條串燒,這條串燒由很多腸仔組成,但腸仔中間是不同的其他食物,可以是菠蘿,可以是魚蛋,可以是燒賣,所以結構就是「腸仔-菠蘿-腸仔-魚蛋-腸仔-燒賣-腸仔」。「腸仔」就那個約30bp,前後對稱的DNA片段;而其他食物就是中間隔著的間隔DNA

Francisco Mojica後來發現石野良純帶領團隊已經在大腸桿菌的DNA中發現了類似的結構,但這個日本的團隊似乎未領會到它的重要性,Francisco Mojica卻堅信這個特別的DNA結構一定是非常重要的。他之後繼續他的研究,他在多種細菌中都發現了類似的結構,並把這個結構命名為常間回文重複序列叢集(clustered regularly interspaced short palindromic repeats),簡稱CRISPR。但這個結構有甚麼用呢?有科學家提出過DNA修復、基因調控等假設,但都找不到證據支持。結果問題還是由Francisco Mojica自己解決,他首先提出了證據,顯示CRISPR是細菌的後天免疫系統。這真是個新奇的發現,人們從來都沒有意識過細菌是有後天免疫系統的。

之後,很多科學家都投入了CRISPR的研究,他們發現原來CRISPR中間的序列是其他病毒的基因。他們也發現了幾個與CRISPR相關的基因,叫做CASCRISPR associated proteins)。當病毒入侵細菌時,會把自己的基因注入細菌中,而細菌為了防禦,它的CAS基因會轉譯出CAS蛋白,CAS會把病毒基因消化,然後把病毒基因放在CRISPR基因中間,令病毒基因變成「串燒」的一部分。

當相同的病毒再入侵細菌時,細菌已經「記得」這個基因。間隔DNA會轉錄出CRISPR RNA,簡稱crRNA。其中一種CAS蛋白Cas9會與crRNA結合,Cas9蛋白靠crRNA認出入侵的病毒基因,把基因的雙鏈DNA分開並切斷,毀滅了這個DNA,防止了病毒感染。

CRISPR如何幫助細菌對抗病毒入侵 (來源:Science in the News (Harvard University))

你們可能會覺得,這個故事到目前為止都只是一個研究細菌基因的基礎研究,為什麼可以發展成為一套改變生命密碼的革命性技術?其實很多時候,突破性的科學應用技術都是來自基礎的科學研究,而且基礎科學家最初作研究的時候,根本就不會知道這些知識在未來會有如此意想不到的應用價值。

Francisco Mojica最初研究CRISPR,純純是出於到細菌特殊基因結構的好奇,之後的發展是他完全是他意料之外的。所以當下次有人問你基礎科學研究有甚麼用的時候,你可以用這個故事為例子,並且告訴他:No knowledge is useless。世界上並沒有無用的知識,只有認識得不夠深入,不知道怎樣去用的人。

好,讓我們繼續一起看看故事的發展。Emmanuelle Charpentier是一位法國的微生物學家,她對找出一種常見細菌Streptococcus pyogenes的調節性RNA(對調節性RNA有興趣的朋友可以參考史丹福的舊文章)很有興趣,她在CRISP基因位置附近找到了幾個有潛質的RNA,但她沒有方法再進一步去得知這些RNA的特性,直到她在一個科學會議上遇上了另一位德國微生物學家Jorg VogelJorg Vogel提議用新的次世代定序技術(對次世代定序有興趣的朋友可以參考史丹福的舊文章)去研究這個問題。他們最後發現了一個協助CRISPR系統的RNA──tracer RNATracer RNA會處理crRNA,然後與CAS9一起合作抵擋病毒的入侵。

之後Emmanuelle Charpentier2011年遇到改變她一生的拍擋──加州大學柏克萊分校(University of California, Berkeley)的RNA專家Jennifer Doudna 。她們決定一起合作去繼續鑽研CRISPR-Cas9。她們有一個新想法,就是把crRNAtracer RNA連在一起,製造一個單一的RNA,她們稱這一個單一RNAsingle-guided RNA,簡稱sgRNA。而且她們發現只要她們把想要被目標DNA序列加進這個sgRNA中,sgRNA就可以引導Cas9去切割這個目標。這個方法大幅度地簡化了CRISPR-Cas9系統,令世界各地的科學家可以輕易地切割任何目標DNA序列。

a. 細菌利用crRNAtracer RNA去引導Cas9切割拍定的DNA序列
b. Emmanuelle CharpentierJennifer DoudnacrRNAtracer RNA連在一起,製造出single-guided RNA
(來源:Sander JD, Joung JK. CRISPR-Cas systems for editing, regulating and targeting genomes. Nature Biotechnology 2014:32,347-355.

DNA被切割後,就可以由兩個不同的方法去修復,第一個叫non-homologous end joiningNHEJ),這個方法會為被切割帶來一個缺失(deletion)或插入(insertion),後果就是把這個基因的功能刪去。第二個方法叫做homology directed repairNDR),這個方法甚至可以把一段新基因加進被我們切割的位置。

被切斷的DNA進行修復 (來源:Science in the News (Harvard University))

與其聽史丹福的介紹,不如讓CRISPR-Cas9技術的始創人Jennifer Doudna親自為大家講解:



2013 年美國麻省理工學院的華裔生物學家張鋒將CRISPR-Cas9系統用於哺乳動物多個基因(multiplex)的編修,並獲得成功。他是CRISPR-Cas9技術的集大成者。因為以往ZFNTALEN等基因編輯技術只可以修改一個基因,但高等生物有很多的疾病或者生物特徵都是由多個基因控制的。要一次過修改多個基因,只有CRISPR-Cas9技術能做到。

但令人意想不到的是,CRISPR-Cas9技術的成功卻挑起了科學家團隊之間的不和,最後引起了一場專利訴訟。事緣Emmanuelle CharpentierJennifer Doudna 比張鋒早了 7 個月申請 CRISPR 專利,但美國專利商標局卻把第一個 CRISPR 的專利發給張鋒,這項專利涵蓋了所有用CRISPR-Cas9技術作的真核細胞(Eukaryotic cells)基因修改。Emmanuelle CharpentierJennifer Doudna 認為雖然張鋒是第一個用CRISPR-Cas9技術去修改高等生物基因的人,但張鋒的研究卻是基於她們研究的結果,所以專利理應給她們。但張鋒卻交出了 2012 年初的實驗室筆記證明他在Jennifer Doudna的發現前已經早有利用CRISPR-Cas9技術修改高等生物基因的想法。

經過多年的訴訟,美國專利局法庭終於在今年(2017年)215日宣佈,Jennifer Doudna針對張鋒的真核細胞CRISPR-Cas9基因編輯技術的專利幹擾訴求不成立。美國專利局法庭的判決稱Jennifer Doudna團隊的專利申請只是在試管中剪切DNA片段,沒有涉及細胞、基因組及基因編輯,而且她們的研究只是對自然現象的研究,不是一個新發明,所以並不能申請專利。

但不管如何,CRISPR-Cas9技術已經為科學界帶來重大的改變。它的應用包括研究基因的功能、藥物研究、改量農作物、控制害蟲,甚至是人類的基因治療。

CRISPR-Cas9技術是諾貝爾獎的超級大熱門,它在生理學及醫學獎的熱門程度差不多就等如重力波在物理學獎的熱門程度。科學界一般相信,這項技術獲獎只是時間的問題,而獲獎最大的障礙,似乎就是科學家之間的不和。

資料來源:

1. Lander E. The Heroes of CRISPR. Cell 2016:164,18-28.

2. Sander JD, Joung JK. CRISPR-Cas systems for editing, regulating and targeting genomes. Nature Biotechnology 2014:32,347-355.

2017年9月25日 星期一

諾貝爾獎前奏:「度日如年」的次世代定序

DNA是生命的密碼,這個秘密全都記錄了在一連串ATCG四個鹼基中。這些由ATCG組成的密碼指揮著蛋白質的生成,從而影響生物的運作。只要破解到DNAATCG鹼基的次序,就等同破解到生命的秘密。

破解鹼基次序的過程叫做定序(sequencing)。其實定序也不是甚麼新奇事,科學家早在1960年代已經發明了定序的技術。現在最常用的DNA定序方法是桑格定序(Sanger sequencing),發明者桑格(Frederick Sanger)是歷史上唯一一位獲得兩次諾貝爾化學獎的科學家(除了發明了DNA定序法,他的另一個獲獎研究是完整地定出胰島素的胺基酸序列,幫助我們認識蛋白質的結構組成)。

桑格定序的做法是用特別的手段去複製出需要被定序的DNADNA是由脫氧核糖核苷酸(deoxyribonucleotide)組成的,但在這個反應中使用的使用的原材料除了脫氧核糖核苷酸,更有雙脫氧核糖核苷酸。雙脫氧核苷酸(dideoxynucleotide一旦它被加入到DNA鏈上,這個DNA鏈就不能再繼續增加長度。而且這個雙脫氧核苷酸更加入了特別的螢光部分,令它可以在雷射的作用下發出螢光。

DNA有雙螺旋結構,由兩股AT相對應,CG相對應的去氧核苷酸鏈構成,舉一個例子,假如我們目標DNA的次序是…ACGTGATA…,與它互補的一段DNA就是…TGCACTAT…,我們稱之為範本(template)。在桑格定序的過程中,DNA範本會被進行複製,這樣理論上就可以合成出我們的目標…ACGTGATA…

現在假設A’T’C’G’分別是ATCG的雙脫氧核苷酸版本,只要它們一加到DNA鏈上,這個DNA鏈會停止增加長度。

如果第一個裝進去的是A’,那這段DNA就完結了。
如果第一個裝進去的是A,那DNA複製可以繼續,如果第二個裝下去的C’,那這段DNA又完結了。我們得出的DNA段就是AC’

如此類推,我們可能得出的DNA鏈分別是
…A’
…AC’
…ACG’
…ACGT’
…ACGTG’
…ACGTGA’
…ACGTGAT’
…ACGATATA’
…ACGATATA…

這幾段DNA鏈有不同的重量,只要用毛細管電泳(capillary electrophoresis)分離,然後用雷射找出最末端雙脫氧核苷酸發出那一種色的螢光,就可以得到這段DNA排列的次序。大家可以參考下圖。

桑格定序的原理(來源:Lieberman M, Peet A. (2018). Marks basic medical biochemistry: a clinical approach. Philadelphia: Wolters Kluwer.)


桑格定序是一個非常聰明的定序方法,問題是它到了今天很多時候都力不從心了。桑格的方法每次可以定序約1,000 bp,即一千個鹼基,這大約是一條基因的大小。如果遇到較大的基因,也可以分開幾次去定序,只是可能要花多一點時間。但現今的生物科技人員希望的是為大量的基因,甚至是生物的整個基因組定序。以人類為例,人類的基因組共有30億對鹼基。 幸好,一項革命性的科技成功扭轉了這個局面。這項技術有一個很壯麗的名稱,叫做「次世代定序」 Next Generation SequencingNGS)。

不同公司已經推出過很多不同原理的次世代定序方法,但它們的大原則基本上是一樣的,就是:
1. 先把一大段要定序的DNA隨機的打散
2. 把打散了的DNA片段分開,然後各自大規模複製
3. 同一時間為大量打散的DNA片段定序
4. 透過強大的電腦,利用隨機打散的DNA次序重新組回原來的DNA次序

這個原理就好像,如果同學被老師罰抄一本書,當然要好多時間。但如果有方法可以把這本書分成很多部分,一大班人同時抄書中不同的部分,最後把各自抄完的部分跟次序併合回成為原本的抄本,那樣就省時省力了。在過往,最後的一個步驟在技術上是沒有可能的。如此大量DNA的資料亂七八糟,就如亂碼一樣,試問怎麼可能可以併回成原狀呢?幸好現在有非常強大的電腦,可以用複雜的統計學方法完成這個任務。

要知道次世代定序有多利害,讓史丹福跟大家分享一些驚人的數字。2003 年人類基因體完整定序圖譜完成,共用了 13 年的時間和 27 億美元的費用,定序了一組基因體序列共30億個鹼基,也就是基因體的一半。到了今天,使用最新的次世代定序方法,完成一個人的基因體定序僅需26小時和 1,500 美元!那簡直是一個天與地的距離!史丹福在標題中使用的「度日如年」是一個「食字」,意思就是科學家過去用十幾年才完成到的任務,在今天使用次世代定序,可以在幾日內完成

歷史上第一個次世代定序的系統是由Jonathan Rothberg創立的454生物科學公司在2005年所創作的。後來,454生物科學公司於2007年被羅氏集團(Roche)所收購,所以這個次世代定序方法現在被稱為羅氏454。我們先看看這個系統的運作方法:

1. 先把一大段要定序的DNA隨機的打散

2. 把打散了的DNA片段分開,然後各自大規模複製:

先為打散的DNA短鏈加上接頭(adapter,一節幫DNA短鏈與瓊脂凝膠珠子連接的DNA),然後用一種特別的技術「乳液PCR」(emulsion PCR)把它們大量複製。做法是把DNA短鏈與一種特製的瓊脂凝膠珠子混合。這些特製的珠子有很多寡核苷酸(oligonucleotide),與接頭互補。然後再用礦油與水調成一個微乳液(microemulsion),把各個連上DNA短鏈的珠子分開。這時,每個微乳液就是一個反應器,PCR反應在這些微乳液裡進行,最後每個珠子上都有過百萬段複製出來的DNA短鏈。 接著把微乳液打散,把珠子轉移到微孔板,板上有大量的微孔,每個微孔有一顆珠子,珠子上有數百萬條同一個序列的DNA短鏈。

「乳液PCR」的運作原理 (來源:Casey G, Conti D, Haile R, Duggan D. Next generation sequencing and a new era of medicine. Gut 2012: 62(6), 920-932.

3. 同一時間為大量打散的DNA片段定序

做好準備工作後,羅氏454使用的定序方法是焦磷酸定序(pyrosequencing)。這項技術是由技術是由Mostafa RonaghiPål Nyrén1996年在斯德哥爾摩的皇家工學院發展出來的。做法是把四種脫氧核糖核苷酸輪流加入,每次只加入一種。當脫氧核糖核苷酸加入去DNA鏈時,會釋放出焦磷酸(PPi)。焦磷酸與APS反應,會生成ATP。如果大家讀過生物學,都一定會對ATP很熟悉,它是一種可以儲存能量的分子。它釋放的能量可以與螢光素氧化為氧化螢光素。系統透過偵測光信號的強度,就可以得知有多少脫氧核糖核苷酸被加進DNA鏈中。加入得越多,反應釋出的光信號就越多。之後系統會用酵素把多出的脫氧核糖核苷酸輪降解,再加入另一種脫氧核糖核苷酸輪,直到每個微孔上珠子的DNA都被完整地定序。

454系統使用的焦磷酸定序(來源:Goodwin S, Mcpherson JD, Mccombie WR. Coming of age: ten years of next-generation sequencing technologies. Nature Reviews Genetics, 2016:17(6), 333-351.

4. 透過強大的電腦,利用隨機打散的DNA次序重新組回原來的DNA次序

454是一個劃時代的新定序方法,但之後由兩位英國劍橋大學科學家David KlenermanShankar Balasubramanian成立的Solexa公司很快就發表了另一個次世代定序系統,而且非常成功,它的光芒可以說是完全把454完全掩蓋了。這兩位科學家原先是打算用螢光標記的脫氧核糖核苷酸去觀察DNA聚合酶(DNA polymerase)去觀察這種酵素在複製DNA時的移動模式,誰不知他們討論時卻忽發奇想到想到用這個原理來製造出新的DNA定序方法,於是他們就設立了Solexa公司去繼續落實他們的想法

Solexa公司於 2007 年被Illumina公司買下,目前Illumina 堪稱 DNA 定序的全球龍頭,全世界約九成的次世代定序工作都是由Illumina的機器所完成的。

Solexa(即現時的Illumina)系統用的概念與545系統類似,但細節上卻是完全兩回事。讓我們一起看一看Solexa系統的運作原理。

1. 先把一大段要定序的DNA隨機的打散

2. 把打散了的DNA片段分開,然後各自大規模複製:

Solexa系統用了一個與乳液PCR完全不同的方法,它先為打散的DNA短鏈加上接頭,然後把它們與特製的晶片連接,晶片表面帶有大量與接頭序列互補的寡核苷酸。

之後DNA短鏈彎下來,讓另一接頭與旁邊的寡核苷酸連接,形成一個類似橋的結構。再加入脫氧核糖核苷酸,讓「橋」可以複製成兩段。然後又讓兩段「橋」重新弄直。讓這個過程不斷重複,最後在晶片上做出一大堆不同的DNA短鏈群,每一群都是由相同的DNA短鏈複製出來的。這個方法被稱為「橋式PCR」(Bridge PCR)。

「橋式PCR」的運作原理(來源:ATDBio

3. 同一時間為大量打散的DNA片段定序

Solexa系統用的方法叫做合成性定序(Sequencing by synthesis),方法是類似最基本的的桑格定序。它由Solexa公司的始創人,之前提及過的David KlenermanShankar Balasubramanian所發明。

它使用了一種特別的脫氧核糖核苷酸。這種新研發的特殊脫氧核糖核苷酸比桑格定序使用的雙脫氧核苷酸又進步多了。它都帶有螢光的部分,每一種脫氧核糖核苷酸有不同的顏色,它本來可以令DNA短鏈不再增長,但在經過特殊的化學反應之後,又可以令DNA短鏈重新再繼續增加長度。

當一個脫氧核糖核苷酸被加進DNA短鏈,反應就會停止,DNA短鏈不能再繼續增加長度,系統會記錄脫氧核糖核苷酸的顏色,這樣系統就可以知道被加進的是那一種脫氧核糖核苷酸。然後在經過特殊的化學反應之後,另一脫氧核糖核苷酸可以再被加進DNA短鏈中,這個過程不斷重複,直到晶片上的每一群DNA短鏈都被完整地定序。

Solexa系統使用的定序法(來源:ATDBio

4. 透過強大的電腦,利用隨機打散的DNA次序重新組回原來的DNA次序

其實除了454Solexa系統之外,不同的次世代定序系統如也都陸續被推出,如SOLiD系統、Ion Torrent系統,但由於篇幅所限,史丹福就只介紹兩個最有代表性的系統。

次世代定序的出現對科研工作帶來了革命性的改變,以癌症研究為例,科學家現場可以輕易地把各種癌症的全基因體序列定出,所以現在找尋致癌基因要比以前容易得多了。除了科研外,次世代定序對臨床醫學也帶來了翻天覆地的變化,令到「個人化醫學」(personalized medicine)不再是幻想。甚麼是「個人化醫學」呢?簡單些來說就是為每個病人都制定出獨一無二,最適合他們的療法。以急性髓性白血病(Acute myeloid leukemiaAML)為例,在過去醫生會用大致上相同的療法去治療這個疾病,但現在我們已經知道至少四十多組基因是與這個疾病有關的(未來應該會繼續増多),如果我們可以知道每個病人這四十多組基因的狀態,我們理論上就可以更準確地預測病情,用一些可以針對特定基因的藥。但如果用傳統的桑格定序,要定出四十多組基因的序列,以一般醫院的資源來就簡直是痴人說夢。直到次世代定序的出現,醫生的這個願望即刻變得近在咫尺。事實上,現在已經有不少醫院引進了或準備引進這個科技,相信這將會是病人之福。

1980年,桑格因發明了DNA定序法而獲得了諾貝爾化學獎。到了今天這個「次世代」,不知道桑格的繼承者們又會否得到這個榮耀呢?


資料來源:

1. Goodwin S, Mcpherson JD, Mccombie WR. Coming of age: ten years of next-generation sequencing technologies. Nature Reviews Genetics, 2016:17(6), 333-351. 

2. Voelkerding KV, Dames SA, Durtschi JD. Next-Generation Sequencing: From Basic Research to Diagnostics. Clinical Chemistry, 2009:55(4), 641-658. 

3. Illumina | Sequencing and array-based solutions for genetic research ( https://www.illumina.com/ )