
蜀恢 498 和日本晴全基因的比較顯示了染色體端粒的有無及二者之間的結(jié)構(gòu)變異分布。
隨著 PacBio 單分子實時(SMRT)測序技術(shù)的發(fā)展,利用它已能夠獨立完成高質(zhì)量基因組草圖的組裝。然而,這些草圖序列中仍然存在多種錯誤,比如序列中會包含有很多嵌合體(即不同位置的序列連接到了一起)或是組裝質(zhì)量比較差的區(qū)域等,特別是重復(fù)序列區(qū)域有的沒有組裝出來,有的組裝出來多個序列,而且這些錯誤通常也難以檢測。另外,單純利用 SMRT 測序還只能裝出一個個的 DNA 小片段,而要連成整條染色體的序列,則需要借助于遺傳圖譜,或是最近發(fā)展的 Hi- C 技術(shù)。然而,簡單利用這兩個技術(shù)形成的染色體序列,仍存在很多的缺陷:(1)小的片段難以放到染色體上,導(dǎo)致形成的染色體序列上有大量的缺口;(2)放上的片段中包含有大量的順序排列錯誤和序列的方向錯誤。這樣形成的染色體用作參考基因組進行基因定位,容易漏掉基因或?qū)е洛e誤的定位。
為了利用現(xiàn)有的技術(shù)進行高質(zhì)量的植物基因組組裝,中國科學(xué)院遺傳與發(fā)育生物學(xué)研究所梁承志研究組與四川農(nóng)業(yè)大學(xué)教授李仕貴合作,從 2014 年開始對一個秈稻基因組蜀恢 498(R498)進行 PacBio 單分子測序,結(jié)合遺傳圖譜和 fosmid 文庫測序,并利用了 BioNano 光學(xué)圖譜的驗證,最后得到一個長度為 390.3 Mb 的基因組,共由 17 個連續(xù) DNA 片段(Super-Contig)組成,包括 7 條頭尾相連的染色體和 5 條分成兩個 Super-Contig 的染色體。蜀恢 498 的基因組是目前所有高等動植物中組裝質(zhì)量最高的基因組,除了 5 個著絲粒重復(fù)序列區(qū)域和其它少數(shù)幾個串聯(lián)重復(fù)序列區(qū)域,整個基因組都被組裝了出來;其基因組完整性和連續(xù)性都大大高于日本晴及擬南芥等基因組,且有更低的錯誤率。這個結(jié)果也顯示了秈稻的基因組大小不超過 395 Mb。他們在 R498 序列中發(fā)現(xiàn)了兩個核仁組織區(qū),多于日本晴基因組的一個。通過比較兩個基因組上的基因序列可以看出,超過 2 / 3 的基因有序列上的差異,兩個基因組之間也含有大量的由于轉(zhuǎn)座子獨立插入導(dǎo)致的結(jié)構(gòu)變異。此外,他們還組裝出了一個完整的線粒體序列,發(fā)現(xiàn)了日本晴線粒體序列中的幾個大的錯誤,也發(fā)現(xiàn)了目前日本晴基因組參考序列中錯誤地摻入了很多線粒體和葉綠體的序列。作為參考基因組,R498 序列將被用于秈稻突變基因的定位,及秈稻群體的全基因組關(guān)聯(lián)分析。蜀恢 498 基因組的完成,顯示了在現(xiàn)有的技術(shù)條件下,得到一個接近完成并在染色體水平上具有連續(xù)序列的高質(zhì)量參考基因組是可行的,對于提高目前高等動植物基因組的組裝質(zhì)量具有重要的指導(dǎo)意義。
該項研究于 5 月 4 日在《自然 - 通訊》(Nature Communications)雜志在線發(fā)表(DOI:10.1038/ncomms15324)。梁承志研究組博士生杜會龍,工作人員于瑩、馬延飛、高強和曹英豪為該論文的共同第一作者。該文通訊作者是梁承志和李仕貴。該研究得到了中科院戰(zhàn)略性先導(dǎo)專項和國家自然科學(xué)基金項目的資助。