蒼白瘧原蟲基因組計劃的主要論文(Gardner等人,2002)反复提到,基因組異常高的A + T含量(約80%)引起了問題。例如,它們暗示使用逐個克隆方法阻止了它們:
此外,從未發現過富含(A + T)惡性瘧原蟲DNA的高質量大插入文庫。
,這使得基因註釋變得困難:
許多物種的起源不能最終確定候選細胞器來源的基因,部分是由於分析非常高(A + T)含量的基因所固有的問題。
問題:
高A + T含量的生物學意義是什麼?為什麼會在基因組測序中引起問題?
蒼白瘧原蟲基因組計劃的主要論文(Gardner等人,2002)反复提到,基因組異常高的A + T含量(約80%)引起了問題。例如,它們暗示使用逐個克隆方法阻止了它們:
此外,從未發現過富含(A + T)惡性瘧原蟲DNA的高質量大插入文庫。
,這使得基因註釋變得困難:
許多物種的起源不能最終確定候選細胞器來源的基因,部分是由於分析非常高(A + T)含量的基因所固有的問題。
問題:
高A + T含量的生物學意義是什麼?為什麼會在基因組測序中引起問題?
最近20年來開發的測序技術以A + T / G + C的平均速率具有最佳的使用範圍。富含AT的區域和富含GC的區域都需要通過不同的測序技術來處理。每種技術都有不同的使用範圍,但僅舉一例, Illumina技術傾向於使用中等範圍的序列。如果您嘗試使用Illumina標準協議對富含AT的基因組進行測序,則會對不完整的基因組進行測序,該基因組的片段並不是原始完整基因組的完美體現。其他技術聲稱完全不偏向核苷酸含量。 Pacific Biosciences就是其中之一,在分析了他們的機器產生的數據之後,人們似乎同意這一說法。 Oxford Nanopore Technologies聲稱它們幾乎沒有偏差,但截至今天(2012-06-13),尚未通過外部分析證實這一點。
除測序問題外,用於組裝和註釋序列的軟件在AT富集區和GC富集區也可能容易出錯。但是,這些問題中有許多是由於測序的不完整所致。
我無法評論A + T豐富度如何使測序過程本身複雜化,但是我可以評論註釋序列時出現的複雜性。 Ab initio 基因預測子通常基於隱馬爾可夫模型,該模型對基因組中的鹼基組成(二核苷酸,三核苷酸等)非常敏感。如果這些基因發現者在基因組成上與被訓練的基因組成有很大不同的基因組上運行,則它們的性能通常非常差。這可以解釋他們在分析基因組基因時遇到的一些困難。
這不僅是從頭測序的問題,但對於許多基於測序的技術(RNA序列,ChIP序列,您喜歡的序列...)。瘧原蟲中已經採用了替代方法,但是還沒有作為標準方法。
例如,參見 H2A.Z劃定了惡性瘧原蟲表觀基因組的基因組區域,該區域通過動態標記H3K9ac和H3K4me3 ,位於 http://www.plospathogens.org/article/info:doi/10.1371/journal.ppat.1001223
過去,在大規模並行測序之前,他們建立了克隆序列的文庫並將其轉化為 E。大腸桿菌。高AT序列很難在E中維持。 (也許是由於與啟動子相似?)。
在先前的回答中已經講了很多,所以我只想簡要介紹兩個具有強烈AT / CG偏見的潛在問題:
1)由於均聚物導致聚合酶滑移的可能性:這引入了錯誤一般是因為您可能在讀段中插入了不必要的插入缺失,並且引入了純粹不正確的鹼基。即使使用PCR,這也是可能會發生的問題(儘管現在您有很多選擇可以花錢)。因此,通常錯誤率更高,讀取失敗率更高。
2)機器難以分離單個核苷酸的信號以進行SANGER(所有信號模糊)或下一代測序的校準錯誤。如此,更高的讀取失敗(質量差)。
3)假設現在一切都很好,那麼更低複雜性的區域可能很難定位,更不用說從頭開始組裝完整的基因組了。
希望這會有所幫助!