題:
我如何找到完整的人類基因組文件
ABCD.ca
2014-10-01 22:44:06 UTC
view on stackexchange narkive permalink

我試圖弄清楚如何下載代表完整人類DNA序列的文件。我不太在乎格式–我能夠編寫C ++代碼來解析它。 FASTA似乎是一種簡單的格式。我還沒有發現可以找到完整文件的地方–我發現了似乎是基因或其他序列的子集或單條染色體,但沒有46條染色體包含其中或其中一些重複(即22條染色體+ 2條性染色體)?

在此頁面上,我已經在“人類>基因組裝配體:GRCh38”下找到了此文件列表,但它似乎被染色體分解了嗎?如果是這樣,我可以合併這些嗎?我的目標是通過投影儀將所有字母顯示在牆上,我希望能夠指向它並告訴某人,這就是人類的全部DNA(而不是子集)。另外,要仔細檢查,這是我想要的“基因組裝配”嗎?順便說一句,我現在不在乎等位基因變體。

請在您的回復中考慮,我對許多術語並不熟悉,謝謝。

感謝您提供的所有出色答案!他們實際上對我都有幫助。
五 答案:
user9474
2014-10-01 23:06:35 UTC
view on stackexchange narkive permalink

國家生物技術信息中心具有指向基因組FTP站點的鏈接-在該頁面上,有一個標記為 ... / genomes / H_sapiens的文件(此直接鏈接到該目錄。)

其中有許多文件。從 README文件:

序列數據包括通過NCBI參考序列和NCBI基因組註釋項目生成的染色體,重疊群,RNA和蛋白質。這裡還提供了Map Viewer資源中顯示的地圖數據。

僅約770M?我希望它會更大
Ar3s
2014-10-02 04:47:44 UTC
view on stackexchange narkive permalink

這裡是非生物學家。

@ swbarnes2指出了一個事實,即即使有好的投影儀,(大約)3Giga核苷酸也可以在“牆上”顯示(如您所說)這將是一項艱鉅的任務。您將需要幾台投影機和一堵大地獄。(例如,您採用最小的可讀警察設置,則每個字母都佔用4 * 6像素的空間,這整體上將為您帶來到[[227k x 342k]像素到大約35k HD投影儀)

這促使我想到了為什麼要這樣做。最合理的選擇是:某種程度上在這種情況下,我建議不要以字母(ATGC)為代表,而是以二進制(00,01,10,11)進行編碼,然後將此值編碼為彩色像素。

這樣一來,您將得到一個約有57k像素的正方形矩陣(邊緣仍然是巨大的),並以4色調黑到白的點進行陰影處理。不會僅使一個核素成為像素代碼使它們各自編碼。使它們各自編碼一個“偽密碼子”(三胞胎)。第一個核苷酸定義紅色陰影,第二個核苷酸定義綠色陰影,最後一個核苷酸定義藍色陰影(純色和簡單的加性RGB填充)。 / p>

-EDIT-知道密碼子的概念無效,並且任何核苷酸(每個染色體的前尾2個除外)都可能是三個不同密碼子的一部分(取決於它們是否在內含子,外顯子中)

在這種情況下,為什麼不佔用更多的自由?將您的核素按12個(3組,每組4個)分組,以使您更深入

-編輯部分的結尾-

您將獲得更好,更小的[30k x 30k]矩陣(仍然會花很多錢)牆和一些高清投影儀〜150,但是此時您可以用幾種方法壓縮輸出並合併像素,但是150遠遠小於35000。

我知道我並沒有為提出的問題提供實際的解決方案(但是我真的認為@Omen做得很好),但是我感覺這裡可能有一些值得理解的見解(冒著使自己愚弄的風險)

id認為動態顯示可能有效,一次顯示細分...
我還考慮過建議採用動態顯示(以節省更多的投影機成本; p),但這似乎是不言而喻的,或者超出了我理解的要求範圍。這就像顯示一整本書,應該考慮逐頁顯示而不是全部顯示在in腫的方塊中。
一個小小的小問題……除非它們實際上在基因的編碼區域內並且在實際上正在翻譯的框架內,否則我們通常不會將三個核苷酸一起稱為密碼子。大多數基因組將不在“密碼子”中。
正如我在信息中所述,我不是生物學家,至多我是一個生物愛好者,但這確實是事實。如果核苷酸在一個內含子中(在可變剪接中沒有解釋),是的,它不是密碼子的一部分。三胞胎。畢竟,如果我說的假設是正確的,那麼以任何方式(只要它們是連續的)按任何數字對核素進行分組就不會很重要,因為它將不再相關。 DNA本身無關緊要,而是它被轉錄的方式。
謝謝,這是我最喜歡的答案,因為這是我要如何使用數據的核心。我將另一個標記為我所問問題的最直接答案。我想我有一個問題。
沒問題,很高興我能提供任何幫助(甚至含糊不清)。
swbarnes2
2014-10-02 02:48:18 UTC
view on stackexchange narkive permalink

但是不存在46條染色體或其中某些重複項

首先,雖然每個人每個染色體都有2個副本,但這些副本是99個%相同。因此,將整個序列重複兩次是一種浪費。

第二,這項技術是如此之簡單,以至於很難產生例如來自母親的染色體的整個序列。您要么得到顯示兩個序列相互重疊的Sanger痕跡,要么得到了很短的,沒有混合的讀段,但是卻無法分辨出哪個親本產生了哪個片段。

因此,通常來說,參考基因組即使從生物學角度看也不現實,但每個位置都會有一封共識信。只要大家都知道引用只是參考,就什麼都沒關係。

我的目標是通過投影儀將所有字母顯示在牆上,我想成為能夠指向它並告訴某人,這就是人類的全部DNA(而不是子集)。

您真的可以顯示30億個這樣的字符嗎?

“您真的可以顯示30億個字符嗎?”否:假設一個字符約為0.03平方英寸(約12磅),則需要14.35英畝的牆才能顯示30億個字符。
對於我們這些“公制”讀者來說,他們感到奇怪,它佔地14.35英畝〜= 58072平方米,比5個“大型”(國際盃)足球場略多。
Luke Griffiths
2014-10-02 04:20:56 UTC
view on stackexchange narkive permalink

如果我正確理解了您的問題,則需要一個文件,即一個字符串,它代表整個人類基因組的序列。但是,沒有這樣的事情。人類基因組存儲在46個不同的字符串(染色體)中,這些字符串沒有自然順序

用於指代基因組的數字是根據其按大小排列的順序排列的。

對基因組的所有操作(例如在有絲分裂前複製)都是並行進行的,蛋白質分別在每個染色體上起作用。

如果您想“誠實”地代表整個人類基因組,那麼您最好的選擇是將46個獨立的字符串放在投影機上,也許像Matrix中的代碼那樣相互平行運行。

如果要顯示一個大長字符串,則任何串聯順序都與其他順序一樣正確,因此只需按字母順序打開文件並將它們全部串聯即可。

WYSIWYG
2014-10-02 15:07:16 UTC
view on stackexchange narkive permalink

如果要將所有序列合併為一個序列,請下載所有染色體的序列,然後將它們連接起來。如果您使用linux,可以使用以下簡單命令:

grep -v“ >”染色體* .fa > whole_genome.txt

現在,分隔有意義因為染色體在一個染色體和另一個染色體之間沒有物理聯繫此外,您可以按照許多順序將染色體連接在一起,這將使您的 23!個基因組序列數量增加。

現在,您應該注意,如果您試圖研究任何基因的基因組背景,所有這些都會給您帶來嚴重的錯誤。所以最好去染色體。

如果我誤解了您的意思,並且您的意思是將所有染色體Fasta序列保存在一個文件中,但不合併這些序列,那麼這是一個非常簡單的命令。

貓染色體* .fa >基因組.fa

現在,您下載的是參考序列。您必須通過控制對齊參數來找到數據的變體等。

我真的不明白為什麼要將它投影在牆上。有更簡便,更好的基因組分析方法。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...