利用數據庫數據進行定制化的生信分析
讓您的文字更出彩
|
基因組重測序基因組重測序(Re-Sequencing)是對已知基因組序列信息的個體進行測序,可在此基礎上對個體或群體進行基因型差異性分析。基因組重測序主要用于輔助研究者發現大量的單核苷酸多態性位點(SNP)、拷貝數變異(Copy Number Variation,CNV)、插入缺失(InDel,Insertion/Deletion)等變異位點,以高效準確獲得生物群體的遺傳特征,并方便進行全基因組關聯性分析(GWAS),在人類疾病和動植物育種研究等方面意義重大。
Types of genome alterations that can be detected by next-generation sequencing Meyerson et al., Nature Reviews Genet,2010 我們的優勢1. 重測序分析加速:開創了從任務投遞、數據切分到容器多線程的三重調度加速框架,最終實現了重測序分析的大幅度加速,4小時即可完成一個樣本的人類重測序分析,較傳統的分析方法(68-92小時)提高了十多倍速度; 2. 定制化分析策略:根據不同測序物種和測序方案,定制化選擇參考基因組版本、比對算法和注釋用數據庫區域信息等; 3. 全面的數據庫整合:不斷更新基因組數據庫并進行多數據庫多版本整合,獲得準確的基因信息與注釋; 4. 強大的組學聯合分析能力:將基因組重測序與轉錄組測序和甲基化測序等技術進行結合,將單一的基因變異數據進一步拓展。 樣本要求組織樣品: 1. 新鮮動物組織干重≥0.5g 2. 新鮮植物組織干重≥2g 3. 新鮮培養細胞數≥4×106個 4. 全血(哺乳動物)≥1ml 5. 全血(非哺乳動物)≥0.5ml DNA樣品要求: 1. DNA總量≥2μg,濃度≥20ng/μL,體積要求15-100μL; 2. OD260/280介于1.8-2.0之間; 3. Agilent 2200質檢合格,DNA樣本主峰范圍在100-500bp; 4. 電泳檢測無明顯RNA污染,基因組條帶清晰、完整,無降解; 5. 送樣時請標記清楚樣品編號,管口使用Parafilm膜密封; 6. 樣品保存期間切忌反復凍融; 7. 送樣時請使用干冰運輸。 實驗流程
1. 客戶樣本:新鮮培養細胞數≥4×106個; 2. 提取基因組DNA:DNA總量≥2μg; 3. DNA質控:Agilent 2200質檢合格,DNA樣本主峰范圍在100-500bp; 4. 文庫構建:隨機引物PCR擴增; 5. 上機測序:測序數據量達到50X覆蓋深度,不同物種間存在差異,人一般達到30X。 數據分析流程
結果示例1、原始數據質量控制采用Fastp軟件對下機原始數據進行低質量序列,未檢測序列,接頭序列的過濾處理,并對于過濾前后數據的GC比值,堿基質量,長度分布,接頭留存,Duplication比率等指數進行分析。 堿基質量結果圖 注:左圖橫坐標代表堿基位點,縱坐標代表堿基質量值,不同顏色曲線代表不同堿基在每條read上的質量值;右圖橫坐標代表堿基位點,縱坐標代表堿基含量比值,不同顏色曲線代表不同位點各堿基含量。 2、DNA基因組比對(DNA Mapping)與質控采用BWA-mem/Bowtie2等算法將質控后的測序數據與基因組進行比對,得到基因組比對的bam文件。并基于bam文件進行信息統計,得到reads在染色體上的分布情況、基因組比對率等信息。 DNA Mapping結果 Yamagishi MEB et al., PLoS One. 2017 注:該圖展示了不同品系bull的測序reads的mapping率 3、突變分析采用GATK/Samtools等算法,對基因組比對文件進行突變(包括SNV、InDel)分析,得到突變結果。 call SNP分析結果 Kong HR et al., AJAS. 2018 注:該圖展示了不同分組每條染色體SNP的數量 4、拷貝數變異(CNV)分析采用CNVKit算法,對基因組比對文件進行拷貝數變異分析,得到拷貝數變異結果。 CNV區域在全基因組上的分布 Khatri B et al., PLoS One. 2019 注:該圖展示了不同品系(HS和LS)的Japanese quail CNV區域在全基因組上的分布情況。外圈為HS品系,內圈為LS品系 5、數據庫注釋通過VEP對突變分析結果進行注釋,獲得所有突變位點對應的基因及其變異位點的注釋情況。 突變注釋結果 注:該圖展示了基于數據庫鑒定的突變類型,以及不同突變類型數量的占比情況 6、位點篩選以所有的突變注釋結果為研究對象,進行突變過濾,得到具有研究意義的突變位點以及其注釋信息。 多樣本位點篩選 注:該圖同時展示了在樣本群體中CNV和SNV的變異頻率 7、突變基因功能分析(GO Analysis)采用NCBI/UNIPROT/SWISSPROT/AMIGO等GO數據庫,對突變基因進行功能分析,得到突變基因所顯著性富集的GO條目。 GO分析結果 注:該圖從生物過程(BP)、分子功能(MF)和細胞組分(CC)三個方面展示了突變基因顯著富集的GO條目(Top 15) 8、突變基因信號通路分析(Pathway Analysis)采用KEGG數據庫對突變基因進行信號通路分析,得到突變基因所顯著性富集的Pathway條目。 圖9 Pathway分析結果 注:該圖展示突變基因的Pathway分析結果(Top 15),紅色為顯著性條目,藍色為非顯著性條目 1、突變位點保守性分析針對missense的突變類型,通過SIFT和Polyphen算法,以位點在物種間的保守性以及位點在蛋白結構中的作用來判斷該位點的致病性。 突變位點保守性分析 Guo Q et al., Dna & Cell Biology, 2014 注:多物種MYH7氨基酸序列比對結果表明該突變位點具有高度保守性,并通過軟件預測該位點突變前后的蛋白的3D結構 2、韋恩分析(Venn Analysis)將各樣本鑒定出的突變位點進行韋恩分析,通過韋恩作圖分析的方法,分別得到各樣本間獨有或共有突變位點,并進一步通過突變注釋得到其對應基因,進行GO和Pathway分析。 SNVs和InDels韋恩圖 Yamagishi MEB et al., PLos ONE. 2017 注:該圖展示了4種品系中鑒定出的SNVs和InDels的Venn分析結果 文獻示例[1] Khatri B, Kang S, Shouse S, et al. Copy number variation study in Japanese quail associated with stress related traits using whole genome re-sequencing data[J]. PLoS One. 2019, 14(3):e0214543. [2] Yu Y, Fu J, Xu Y et al. Genome re-sequencing reveals the evolutionary history of peach fruit edibility[J]. Nat Commun. 2018, 9(1):5404. [3] Reimer C, Rubin CJ, Sharifi AR, et al. Analysis of porcine body size variation using re-sequencing data of miniature and large pigs[J]. BMC Genomics. 2018, 19(1):687. [4] Kong H R, Anthony N B, Rowland K C, et al. Genome re-sequencing to identify SNP markers for muscle color traits in broiler chickens[J]. Asian-Australasian Journal of Animal Sciences, 2018, 31(1):13-18. [5] Yamagishi MEB, Chud TCS, CaetanoAR, et al.Single nucleotide variants and InDels identified from whole-genomere-sequencing of Guzerat, Gyr, Girolando and Holstein cattle breeds. PLoS One. 2017, 12(3):e0173954. [6] Linnéa Smeds, Mugal C F, Anna Qvarnström, et al. High-Resolution Mapping of Crossover and Non-crossover Recombination Events by Whole-Genome Re-sequencing of an Avian Pedigree[J]. PloS Genetics, 2016, 12(5):e1006044. [7] He Y, Wang C, Higgins J, et al. MEIOTIC F-BOX Is Essential for Male Meiotic DNA Double Strand Break Repair in Rice[J]. The Plant Cell, 2016, 28(8):1879-93. [8] Wei F, Jie Z, Zhijing L, et al. Development of a RAD-Seq Based DNA Polymorphism Identification Software, AgroMarker Finder, and Its Application in Rice Marker-Assisted Breeding[J]. PLoS One, 2016, 11(1):e0147187. [9] Torkamaneh D, Laroche, Jérôme, Belzile, François, et al. Genome-Wide SNP Calling from Genotyping by Sequencing (GBS) Data: A Comparison of Seven Pipelines and Two Sequencing Technologies[J]. PLoS One, 2016, 11(8). [10] Guo Q, Xu Y, Wang X, et al. Exome Sequencing Identifies a Novel MYH7 p.G407C Mutation Responsible for Familial Hypertrophic Cardiomyopathy[J]. Dna & Cell Biology, 2014, 33(10):699-704. 下一篇Small RNA測序 |
















