利用數(shù)據(jù)庫數(shù)據(jù)進(jìn)行定制化的生信分析
讓您的文字更出彩
|
轉(zhuǎn)錄組測序(RNA-Seq)轉(zhuǎn)錄組測序(RNA-Seq)的研究對象是特定細(xì)胞在某一功能狀態(tài)下所能轉(zhuǎn)錄出來的所有mRNA的總和。新一代高通量測序技術(shù)能夠全面快速的獲得某一物種特定組織或器官在某一狀態(tài)下的幾乎所有轉(zhuǎn)錄本序列信息,從而準(zhǔn)確地分析基因表達(dá)差異、基因結(jié)構(gòu)變異、篩選分子標(biāo)記(SNPs或SSR)等生命科學(xué)重要問題。
A workflow for RNA-seq Ruairi J, Genomics Research, 2018 我們的優(yōu)勢1. 八年轉(zhuǎn)錄組測序分析經(jīng)驗,自主研發(fā)了多個生物學(xué)領(lǐng)域內(nèi)認(rèn)可的軟件,如差異可變剪接算法ASD、CASH等,檢出率和準(zhǔn)確度超過同類軟件; 2. 不依賴已有物種信息,可研究非模式物種,針對不同平臺的數(shù)據(jù),制定多套流程; 3. 整合了眾多學(xué)術(shù)界公認(rèn)的轉(zhuǎn)錄組相關(guān)數(shù)據(jù)庫,從本質(zhì)上提高后期分析的廣度和精度。 樣本要求組織樣品: 1. 動物組織≥1g; 2. 植物組織≥2g; 3. 細(xì)胞樣品≥1×106個; 4. 全血≥2mL; 5. 菌體≥106個或≥30mg。 RNA樣品: 1. 樣品需求量: RNA≥10 μg; 2. 樣品濃度:RNA樣品≥100 ng/μl; 3. 樣品純度:OD260/OD280在1.8-2.2之間,OD260/OD230≥2,28S/18S≥1,動物樣品RIN≥7.0,植物樣品RIN≥6.5,RNA無明顯降解。 實驗流程
1. 客戶樣本:保證細(xì)胞量在106個以上,否則則需風(fēng)險建庫; 2. RNA提取:經(jīng)典試劑盒快速提取法; 3. RNA質(zhì)控:凝膠電泳質(zhì)控→Nanodrop質(zhì)控→Agilent2200質(zhì)控; 4. 文庫構(gòu)建:polyA建庫; 5. 上機測序:建議選擇NovaSeq測序平臺,雙端測序,通量大,堿基精度高,且成本低,速度快。推薦數(shù)據(jù)量:6Gb。 數(shù)據(jù)分析流程
結(jié)果示例1、原始數(shù)據(jù)質(zhì)控以原始數(shù)據(jù)為研究對象,采用Fastp軟件對于低質(zhì)量序列,未檢測序列,接頭序列進(jìn)行過濾,并對于過濾前后數(shù)據(jù)的堿基質(zhì)量、GC含量、長度分布、接頭留存和Duplication比率等指標(biāo)進(jìn)行分析。圖1中部分展示了raw data質(zhì)控結(jié)果。 堿基質(zhì)量結(jié)果圖 注:左圖橫坐標(biāo)代表堿基位點,縱坐標(biāo)代表堿基質(zhì)量值,不同顏色曲線代表不同堿基在每條read上的質(zhì)量值;右圖橫坐標(biāo)代表堿基位點,縱坐標(biāo)代表堿基含量比值,不同顏色曲線代表不同位點各堿基含量。 2、RNA基因組比對(RNA Mapping)采用Hisat2/Mapsplice/Star/Tophat2等算法進(jìn)行基因組比對,得到基因組比對的bam文件,并基于bam文件進(jìn)行信息統(tǒng)計,得到基因組比對率、reads在基因結(jié)構(gòu)和染色體上的分布結(jié)果。圖2部分展示了RNA基因組比對結(jié)果。 reads在基因結(jié)構(gòu)和染色體上的分布情況 Miao et al., Mol Cell Endocrinol, 2015 注:左圖為reads在不同基因結(jié)構(gòu)(如外顯子、內(nèi)含子、基因間區(qū)、5’-UTR和3’-UTR)上的分布情況;右圖為reads在染色體上的分布情況,橫坐標(biāo)表示染色體編號,縱坐標(biāo)表示百分比,灰色柱子表示每條染色體上堿基數(shù)占基因組的比例,綠色柱子表示比對到染色體上reads的堿基數(shù)占基因組的比例。 3、表達(dá)量統(tǒng)計(Expression)采用HTSeq以及基因組注釋的gff3文件,根據(jù)單端或雙端測序類型,選擇RPKM或FPKM的標(biāo)化方式對基因表達(dá)量進(jìn)行統(tǒng)計。基于統(tǒng)計結(jié)果,分析得到樣本間相關(guān)性、 RPKM/FPKM密度和豐度等分析結(jié)果,反映單個樣本基因表達(dá)水平分布和離散程度,以及不同樣本整體基因表達(dá)水平的差異。 基因表達(dá)量分析 注:左圖為不同樣本RPKM密度圖,橫坐標(biāo)表示log10(RPKM),縱坐標(biāo)表示每個log10(RPKM)值對應(yīng)的基因數(shù)占比;右圖為不同樣本基因表達(dá)箱線圖,橫坐標(biāo)表示不同樣本名稱,縱坐標(biāo)表示樣本中每個基因log10(RPKM)分布情況。 4、差異基因篩選(Dif Gene Analysis)采用DESeq2/DESeq/EBSeq/EdgeR/Limma等算法進(jìn)行差異篩選,得到滿足差異倍數(shù)(Fold Change)以及FDR閾值的差異基因,并基于差異篩選結(jié)果以及樣本的FPKM或RPKM,進(jìn)行火山圖分析(Volcano Plot)以及聚類圖分析(Heatmap)。 差異基因的火山圖和聚類圖 liu et al., Nature, 2016 注:左圖為差異基因的火山圖,紅色表示顯著差異基因,藍(lán)色表示非顯著差異基因;右圖為基因表達(dá)聚類圖,橫坐標(biāo)為樣品分組,縱坐標(biāo)為基因,紅色表示高表達(dá),綠色表示低表達(dá)。 5、功能分析(GO Analysis)為了明確差異基因的相關(guān)功能,我們往往需要對差異基因進(jìn)行GO富集分析。NovelBio團(tuán)隊在數(shù)據(jù)庫上投入了大量時間和人力,采用NCBI/UNIPROT/SWISSPROT/AMIGO等GO數(shù)據(jù)庫,對于差異基因進(jìn)行功能分析,從而得到差異基因所顯著性富集的功能條目(GO Term)。 基因功能分析 He et al., Cancer Sci, 2017 注:該圖從生物學(xué)進(jìn)程(Biological Process, BP)、分子功能(Molecular Function, MF)和細(xì)胞組分(Cellular Component, CC)3個層面展示了差異基因顯著富集的前15個功能條目。橫坐標(biāo)為-Log2(P-value)/-Log10(P-value),縱坐標(biāo)為Go-Term條目名稱。 6、信號通路分析(Pathway Analysis)通過對差異基因進(jìn)行Pathway富集分析,尋找不同樣品間差異基因相關(guān)的信號通路,有利于研究者進(jìn)行深入的機制研究。NovelBio團(tuán)隊整合了一系列生物學(xué)領(lǐng)域內(nèi)公認(rèn)的通用數(shù)據(jù)庫(KEGG、NCBI、EMBL等),深入優(yōu)化所需算法,對差異基因進(jìn)行信號通路分析,從而得到差異基因所顯著性富集的信號通路條目。 Pathway富集性分析 He et al., Cancer Sci, 2017 注:該圖展示了差異基因富集的25條Pathway條目。橫坐標(biāo)為Pathway條目名稱,縱坐標(biāo)為富集度(Enrichment),紅色表示顯著性條目,藍(lán)色表示非顯著性條目。 7、GO-Tree分析采用GO數(shù)據(jù)庫中GO-term的上下級層級從屬關(guān)系,進(jìn)行GO-Tree繪制,得到顯著性差異功能的功能簇以及層級從屬關(guān)系。 GO Tree Miao et al., Mol Cell Endocrinol, 2015 注:該圖展示了差異基因顯著富集的GO Terms內(nèi)在從屬關(guān)系。紅色代表上調(diào)基因顯著富集的功能條目;綠色代表下調(diào)基因顯著富集的功能條目,黃色代表上調(diào)和下調(diào)基因都顯著富集的功能條目。 8、Path-Act-Network分析采用KEGG數(shù)據(jù)庫記載的信號通路上下游調(diào)控關(guān)系,進(jìn)行Path-Act-Network繪制,得到宏觀上的顯著性信號通路的上下游調(diào)控關(guān)系。 Path-Act-Network Miao et al., Mol Cell Endocrinol, 2015 注:該圖展示了差異基因顯著富集pathway之間的上下游調(diào)控關(guān)系。紅色表示上調(diào)基因顯著富集的pathway;綠色表示下調(diào)基因顯著富集的pathway。 1、共表達(dá)網(wǎng)絡(luò)分析(Co-Exp-Network Analysis)對已知注釋信息進(jìn)行深入的分析挖掘之后,研究者往往希望能夠找到更多的創(chuàng)新點。NovelBio團(tuán)隊基于GO Analysis和Pathway Analysis得到的顯著性條目,以及研究者感興趣條目,以這些條目中基因的表達(dá)值為研究目標(biāo),進(jìn)行共表達(dá)網(wǎng)絡(luò)和K-Core分析,從而得到基因間的相關(guān)性和基因的核心度,再以Co-Expression.txt和K-Core為研究對象,采用Cytoscape進(jìn)行圖形化展示,得到Co-Expression-Network。 共表達(dá)網(wǎng)絡(luò) Miao X et al., Scientific reports, 2016 注:相同顏色的圓點表示具有相似共表達(dá)能力的基因,圓點的大小表示該基因的K-core程度。 2、基因間相互作用關(guān)系網(wǎng)絡(luò)(Gene-Act-Network Analysis)研究中,常常會發(fā)現(xiàn)差異基因過多,并且所屬信號通路也很復(fù)雜,難以將相關(guān)基因聯(lián)系起來并找到“核心”基因。NovelBio團(tuán)隊基于GO Analysis和Pathway Analysis得到的顯著性條目,以研究者感興趣的相關(guān)表型基因為研究對象,采用KEGG數(shù)據(jù)庫基因間關(guān)系注釋,幫助研究者繪制Gene-Act-Network,快速定位“核心”基因。 基因互作網(wǎng)絡(luò) Sun L et al,Sci Rep. 2016 注:紅色圓點表示上調(diào)mRNAs,綠色圓點表示下調(diào)mRNAs。 3、韋恩分析韋恩圖的典型之處就在于它用一些重疊的部分來展示集合之間可能存在的關(guān)系。以各分組間的基因為研究對象,采用韋恩作圖分析的方法,可找出各分組間共有或者特有的差異表達(dá)基因并進(jìn)行深入分析。 維恩分析 Chen et al., BMC Genomics, 2014 注:該圖表示上調(diào)基因(左)和下調(diào)基因(下)的韋恩分析圖,數(shù)字分別代表處于不同交集內(nèi)的基因個數(shù)。 4、趨勢分析在趨勢型結(jié)果中,研究者常常希望對差異基因隨著時間/邏輯趨勢的不同進(jìn)行分析,而兩兩之間的比較顯然不足以滿足這樣的要求。NovelBio團(tuán)隊為研究者提供了定制化的趨勢分析流程思路,以各差異分組間的韋恩基因的FPKM值為研究對象,采用STEM算法,進(jìn)行趨勢分析,得到按照樣本邏輯順序所在趨勢。 趨勢分析 Chen et al., BMC Genomics, 2014 注:研究者基于趨勢分析的眾多結(jié)果,歸納、整合,最終鎖定了幾類變化趨勢類型,進(jìn)而更有針對性的開展后續(xù)工作。該研究中最終歸納出了6種顯著性趨勢,研究者選擇了基因個數(shù)最多的兩種趨勢,對這些基因進(jìn)行GO等深入分析。 5、加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(WGCNA)分析WGCNA分析是用來描述不同樣品之間基因關(guān)聯(lián)模式的系統(tǒng)生物學(xué)方法。基于加權(quán)的表達(dá)相關(guān)性,進(jìn)行層級聚類分析,并根據(jù)設(shè)定標(biāo)準(zhǔn)切分聚類結(jié)果,獲得不同的基因模塊,采用聚類樹的分枝和不同顏色來鑒定高度協(xié)同變化的基因集。如果有表型信息,還可以計算基因模塊與表型相關(guān)性,鑒定性狀相關(guān)的模塊,并根據(jù)基因集的內(nèi)連性和基因集與表型之間的關(guān)聯(lián)鑒定候補生物標(biāo)記基因或治療靶點。 WGCNA分析 Wan et al., Exp Eye Res. 2018 注:左圖表示基因聚類和模塊鑒定的對應(yīng)關(guān)系,高度共表達(dá)的基因群在聚類中處于相似分枝中;右圖表示模塊和表型相關(guān)性熱圖結(jié)果,方框內(nèi)上面的數(shù)字是模塊ME和表型數(shù)據(jù)相關(guān)性,下面括號內(nèi)的數(shù)字為相關(guān)性的P值。 文獻(xiàn)示例[1] Ju L, Han J, Zhang X, et al. Obesity-associated inflammation triggers an autophagy-lysosomal response in adipocytes and causes degradation of perilipin 1. Cell Death Dis. 2019 Feb 11;10(2):121. (IF=5.683) [2] He H, Chen E, Lei L, et al. Alteration of the tumour suppressor SARDH in sporadic colorectal cancer: a functional and transcriptome profiling-based study. Mol Carcinog. 2019 Jan 29. (IF=3.851) [3] Zhang C, Wang JJ, He X, et al. Characterization and Beige Adipogenic Potential of Human Embryo White Adipose Tissue-Derived Stem Cells. Cell Physiol Biochem. 2018 Dec 14;51(6):2900-2915. (IF=5.5) [4] Chen E, Yang F, He H, et al. Alteration of tumor suppressor BMP5 in sporadic colorectal cancer: a genomic and transcriptomic profiling based study. Molecular Cancer. 2018 Dec 20; 17(1):176-188. (IF=7.776) [5] Ge X, Chen J, Li L, et al. Midostaurin potentiates rituximab antitumor activity in Burkitt's lymphoma by inducing apoptosis. Cell Death Dis. 2018 Dec 18;10(1):8-19. (IF=5.638) [6] Miao N, Bian S, Lee T, et al. Opposite Roles of Wnt7a and Sfrp1 in Modulating Proper Development of Neural Progenitors in the Mouse Cerebral Cortex. Front Mol Neurosci. 2018 Jul 17; 11:247-260. (IF=3.903) [7] Heng S, Yan W, Zongyou P, et al. Gefitinib for Epidermal Growth Factor Receptor Activated Osteoarthritis Subpopulation Treatment. EBioMedicine. 2018 Jun 11;32:223-233. (IF=6.183) [8] He c,et al. Phosphorylation of ETS-1 is a critical event in DNA polymerase iota-induced invasion and metastasis of esophageal squamous cell carcinoma. Cancer Sci. 2017 Sep 14. (IF=3.974) [9] Wei, J. et al. The GARP Complex Is Involved in Intracellular Cholesterol Transport via Targeting NPC2 to Lysosomes. Cell Rep. 2017 Jun;19(13):2823-2835.(IF=8.032) [10] Wu, W. et al. CASH: a constructing comprehensive splice site method for detecting alternative splicing events. Brief Bioinform. 2017 Feb;1-13. doi:10.1093/bib/bbx034 (IF=5.134) [11] Chen J, et al. Network analysis-based approach for exploring the potential diagnostic biomarkers of acute myocardial infarction. Front Physiol. 2016 Dec 9;7:615. (IF=3.394) [12] Liu Z,et al.Autism-like behaviours and germline transmission in transgenic monkeys overexpressing MeCP2. Nature. 2016 Feb 4;530(7588):98-102. (IF=41.577) [13] Hu, Y. et al. Interactions of OsMADS1 with floral homeotic genes in rice flower development. Mol. Plant 2015 Sep;8(9):1366-1384 (IF=8.827) [14] Wang F, et al. Alternative splicing of the androgen receptor in polycystic ovary syndrome. Proc Natl Acad Sci U S A. 2015 Apr 14;112(15):4743-8. (IF=9.681) |

















