富集分析,來自于Enrichment這個詞語
創(chuàng)新互聯是一家專業(yè)提供圖木舒克企業(yè)網站建設,專注與成都網站設計、成都網站制作、H5頁面制作、小程序制作等業(yè)務。10年已為圖木舒克眾多企業(yè)、政府機構等服務。創(chuàng)新互聯專業(yè)網站建設公司優(yōu)惠進行中。
F or example, given a set of genes that are up-regulated under certain conditions, an enrichment analysis will find which Ontology terms are over-represented (or under-represented) using annotations for that gene set.
通俗來說:富集分析是基于一個先驗的知識圖譜將輸入內容進行聚類分析,得到聚類后結果。
上句話中逐個概念解析:
figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);"GO 富集結果(柱狀圖)/figcaption
結果解析:我們可以基于柱狀圖,清楚的看出,每一個聚類后結果(橫軸下方的字段),以及每一個分類所對應的基因/基因產物數量(此圖中為蛋白質數量)
上圖是氣泡圖形式,由于GO有三個互不交集的ontology本體,所以要單獨分區(qū)展示。氣泡圖比柱狀圖可以多展現1個維度,在上圖中,體現了4個維度信息:
(1)氣泡表示分類條目
(2)氣泡大小表示基因/基因產物數量。
(3)增加了p-value的展示。p值的負對數分配給y軸(越高就越重要),統計學基礎是超幾何分布。( 從總的N個基因中挑出n個基因,作為分母(這是背景基因),分子則是M個基因(我們的差異基因,這是前景基因),有k個落在了某通路里,有n-k個不落在了某通路里,然后使用超幾何分布來對它們進行計算,即前景基因落在某通路的比例是否高于背景基因在這一通路的比例 )
(4)表達量的上下調。橫軸zscore表示是表達量是高了還是低了(一般應用于RNA和蛋白中,基因一般不涉及)。 [圖片上傳失敗...(image-efb449-1611106941603)]
figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);"點擊一個分類,可以查看其所對應的局部知識圖譜/figcaption
得到目標對象(基因或者基因產物)的富集結果(詞條)后,通過查看網站對詞條的注釋聲明,來驗證或判斷目標對象作為生物標志物的合理性。
figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);"方法論示例/figcaption
示例1:《 與胰腺癌相關的重要基因本體論術語和生物學途徑分析 》IF: 2.197
示例 2: 《 使用基因本體論術語和KEGG途徑進行化學毒性作用分析 》 IF: 3.681
GO 功能富集分析、KEGG pathway富集分析、 GSEA 功能富集分析、 reactome 通路富集分析
(1) David ——The D atabase for A nnotation, V isualization and I ntegrated D iscovery ,支持在線進行GO功能富集分析。 工作組 很多華人(從名字上看)
(2) GOrilla ——GeneOntology enRIchment anaLysis and visuaLizAtion tool,支持在線進行GO功能富集分析。
(3) KOBAS ——KEGG Orthology Based Annotation System,支持在線進行pathways通路分析 (KEGG PATHWAY, Reactome, Biocyc, Panther), 關聯疾病分析diseases (KEGG DISEASE, OMIM, NHGRI GWAS Catalog), 和GO 功能富集。北大團隊做的。
(4) clusterProfiler : universal enrichment tool for functional and comparative study。推薦一個R分析工作包,是生信分析領域大牛 Y叔 寫的,幾乎能支持市面上常見的各類功能、通路、關聯疾病分析,受science大力推薦(反正Y叔公眾號上他自己是這么說的,有沒有忽悠成分咱就不管了哈,但是吃過的都說香)。
以 KOBAS 為例,演示兩個流程:
(1) GO分析
step i :選擇“基于基因列表進行富集分析”
step ii:在計算頁面等一會,查看分析結果
step iii:查看GO的DAG圖
figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);"GO:3A004408/figcaption
也有這樣的:
figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);"GO:0045893/figcaption
(2)KEGG pathway分析
step i: 參數選擇KEGG
step ii: 查看計算結果
step iii: 查看通路圖
有些情況下KEGG會報錯:
解決方法:注意將url的末尾添加一個/符號,即可正常展示。
前面我給大家詳細介紹過
?GO簡介及GO富集結果解讀
?四種GO富集柱形圖、氣泡圖解讀
?GO富集分析四種風格展示結果—柱形圖,氣泡圖
?KEGG富集分析—柱形圖,氣泡圖,通路圖
? DAVID GO和KEGG富集分析及結果可視化
也用視頻給大家介紹過
? GO和KEGG富集分析視頻講解
最近有粉絲反映說,利用clusterProfiler這個包繪制GO富集分析氣泡圖和柱形圖的時候,發(fā)現GO條目的名字都重疊在一起了。
氣泡圖
柱形圖
這個圖別說美觀了,簡直不忍直視。經過我的認真研究,發(fā)現跟R版本有關。前面我給大家展示的基本都是R 3.6.3做出來的圖。很多粉絲可能用的都是最新版本的R 4.1.2。
我們知道R的版本在不停的更新,相應的R包也在不停的更新。我把繪制氣泡圖和柱形圖相關的函數拿出來認真的研究了一下,終于發(fā)現的癥結所在。
dotplot這個函數,多了個 label_format 參數
我們來看看這個參數究竟是干什么用的,看看參數說明
label_format :
a numeric value sets wrap length, alternatively a custom function to format axis labels. by default wraps names longer that 30 characters
原來這個參數默認值是30,當標簽的長度大于30個字符就會被折疊,用多行來展示。既然問題找到了,我們就來調節(jié)一下這個參數,把他設置成100,讓我們的標簽可以一行展示。
是不是還是原來的配方,還是熟悉的味道
同樣的柱形圖,我們也能讓他恢復原來的容貌。
關于如何使用R做GO和KEGG富集分析,可參考下文
GO和KEGG富集分析視頻講解
直方圖又稱柱狀圖/條形圖,用來展示連續(xù)數據分布的常用工具,用來估計數據的概率分布。
使用格式:hist(x,breaks=n,main="name",labels=FASLE,col="blue",border="red",freq=TRUE)
x 向量,直方圖的數據;
breaks 描直方圖的斷點,例如breaks=20表示畫出20個柱子;
labels 邏輯變量,TRUE標出頻數
main 標題
col 顏色
border外框顏色
freq 邏輯變量,TRUE為數據頻數,默認為TRUE;FALSE則為密度
我們可以用lines畫出數據的密度曲線
還可以畫正態(tài)分布的密度曲線
使用格式 ggplot(data,aes(x=class))+geom_bar()
x 繪制的數據
或者 ggplot(data,aes(y=class))+geom_bar(),則類型分布在y軸
當想看在該因素中其他因素的情況,可以利用fill進行繪制,得出疊堆條形圖
橫向的柱狀
大多數時候我們想比較多個組直接某些因素的情況,例如有時候我們要畫幾個樣本中各個細胞比例的情況
這是我們可以畫堆疊條形圖
此時不好比較,我們可以把同類型細胞放在一塊比較,即橫坐標變?yōu)榧毎愋?/p>
在實驗過程中可以采用容易分析的形式進行比較
以上是基本繪制的參數,此外還有美化的一些參數
labs 橫縱坐標軸的名稱
ggttitle 標題名稱
geom_bar(width= )設置條形大小,默認情況下,設置為數據分辨率的90%。
theme_bw() 改變背景顏色
scale_fill_manual 自定義顏色
更多參數見 R語言繪圖——數據可視化ggplot2 介紹和主要的參數
分享文章:r語言go富集柱狀圖 r語言 柱狀圖
網站鏈接:http://chinadenli.net/article38/ddeogsp.html
成都網站建設公司_創(chuàng)新互聯,為您提供網站排名、做網站、網站建設、品牌網站制作、域名注冊、搜索引擎優(yōu)化
聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯