GO富集分析

科林-Colin
• 阅读 1265

  GO的主要用途之一是对基因组进行富集分析。例如,给定一组在特定条件下上调的基因,富集分析将使用该基因组的注释发现哪些GO术语被过度表示(或未充分表示)。

  富集分析工具             

     用户可以直接从GOC网站的主页进行浓缩分析。此服务连接到PANTHER分类系统的分析工具,该分类系统使用GO注释进行最新维护。PANTHER分类系统在Mi H等人,PMID:23868073中有详细说明。支持基因ID的列表可以从PANTHER网站获得。             

   使用GO富集分析工具            

   1.粘贴或键入要分析的基因的名称,每行一个或用逗号分隔。该工具可以处理MOD特异性基因名称和UniProt ID(例如,Rad54或P38086)。             

   2.选择GO方面(分子功能,生物过程,细胞成分)进行分析(生物过程是默认的)。             

   3.选择你的基因来自的物种(默认为智人)。             

   4.按提交按钮。注意,在后面的步骤中,您将能够上传REFERENCE(又称“背景”)列表。             

   5.您将被重定向到PANTHER网站上的结果。这些结果是根据你在步骤3中选择的基因组中所有蛋白质编码基因的集合的富集度得出的。             

  6.(可选但强烈推荐)添加自定义引用列表并重新运行分析。在结果页面顶部的PANTHER分析摘要的“引用列表”行上按“更改”按钮,上传引用列表文件,然后按“启动分析”按钮重新运行分析。参考列表应该是选择较小分析列表的所有基因的列表。例如,在差异表达基因的列表中,参考列表应该只包含在实验中完全

  解释结果表
  结果页面显示一个表,该表列出了重要的共享GO术语(或GO术语的父母),用于描述用户在前一页上输入的一组基因、背景频率、样本频率、预期p值、每个术语过度/低表示的指示以及p值。此外,结果页面显示分析中使用的所有条件。任何未解决的基因名称都将列在表格的顶部。

  背景频率和采样频率
  背景频率是在整个背景集中注释到GO术语的基因数量,而样本频率是在输入列表中注释到GO术语的基因数量。例如,如果输入列表包含10个基因,并且富集了背景集包含6442个基因的酿酒酵母的生物过程,那么如果10个输入基因中有5个被注释为GO术语:DNA修复,那么DNA修复的样本频率将是5/10。然而,如果在所有的酿酒酵母基因组中有100个基因被注释为DNA修复,那么背景频率将是100/6442。
  被高估或被低估
符号+和-表示一个术语的过度或低度表示。
P值
  P值是指在注释到特定GO术语的列表中的总n个基因中,考虑到注释到该GO术语的基因在整个基因组中的比例,至少看到x个基因的概率或机会。也就是说,将用户列表中的基因共享的GO术语与注释的背景分布进行比较。p值越接近零,与基因组相关联的特定GO术语就越显著(即,观察到的特定GO术语对一组基因的注释偶然发生的可能性越小)。
  换言之,当搜索过程本体时,如果一个组中的所有基因都与“DNA修复”相关,这个术语将是有意义的。然而,由于基因组中的所有基因(带有GO注释)都间接地与顶级术语“bio._process”相关联,所以如果一个组中的所有基因都与这个非常高水平的术语相关联,那么这并不显著。

  外部工具             

   有许多不同的工具可以提供丰富功能。其中一些是基于网络的,另一些可能需要用户下载应用程序或安装本地环境。工具使用的算法不同,执行的统计测试也不同。           

        浓缩工具的一些其他示例包括:

  富集分析小软件---BiNGO。它是Cytoscape软件中很出色的一个插件。它提供的结果中除了文本格式的富集分析结果外,还会将结果以网络图的形式展现,非常美观。

  4.1 GO富集分析的结果为“.bgo”结尾的文件,可在设置的输出结果文件夹内用txt打开查看。

  x:所分析的基因富集到该GO term中的数量;

  n:基因组中富集到该GO term中的数量;

  X:所分析基因的总数

  N:基因组中基因的总数

  4.2 GO富集分析的层级网络图。每一个圈代表了一个GOterm;颜色是根据富集度即”corrp-value”进行着色的,颜色越深表示富集度越显著;箭头的方向则表示层级关系。

点赞
收藏
评论区
推荐文章
blmius blmius
2年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Jacquelyn38 Jacquelyn38
2年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Wesley13 Wesley13
2年前
HPA数据库07.做差异表达
生信论文的套路1.ONCOMINE从全景、亚型两个维度做表达差异分析;2.临床标本从蛋白水平确认(或HPA数据库),很重要;3.KaplanMeierPlotter从临床意义的角度阐明其重要性;4.cBioportal数据库做基因组学的分析(机制一);5.STRING互作和GO/K
Wesley13 Wesley13
2年前
HPA数据库04,代谢图谱
生信论文的套路1.ONCOMINE从全景、亚型两个维度做表达差异分析;2.临床标本从蛋白水平确认(或HPA数据库),很重要;3.KaplanMeierPlotter从临床意义的角度阐明其重要性;4.cBioportal数据库做基因组学的分析(机制一);5.STRING互作和GO/K
Wesley13 Wesley13
2年前
R 语言代写绘制功能富集泡泡图
功能富集泡泡图功能富集分析用来展示某一组基因(一般是单个样品上调或下调的基因)倾向参与哪些功能调控通路,对从整体理解变化了的基因的功能和潜在的调控意义具有指导作用,也是文章发表中一个有意义的美图。通常会用柱状图、泡泡图和热图进行展示。热图的画法之前已经介绍过,这次介绍下富集分析泡泡图,其展示的信息是最为全面的,也是比较抓人眼球的。做基因功能富集分
Wesley13 Wesley13
2年前
35岁是技术人的天花板吗?
35岁是技术人的天花板吗?我非常不认同“35岁现象”,人类没有那么脆弱,人类的智力不会说是35岁之后就停止发展,更不是说35岁之后就没有机会了。马云35岁还在教书,任正非35岁还在工厂上班。为什么技术人员到35岁就应该退役了呢?所以35岁根本就不是一个问题,我今年已经37岁了,我发现我才刚刚找到自己的节奏,刚刚上路。
Wesley13 Wesley13
2年前
GO富集分析示例【华为云技术分享】
版权声明:本文为博主原创文章,遵循CC4.0BYSA(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fcreativecommons.org%2Flicenses%2Fbysa%2F4.0%2F)版权协议,转载请附上原文出处链接和本声明。本文链接:https://blo
Wesley13 Wesley13
2年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
3个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这