-
Notifications
You must be signed in to change notification settings - Fork 32
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
不要简单的相信作者提供的表达量矩阵 #5940
Comments
不要简单的相信作者提供的表达量矩阵 by 生信技能树
Illumina:
Agilent:
处理这些平台的数据时,研究者需要了解各自平台的特点和数据处理流程,选择合适的工具和方法来进行分析。此外,由于不同平台之间的技术差异,直接比较不同平台的数据时需要格外小心,可能需要进行平台间的标准化或使用兼容的分析方法。 但是大部分情况下,我们偷懒会直接下载GEO数据库里面的作者上传的表达量矩阵,我们拿GSE13904举例说明,简单的代码如下所示:
其实上面的代码就是远程读取:https://ftp.ncbi.nlm.nih.gov/geo/series/GSE13nnn/GSE13904/matrix/ 里面的文件:
这个文件是作者上传的表达量矩阵,所以数据预处理取决于作者的想法! 有一些时候会出现一些奇怪的矩阵,比如这个GSE13904数据集 ,可以看到 :
有点意思啊, 绝大部分样品都是中位值居然都是1附近,这个就不符合我们的认知。正常情况下,我们的表达量芯片得出来的矩阵里面的数字范围应该是0到15直接,大部分在5到8附近。 如果我们直接从这个GSE13904数据集里面的找到脓毒症和正常对照,这两个分组的样品,然后试试看做差异分析 :
会出现很诡异的 差异分析结果 : 诡异的 差异分析结果如果我们打开具体的一个样品,是可以看到它的处理方法:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM350139
本来呢,使用affymetrix公司的官方软件GeneSpring是很标准的操作,但是值得注意的是作者画蛇添足多了一个处理:
使得每个样品的每个基因的表达量不再具有跨数据集的可比性: 如果要做差异分析或者后续高级分析都需要读取这个数据集提供的cel文件,做出来自己的表达量矩阵,示例代码是:
学徒作业完成这个GSE13904数据集的脓毒症和正常对照,这两个分组的样品,的差异分析,基于作者矩阵,以及基于cel文件的矩阵,做两次差异分析后对比一下结果。 |
https://mp.weixin.qq.com/s/a1gMtdSdlMDs05nBL7Z7Yg
The text was updated successfully, but these errors were encountered: