-
Notifications
You must be signed in to change notification settings - Fork 32
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
多分组单细胞测序数据第一层次未整合和整合分析对B细胞细分的分群有何影响? #3783
Comments
多分组单细胞测序数据第一层次未整合和整合分析对B细胞细分的分群有何影响? by 单细胞天地
这期学习这篇推文:多分组单细胞转录组测序样本第一层次未整合和整合数据的B细胞细分对比 一开始这篇推文的学习我是很有想法的,因为曾老师给我分享了一篇投稿,投稿中使用根据病人进行批次拆分单独处理后通过anchor进行integrate(CCA, 区别于直接merge)达到去除批次效应的目的,而不是像我们之前那样直接harmony 我打算拿这篇推文数据来进行研究:拆分批次单独处理后通过anchor进行integrate(CCA)和harmony的效果有什么区别 但随着研究的进行,我发现其实这个数据集其实并不需要去除批次效应,所以我们还是像原推文那样研究“多分组单细胞转录组测序样本第一层次未整合和整合数据的B细胞细分对比”,学习一下这个拆分、merge的操作 某个数据集需不需要去批次,什么时候去批次,去批次的影响,可以参考上一期推文:harmony、不harmony,这是个问题 不同sampletype看似存在差异,有免疫细胞、非免疫细胞、外周血白细胞,但实验设计批次上还是根据病人来的,几乎每个病人都有这三种sampletype,病人没批次效应,sampletype之间的差异应该就是生物学差异 所以这里我们并不根据病人批次走harmony,以免抹除真正的差异 原推文使用的是整理好的数据,我们这里从头开始 intro多分组单细胞转录组测序样本第一层次未整合和整合数据的B细胞细分对比 GSE164690 GEO Accession viewer https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE164690 头颈部鳞状细胞癌(HNSCC) 免疫细胞(CD45+ );非免疫细胞(CD45-);外周血白细胞(PBL) 51个样本,18例 treatment-naive patients (6 HPV+ and 12HPV– HNSCC 癌症病人),其中15例 CD45+, CD45-, PBL 为配对数据。 头颈部鳞状细胞癌(HNSCC)的特征是肿瘤微环境(TME)中基质细胞、上皮细胞和免疫细胞之间的复杂关系。为了开发更有效的治疗方法,我们旨在使用单细胞RNA测序(scRNAseq)研究6例人乳头瘤病毒(HPV)+和12例HPV-HNSCC患者肿瘤和匹配的外周血样本中抑制性非免疫和免疫细胞群的异质性、独特细胞群的特征以及细胞间相互作用。使用134606个细胞的数据集,我们显示了与炎症和HPV状态相关的细胞类型特异性特征,描述了在HPV+TME中具有弹性分化的成纤维细胞的负面预后价值,预测了治疗靶向的检查点受体-配体相互作用,并显示肿瘤相关巨噬细胞是TME中PD-L1和其他免疫检查点配体的主要贡献者。我们对形成HNSCC微环境的细胞内在机制和细胞间通讯提出了全面的单细胞观点。
数据下载拿到ftp下载地址 ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE164nnn/GSE164690/suppl/GSE164690_RAW.tar 整理数据参考:
使用Read10X函数读取,整理文件路径:
将所有文件夹下这三个文件前缀全部去除:
获取sampletype:
发现GEO提供的一个样本的barcodes文件受损 去除该受损样本文件,继续:
GSM5017045样本barcode文件受损,剔除HN10_PBL cells
18例 treatment-naive patients (6 HPV+ and 12HPV– HNSCC 癌症病人)免疫细胞(CD45+ );非免疫细胞(CD45-);外周血白细胞(PBL)
一开始就merge的
本文根据CD45+ ,CD45-,PBL三组sample_type数据拆分而不是参考文(拆分批次单独处理后通过anchor进行integrate)中的每个病人批次 按照sampletype拆分:
若根据病人拆分:
整合pipeline数据质控
数据标准化
识别高变基因
数据归一化
这一步比较消耗计算资源,几次在共享服务器上做喜提warning邮件 降维
UMAP/tSNE可视化
初步marker鉴定细胞查看marker表达情况 参考: 多分组单细胞转录组测序样本第一层次未整合和整合数据的B细胞细分对比
B 6, 22 Plasma 12, 15, 20,21,23 Mono 4,11,17,18 NK 9 Unknown 13, 14, 16, 24
重新降维和细分亚群Bcells
不光看marker表达情况,还看降维可视化(plasma和memory分不开): naive 1,2,9 memory 10,11,14,16 GC 7,13,15,17 IgG plasma、IgA plasma 感觉分不开,先看plasma,再往下看 plasma CD27除memory 0,3,4,5,6,8,12 IgG plasma、IgA plasma联系降维可视化也分不开 算了
先拆分后在细分B细胞时merge合并pipeline前面的流程整合到函数里:
初步分型定义函数:
细胞亚型注释函数
开始注释:
PBL
B 9 Plasma 15,16 Mono 0,8,11,13,14 NK 3,6 Unknown CD45+
B 4,18 Plasma 14,15 Mono 7,12,16,17,19 NK 13 Unknown CD45-
T 4,5,6,7 B 8 Plasma 1,2,10,11,12,14,16 Mono 9,17,18 NK Unknown 3,15,19
将3sampletype分组各B细胞合并sce.Bcells=sce.all.fit[,sce.all.fit$celltype=='Bcells']
这一步merge时如果不add.cell.ids会报错:Error in merge.Seurat(x = sce.Bcells1, y = list(sce.Bcells2, sce.Bcells3), :Please provide a cell identifier for each object provided to merge 此外,还需要注意: 参考 所以需要把counts提出来再重新创建一个Seurat对象:
Bcells细分
不光看marker表达情况,还看降维可视化(plasma和memory分不开): naive 1,2,8 memory 0,3,4,5,6,10, GC 9,12,14,17 plasma CD27除memory 7,11,13,15,16,18 (7因为15很像特别是纠结的CD27所以给plasma)
两套pipelines B细胞划分结果列联分析
修改names
可以发现我这里plasma和memory在拆分前后存在非常大变化,基本上就是exchange了。。。其它的还行 这跟我选择的marker和自定义分组也有关,这两个在亚型定义的时候就不是很好区分(我的技术也不好,肉眼看这个我目前感觉有点反人类,后面我了解到一些辅助确定亚群名称的方法,如AUcell、MACA、scGate【flag】) 原推文小韩师姐的结果就没这么明显的exchange:
这里因为原推文相当于就拿两种方法处理好的结果可视化看看列联表,具体参数和使用marker未知。 如果你对单细胞转录组研究感兴趣,但又不知道如何入门,也许你可以关注一下下面的课程 看完记得顺手点个“在看”哦! 长按扫码可关注 |
https://mp.weixin.qq.com/s/9FdbU-MuUvDSL49s-yk6vQ
The text was updated successfully, but these errors were encountered: