diff --git "a/docs/2024-06/\350\257\235\344\270\211___\346\216\242\345\257\273\345\215\225\347\273\206\350\203\236\346\225\260\346\215\256\347\232\204\350\276\271\347\225\214.md" "b/docs/2024-06/\350\257\235\344\270\211___\346\216\242\345\257\273\345\215\225\347\273\206\350\203\236\346\225\260\346\215\256\347\232\204\350\276\271\347\225\214.md" deleted file mode 100644 index f1f948f8..00000000 --- "a/docs/2024-06/\350\257\235\344\270\211___\346\216\242\345\257\273\345\215\225\347\273\206\350\203\236\346\225\260\346\215\256\347\232\204\350\276\271\347\225\214.md" +++ /dev/null @@ -1,15 +0,0 @@ ---- -title: "话三 | 探寻单细胞数据的边界" -date: 2024-06-01T08:07:05Z -draft: ["false"] -tags: [ - "fetched", - "单细胞天地" -] -categories: ["Acdemic"] ---- -话三 | 探寻单细胞数据的边界 by 单细胞天地 ------- -

赛尔,你好。

在这第三封家书里,想和你聊聊我对单细胞数据边界的体会。作家苏心说:人与人之间的关系,就像两棵共同生长的树木, 彼此靠得太近了,互相滋扰遮挡,肯定长不好,甚至会枯萎。只有保持适度距离的守望,才能枝繁叶茂,华枝春满。

那么,单细胞数据的边界在哪里呢?或者,现在我们如何画出这个边界的轮廓?

单细胞与Bulk的边界在哪?

在分析边界之前,我们先来讲讲单细胞数据的漫无边际。当我们取到一块生物组织,并进行单细胞测序之后,我们可以对这个组织提出三个问题:

鉴于单细胞测序可以测组织内所有细胞的所有基因(人类两万一千多个蛋白表达基因均可测到),也就意味着,几乎人体所有的通路也都能富集的到。从基因这个维度,我们总能找到几个细胞类型特异的基因,然后回归到bulk的分析与验证框架中,如生存分析、RNA染色。这也是单细胞数据的第一个边界:与Bulk的边界在哪

一个遇到的情况是:自己从单细胞数据开始,找到几个细胞类型特异的基因,做下游验证,故事证据链完整。老师问:我们要做这些结果,之前的bulk测序数据就行了,为什么要做单细胞测序?

单细胞数据可不可以做基因表达分析,可以,这要建立在细胞类型特异的基础上。

一切都在按组学的规模进行的今天,不仅转录组是这样,表观、蛋白组等组学都是这样,每个组学,进入到单细胞分辨率都需要在这个边界上作以区分,包括分选之后做的单细胞测序。

单细胞与空间的边界在哪?

上周吾家睿见上发了一篇《生命大科学:从微观到介观的组学研究》文章。起初我还特地查了一下什么叫”介观“,是指介于微观和宏观之间的一种看问题的尺度。当然,生物与物理或化学领域的介观又各不相同。生物学的微观到分子,比分子再小的归属物理了;宏观到生态,比生态还大的归属物理了。这只是我简单直观的理解,不一定是对的,和你探讨。

根据这篇文章,我做了一些梳理,如下图,不知道家睿老师会不会看到^_^

这两年大家也在提单细胞组学、空间组学、时空组学,真真一派一切皆组学的万千气象。那之前取了组织直接做bulk测序的,可以唤作组织组学

在以上类似构词法中,我们不难发现,所谓的新组学,并不是新的组学,如翻译组、连接组、微生物组(当然,它们也各是一种组学),而是分辨率与组学的结合。如:

有了这个真知灼见,我们就能理解不管空间上取得sopt大小还是原位成像,抑或是亚细胞单位,这些都是分辨率不同。而细胞是生物的基本结构单元与功能单位,也就是都要回到单细胞水平上来讲故事。这就是大于单个细胞分辨率的要做反卷积,小于单个细胞的要做算法模型的原因。

数量与质量之间的边界?

当我们拿到单细胞数据的时候,往往是几万个单细胞,我们的数据分析是一个一个地分析这些细胞吗?

没有人会这样做,我们的做法是去做细胞和基因层面的质控,细胞去除低质量的/双细胞,基因去除一些应激或背景污染。当我们做这些的时候,也不是一个细胞一个细胞地做,而是降维聚类,必知必会。把成千上万个细胞分成十几二十个不同的簇,每个簇去看。而这十几二十个簇,也不是一一对应于细胞类型。

那么,如何平衡细胞数和每个细胞质量的关系呢?

基于以上单细胞数据分析实践,单细胞数据分析的基本单元不是单个细胞,而是有功能意义的簇(cluster)。所以,不用纠结单个细胞的质量,甚至是一个非常小的簇,只有十几二十个细胞,到底该如何定义抑或是不是双细胞。

单细胞数据虽然获得的是成千上万个细胞,到我们讲生物学故事的时候,以及在构筑生物学故事的时候,我们都是以‘簇’为单位来进行的,这里的‘簇’可能是细胞类型/细胞状态。于是,我们又有以下真知灼见:如果说,细胞是生物的基本结构单元与功能单位,那么,单细胞数据中的簇,就是单细胞数据分析的基本结构与功能单位。

生信分析与实验验证的边界在哪?

实验验证是一把悬挂在生物信息学上的达摩克利斯之剑,生信得到的结果,想要有说服力,就要做实验验证。那么,生物信息做到什么程度,可以开始做实验验证呢?

这个问题对单细胞数据来讲尤其重要,因为单细胞数据细胞数量和基因数量很多,如果很快进入实验验证,可能会花费大量的时间和经费。

曾经听一个老师的讲座,讲到:湿实验两个月,干实验做两年。这说明了数据分析周期比较长的特点,如果我们反过来,干实验做两个月,就去验证,大家可以想象得到湿实验需要做多久吗?

就在上周,science发了十篇脑单细胞空间数据,带着今天关于单细胞数据边界的体会,不妨找点空闲,找点时间,看看大文章。向宇宙进发,就算不能抵达,也将收获跌落星辰的浪漫。

最后,做经验丰富,技术到位,生物学问题定力强的生物信息分析,审慎地解读生信数据,宁可多在生信上多花一点时间,以提高实验验证的成功率。

你的运来
于南京
20240601

来自网络,侵删,略有修改【上图不是我啊】

-
-原文链接