RNA-Seq 分析 —— 我们到底需要多少数据?
写在前面的话:
RNA-Seq作为生信人员最长接触到的数据类型,有太多的可说的。作为生信分析从业人员,我见过太多老师,满怀热情地向测序公司上缴了样本,然而得到结果却基本上没任何有用的信息。
样本越多越好
首先从技术上,目前差异基因分析的主流工具,都不采用泊松分布了,而是使用负二项分布作为基础,因此可以允许数据分析中,结合不同批次的样本,或更为复杂的样本来源。因此增加样本数量从实现上不再困难。
其次,样本过少产生的问题,主要是在召回率层面,样本过少严重影响准确性。通俗来说,如果测序的数据量达到一定的标准,那么测序量的增加对差异基因检测这个项目来说,完全没有增益。相反,增加样本数量却对有很大帮助
相关研究文献
目前已经有相关文献对RNA-Seq的样本量的下限进行了说明。 Empirical assessment of the impact of sample number and read depth on RNA-Seq analysis workflow performance
文章通过对单核细胞数据集的30种业界常用的RNA-Seq 分析流程,系统地分析了测序深度和生物学重复对结果的影响。结果表明,对于绝大多数流程而言,如果单个样本的reads 数量大于 2M ,则对分析的结果影响不大。但是当每组样本少于7个时,则对结果产生了比较大的异质性。
文章中的结论是:对于一般RNA-Seq实验而言,生物学重复数量比深度对实验结果影响更大。如果样本数量过少,则任何目前的流程对应结果均表现一般。
为何大家依然选择小样本量的数据集
一个比较重要的因素就是传统测序公司一般希望项目短平快。测序公司的分析流程相对固定,而对于科研工作者而言,虽然一次采样的时间会比较长。当样本数量累计到足够做分析的周期也相对较长。因此,测序公司一般会尽力说服客户送少量样本进行测序。
另外一方面,就是测序公司的流程相对固定,无法很好处理批次效应
。对于生物信息大数据挖掘,批次效应是一个绕不开的话题。但是目前很少有测序公司会在流程中对其进行考量。
如何去除批次效应?
目前去除批次效应的方法,其实已经不少了。对于RNA-Seq或者芯片技术这类考察表达量的手段,一般采用sva 估计隐变量,或者直接采用Peer 对程序表达量矩阵进行矫正。从本人实际的项目经验来看,至少这两个工具的矫正效果还是比较显著的。
今后有机会,可以专门跟大家介绍相关的工具的使用。
总结:RNA-Seq 实验设计的最佳方案
从上述内容,我们可以大致得到一个RNA-Seq实验的方案:也就是对样本进行积累,并持续送样测序;在数据积累了一定程度后,再通过生物信息工具,去除批次效应,进行差异分析。
而不是风风火火地送了三组样本,每组3个重复,拼命调解 p-value 或 log Fold-Change 去编造
差异。