微生物组研究中稀释曲线的评估与 QIIME2 实操教程
稀释曲线(Curve),也称为稀薄曲线,一般用于微生物组研究中,用来评估测序体积或样本体积的饱和度。使用dada2去噪得到的表文件计算随机选择n个reads时出现的ASV数量(n小于测量的read序列总数),然后基于一组n个值(一般是一个算术序列的集合小于序列总数)绘制一条与 ASV 数量相对应的曲线。映射所需的数据包括每个样本ASV的特征表和样本元数据。关注“环境微量分析”公众号,后台回复“稀释曲线”即可获取样本数据。
1. 实际操作
(1)打开并执行挂载共享文件夹的命令;
<p><pre> sudo mount -t vboxsf qiimeshare share</pre></p>
(2)使用qiime alpha可视化工具绘制稀释曲线,探索alpha多样性与采样深度的关系。执行命令并查看帮助文档;
<p><pre> qiime diversity alpha-rarefaction --help</pre></p>
2.帮助文档分析
使用说明:qiime alpha-
通过计算“”和“”之间的稀疏度,生成α稀疏曲线。计算的中间深度的数量由“steps”参数控制,每个稀疏深度计算n'',即迭代n次。如果提供了样本元数据,样本还可以根据元数据列中的不同值进行分组。
输入文件:
--i-table 计算稀释曲线的特性表(需要文件)
--i- 使用align-to-tree-mafft-系统发育指标生成的根树文件(可选文件)
范围:
--p-max-depth 最大稀疏深度大于最小深度,从1开始(必选参数);
--p- 计算多样性指数,可以选择''、''、''、'ace'、''、''、'chao1'、''等,更多请参见上图。如果不定义该参数,则默认计算总和,如果输入树文件则可以计算总和(可选参数);
--m--file 元数据文件(可选参数);
--p-min-depth 最小稀疏深度,默认为1(可选参数);
--p-steps 最小深度和最大深度之间的稀疏深度数,从2开始,默认为10(可选参数);
--p- 计算每个稀疏步骤的迭代次数。数量越多,计算量就越大。默认为10(可选参数);
输出文件:
--o- 名称(必填参数)
其他选项:
---dir 输出文件路径(可选参数)
三、实战操作总结
https://p3-pc-sign.douyinpic.com/tos-cn-i-dy/170d22b455d3436f9fbe75c59f2cb195~tplv-dy-aweme-images:q75.webp?biz_tag=aweme_images&from=327834062&s=PackSourceEnum_SEO&sc=image&se=false&x-expires=1722981600&x-signature=6G6J4DXCUQuMmkwGj83FXcZC8iU%3D
AlphaCurve 计算每个采样深度的Alpha多样性指数,范围在最小采样深度--p-min-深度和最大采样深度--p-max-深度提供的值之间。每个采样深度生成10个采样表,计算表中所有样本的alpha多样性指数(即迭代次数为10,每个采样深度计算的稀疏表,由--p-控制)。为每个采样深度的每个样本绘制平均多样性值,如果提供了样本元数据--m--file参数,还可以根据元数据对样本进行分组。
4、运行分析
使用 qiime alpha 对不同深度(--p-min-深度和 --p-max-深度之间)的 ASV 表进行 alpha 子采样,并使用两个默认指标 (--p -) 的总和计算 alpha 多样性。在每个采样深度,默认计算 10 个稀疏表以提供误差估计 (--p-)。
执行命令:
<p><pre> time qiime diversity alpha-rarefaction \ --i-table dada2-table-paired.qza \ --m-metadata-file sample-metadata.tsv \ --p-max-depth 18000 \ --o-visualization alpha-rarefaction-curves-1.qzv</pre></p>
稀疏化分为两步:首先,从特征表中过滤掉稀疏深度以下的样本;然后,对所有剩余样本进行无放回采样,以达到指定的测序深度。
无需更换即可提取
不放回抽取意味着每个被抽取的个体都不会被放回种群中。下次提取个体时,总数会比上一次少一个。每次提取的概率都会变化。每次不进行放回的提取被视为一个事件,它们不是相互独立的。例如,无放回提取事件“一一提取n个序列无放回”的概率等于“一次取出任意n个序列”的概率。
稀疏深度
最大稀疏深度的值应根据dada2-table-.qzv 文件中提供的“每个样本的测序体积”信息来确定。
一般来说,选择中位数附近的值似乎效果很好。如果生成的稀疏图中的线条看起来不平坦,则可以增加此值;如果由于大于最大采样深度而丢失许多样本,则可以减少此值。通过不断调整,最终确定一个合适的值。因此,我们首先选择18000来尝试。
输出结果:
阿尔法---1.qzv |稀疏曲线结果的可视化
5、结果分析
①首先选择as,样本元数据列是place(不分组)。查看结果如下图:
图表解读:
稀疏图主要用于确定样品的丰度是否已被充分观察或测序。如果图中的线在沿 x 轴的特定采样深度处看起来“平坦”(即斜率接近于零),则这表明收集超出该采样深度的附加序列不太可能观察到新特征。如果图中的线条不平坦,这可能是因为尚未完全观察到样本的丰富度(由于测序的序列太少),或者可能是数据中仍然存在许多测序错误(错误地作为新的多样性)。
从该数据得到的稀疏曲线如上所示。一条曲线相对较短,因为 18000 超过了其采样深度 17375 ()。当序列深度达到10000时,曲线趋于平行,说明10000测序深度时的采样数量合理,可以保证大部分特征被观察到,样本α多样性指数达到稳定。
② 将样本元数据栏调整为分组以供查看。我们一共9个样本,分成3组,每组3个样本,发现TS组的指数在16000之后就趋平然后突然上升。如下图:
图表解释:当按元数据对样本进行分组时,该可视化底部的图非常重要。它说明了当特征表细化到每个采样深度时,每组中剩余的样本数量。如果给定的采样深度d大于样本s的总频率(样本s获得的序列数),则无法计算样本s在采样深度d处的多样性。顶部绘图将不可靠,因为它将基于相对较少的样本进行计算。因此,在按元数据对样本进行分组时,必须查看底部图表以确定顶部图表中显示的数据是否可靠。
我们设置的采样深度是18000,比最小深度17375()还要大,所以在16000之后TS样本数量突然变成2,观察到的特征数量突然变大。调整参数并再次运行分析。
③增大步长,选择共同的多样性指数,重新绘制曲线。执行命令:
<p><pre> time qiime diversity alpha-rarefaction \ --i-table dada2-table-paired.qza \ --m-metadata-file sample-metadata.tsv \ --p-metrics 'shannon' 'simpson' 'observed_features' 'chao1' 'goods_coverage' \ --p-max-depth 10000 \ --p-steps 25 \ --o-visualization alpha-rarefaction-curves-2.qzv</pre></p>
https://www.shxianghu.com/attachments/2019/07/156395710777720ddab824bf25.jpg
输出结果:
阿尔法---2.qzv |稀疏曲线结果的可视化
qzv解压后的结果如下图:
6. 问题与解答
① 有人可能要问,为什么不直接选择参数并设置步长呢?
我们可以看到,使用默认参数的第一次运行花费了31秒,增加步长并选择多个多样性指数后花费了31秒。因此,我们在使用默认参数进行分析时,可以花更少的时间尝试不同的采样深度,并确定最终确定合适的参数,然后进行深入分析。
② 为什么要加大步长再运行一次?
根据小编的经验,可视化图表可能无法直接在文章中使用,所以需要根据稀释曲线的数据结果在其他软件中重新绘制。但默认10个区间的采样结果有时并不能保证曲线平滑,因此可以增加区间数。 。此外,还可以增加样本数量。
7. 用于绘制稀释曲线
根据.csv 文件的数据内容绘制曲线。
(1)使用excel打开数据,如下图:
(2)选择任意单元格>按Ctrl+A全选内容>复制内容>转置粘贴>整理成如下格式;
(3)计算每个样本在每个采样深度iter1-10的平均值,添加新的工作表并整理成如下格式,保存为xlsx类型文件;
(4)打开并导入数据。数据>从文件导入>Excel>选择文件>调整导入;
(5)按住Ctrl+A,选择所有数据>绘图>基本2D>样条线;
(6)对图形进行调整和美化,如下图:
8. 总结——为什么需要进行稀释曲线分析?
微生物组样本的测序深度与群落中的原始生物量没有直接关系,但相对测序深度对观察到的群落有很大影响。因此,对于大多数多样性测量,必须对数据进行归一化,以解决样本之间不均匀的测序深度。目前最好的方法是使用稀疏的,通过二次采样进行归一化。
Alpha多样性是通过扁平化来计算的(扁平化可以使数据标准化),但是扁平化有一定概率(小概率)会评估出错误的α多样性结果。因此,现在通过多次平滑来计算α多样性,并通过平均来校正α多样性,这体现了每个采样深度迭代10次的重要性。
稀释曲线补充了各个 α 多样性结果,允许对不同梯度的结果进行综合分析和呈现。基于不同深度或样本量水平展示α多样性更有利于微生物群落多样性的综合评估。
提示:如果熟悉几种常见的α多样性指数的计算公式,你会发现α多样性指数与观测到的OTU数量有关。
页:
[1]