生信教程 | 基于PSMC估计有效群体大小

陆康
• 阅读 282

简介

PSMC 模型使用单个个体的完整二倍体序列中的信息来推断种群规模变化的历史。它最初于 2011 年发布,现已成为基因组学领域非常流行的工具。在本教程中,我们将逐步完成为 PSMC 生成必要的输入数据的步骤,并在发布的猛犸象数据上运行它。

数据

Genome: https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_000001905.1/

Bam: https://www.ebi.ac.uk/ena/browser/view/ERX935618

这些数据最初是从 Broad 研究所(大象参考基因组)和 ENA( bam 文件)下载的。如果您自己下载数据,则需要在开始之前使用 samtools 索引 fasta 文件和 BAM 文件。

请注意,对于此分析,我们从 BAM 文件开始,其中包含已映射到参考基因组(在本例中为大象)的读数。要在您自己的数据上运行 PSMC,您需要首先将您的读数映射到参考基因组,然后再调整这些脚本。

Install


conda create -n psmc  -c bioconda psmc samtools bcftools

conda activate psmc

索引数据

# genome
samtools faidx loxAfr4.fa 

# bam
samtools index P964.bam

Call consensus 序列

从映射读数开始,第一步是生成 FASTQ 格式的一致序列。为此,我们将使用 samtools/bcftools 工具,遵循论文中描述的方法。

生成consensus序列背后的基本思想是首先使用 samtools mpileup 获取映射读取并生成 VCF 文件。然后,bcftools 使用原始共识调用模型生成consensus序列,并通过 vcfutils.pl 转换为 fastq(带有一些额外的过滤)。

  • 由于 Palkopoulou 等人仅分析了常染色体,因此我们将做同样的事情,依赖于参考文献中 27 个常染色体被命名为 chr1 - chr27 。
samtools mpileup -Q 30 -q 30 -u -v -f loxAfr4.fa -r $CHR P964.bam | bcftools call -c |  \
vcfutils.pl vcf2fq -d 5 -D 34 -Q 30 > P964.$CHR.fq

# $CHR: chr1 - chr27

这将对齐的 bam 文件和参考基因组作为输入,使用 samtools 生成 mpileup,使用 bcftools call consensus序列,然后过滤并将共有序列转换为 fastq 格式,将每个染色体的结果写入单独的 fastq 文件。一些参数解释:

  1. samtools:

    • mpileup中的-Q和-q分别确定baseQ和mapQ的截止值
    • -v 告诉 mpileup 生成 vcf 输出,-u 表示应该解压缩
    • -f 是使用的参考fasta(需要建立索引)
    • -r 是调用 mpileup 的区域(在本例中,是基于数组任务 id 的特定染色体)
    • P964.bam是要使用的bam文件
  2. bcftools:

    • call -c 使用原始调用方法从 mpileup call consensus 序列
  3. vcfutils.pl:

    • -d 5 和 -d 34 确定允许 vcf2fq 的最小和最大覆盖范围,该范围之外的任何内容都会被过滤
    • -Q 30 将均方根映射质量最小值设置为 30

PSMC

PSMC 使用 consensus fastq 文件,并推断种群规模的历史。尽管需要多种参数来控制模型拟合的细节,但我们将遵循 Palkopoulou 等人的做法并使用默认值。

我们需要做的第一件事是将所有单染色体 fastq 文件合并到一个consensus序列中,我们将使用 unix 工具 cat 来完成此操作。

cat P964.chr*.fq > P964.consensus.fq

现在我们需要将此 fastq 文件转换为 PSMC 的输入格式:

$PSMC_HOME/utils/fq2psmcfa P964.consensus.fq > P964.psmcfa

然后我们可以使用默认选项运行 PSMC——但请注意,我们指定 -p 参数,因为论文中报告的默认值与当前默认值不同。

psmc -p "4+25*2+4+6" -o P964.psmc P964.psmcfa

最后,我们使用论文中报告的每代突变率 -u 和以年为单位的世代时间 -g 绘制 PSMC 图。因为论文没有给出他们如何绘制绘图的确切参数,所以这可能看起来与图有点不同,但它会非常接近。

$PSMC_HOME/utils/psmc_plot.pl -u 3.83e-08 -g 31 -p P964_plot P964.psmc

本文由mdnice多平台发布

点赞
收藏
评论区
推荐文章
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Wesley13 Wesley13
3年前
MySQL binlog2sql实现MySQL误操作的恢复
对于MySQL数据库中的误操作删除数据的恢复问题,可以使用基于MySQL中binlog做到类似于闪回或者生成反向操作的SQL语句来实现,是MySQL中一个非常实用的功能。原理不难理解,基于MySQL的row格式的binlog中,记录历史的增删改SQL信息,基于此解析出来对应的SQL语句(回滚的话就是反向的SQL语句)。在格式为binlog格式为r
Stella981 Stella981
3年前
LightningChart.NET使用两个BarSeries创建简单的2D图表
本教程介绍了如何使用两个BarSeries创建简单的2D图表。BarSeries将数据值表示为矩形条,并且可以用于以非常清晰的方式可视化数据之间的差异和方差。在本教程中,BarSeries用于表示两年期间的每月平均温度。本教程假定您已在WinForms或WPF应用程序上使用LightningChart创建了新图表。如果没有,请按照我们的简
Easter79 Easter79
3年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
Wesley13 Wesley13
3年前
Unity5.6.4f1 配置WebGL教程
Unity5.6.4f1发布WebGL的配置教程步骤一:先查看自带的Unity是否yi配置好WebGL的项,若无,则可遵循以下教程来设置!(https://oscimg.oschina.net/oscnet/54612ae3d9b094f1db96b00b1c81a5fe432.png)步骤二:下图是我已经设置好的,未设置
Stella981 Stella981
3年前
PHP利用32进制生成固定长度字符串对id加密解密
我们在实际项目运用中,难免会要求对ID进行加密,生成特定的字符串,比如生成用户邀请码,这样不用查数据库也可以反向解密到id为什么使用32进制因为数字加字母长度为36位,32位生成后不用区别用户输入不用区分大小写<?phpclassIDAES{$baseChar'0123456789
直播预告丨大模型如何在健康医疗中挖出大大的花?
大模型时代,“应用变了”:大模型如何在健康医疗中挖出大大的花?12月1日(周五)14:0015:00开播!大模型时代,给千行百业带来了新的想象空间试想一下,大模型经过专业知识训练竟然能够成为你的健康医疗助手曾经科幻片中的场景,正一步步成为现实这一期,我们将
Java Selenium WebDriver:代理设置与图像捕获
在网络爬虫和自动化测试领域,SeleniumWebDriver是一个非常流行的工具,它允许开发者模拟用户在浏览器中的操作。然而,出于安全或隐私的考虑,有时我们需要通过代理服务器来发送请求。本文将介绍如何在Java环境中使用SeleniumWebDriver
布局王 布局王
1个月前
仓颉开发语言入门教程:搭建开发环境
仓颉开发语言作为华为为鸿蒙系统自研的开发语言,虽然才发布不久,但是它承担着极其重要的历史使命。作为鸿蒙开发者,掌握仓颉开发语言将成为不可或缺的技能,今天我们从零开始,为大家分享仓颉语言的开发教程,今天要分享的是搭建开发环境。仓颉在DevEcostudio和
LeeFJ LeeFJ
2年前
Foxnic-SQL (14) —— DAO 的 Service 扩展
FoxnicSQL中的Service有点像DDD中的Repository,但Foxnic体系里面又没有将Repository和Service区分开来,所以它更有点像两者的合体。但,他们的合与分本身是弹性的,具体还是要看业务场景的需要。在很多项目中,好多时候,Controller是Service的二传手,或许它也会成为Repository的三传手。所以,到底是单传还是二传或是三传还是要看项目、看场景。<br/FoxnicSQL中的Service就是将数据操作的目标具体化,它初始的样子就是针对单个表、单个实体的数据操作者。Service在使用时需要代码生成工具由数据表生成Po、Vo对象,Service接口以及接口实现。关于如何生成这些代码,我们不在此节展开。在此我们主要是了解如何使用Service已经为开发者提供的诸多功能
小万哥 小万哥
1年前
数据库操作入门:PyMongo 和 MongoDB 的基本用法
MongoDBMongoDB是一种流行的NoSQL数据库,它将数据存储在类似JSON的文档中,使数据库非常灵活和可扩展PyMongoPython需要一个MongoDB驱动程序来访问MongoDB数据库。在本教程中,我们将使用MongoDB驱动程序"PyMo