Lactobacillus Pentosus Pangenome

戊糖乳杆菌泛基因组分析

工作流程

1. 下载、解压序列文件：

$ cd ./sequence/origin/
$ wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/003/641/185/GCA_003641185.1_ASM364118v1/GCA_003641185.1_ASM364118v1_genomic.fna.gz -O DSM20314.fna.gz
$ wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/002/850/015/GCA_002850015.1_ASM285001v1/GCA_002850015.1_ASM285001v1_genomic.fna.gz -O BGM48.fna.gz
$ wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/003/627/295/GCA_003627295.1_ASM362729v1/GCA_003627295.1_ASM362729v1_genomic.fna.gz -O ZFM222.fna.gz
$ wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/003/627/375/GCA_003627375.1_ASM362737v1/GCA_003627375.1_ASM362737v1_genomic.fna.gz -O ZFM94.fna.gz
$ wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/002/211/885/GCA_002211885.1_ASM221188v1/GCA_002211885.1_ASM221188v1_genomic.fna.gz -O SLC13.fna.gz
$ for file in *.fna.gz;do gzip -d $file;done # 解压
$ cd -

2. 格式化`FASTA`序列文件为`Contig`叠连群序列文件

根据长度或给定的定义列表删除叠连群，以更简单的名称生成输出

$ for file in ./sequence/origin/*.fna;do
> anvi-script-reformat-fasta ${file} -o \
> $(echo ${file} | sed 's/origin/contigs/g' | sed 's/\.fna/\.contig\.fna/g') \
> --simplify-name
> done

-o：指定输出文件名称
--simplify-name：顾名思义就是以更简单的名称输出

3. 生成`Contig`叠连群数据库

叠连群数据库将保留与叠连群相关的所有信息：开放阅读框的位置，每个叠连群的K-MER频率，其中拆分开始和结束，功能和基因的分类注释等。

$ for file in ./sequence/contig/*.contig.fna;do
> anvi-gen-contigs-database -f ${file} -o \
> $(echo ${file}|sed 's/sequence\/contig/databases/g'|sed 's/\.contig\.fna/.db/g'|sed 's/ //g')
> -n "Lactobacillus Pentosus Pangenome"
> done

-o：指定输出文件名称
-n：指定项目名称

4. `hmms`搜索和鉴定单拷贝基因

HMM：隐马尔科夫模型。它使用HMMER识别用户基因中与多个默认的细菌单拷贝核心基因集合的命中率。

$ for file in ./databases/*.db;do
> anvi-run-hmms -c ${file} \
>               -T 10 \
>               --just-do-it \
>               --queit
> done

-T：指定线程数
--just-do-it：如果存在运行过hmms的数据库，会强制再次重新执行
--queit：静默运行命令

5.数据库迁移

$ anvi-migrate --migrate-dbs-safely ./databases/*.db

6. 生成基因组存储

$ anvi-gen-genomes-storage -e ./databases/external-genomes.csv -o ./databases/LP-GENOMES.db

-e：指定外部基因组文件
-o：指定输出基因组存储文件

7. 运行泛基因组分析

$ anvi-pan-genome -g .databases/LP-GENOMES.db \
                  -n "Lactobacillus_Pentosus_Pangenome" \
                  -o LP \
                  -T 10 \
                  --minbit 0.5 \
                  --mcl-inflation 10 \
                  --use-ncbi-blast

-n：指定项目名称
-o：指定输出目录名称
-T：指定线程数
--minbit：使用最初在ITEP中实现的最小位启发式算法来消除两个氨基酸序列之间的弱匹配，默认最小位为0.5。
--mcl-inflation：使用MCL算法在氨基酸序列相似性搜索结果中识别簇。若比较许多远缘基因组（即基因组分为不同家族或更远的基因组），使用2，若比较非常密切相关的基因组（相同物种的菌株），则使用10。
--use-ncbi-blast：使用NCBI的blastp进行氨基酸序列相似性搜索。

8. 数据可视化

如果运行过前面所有步骤，可以直接运行可视化。

$ anvi-display-pan -g ./databases/LP-GENOMES.db \
                   -p LP/Lactobacillus_Pentosus_Pangenome-PAN.db \
                   -I localhost \
                   --title "Lactobacillus Pentosus Pangenome"

-g：指定基因组存储文件
-p：指定运行泛基因组分析后的数据库文件
-I：指定访问地址。localhost或127.0.0.1都能本地访问
--title：项目名称

Name		Name	Last commit message	Last commit date
Latest commit History 26 Commits
configs		configs
databases		databases
images		images
scripts		scripts
sequence		sequence
test		test
thesis		thesis
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
anvio.md		anvio.md
environment.yml		environment.yml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Lactobacillus Pentosus Pangenome

工作流程

1. 下载、解压序列文件：

2. 格式化`FASTA`序列文件为`Contig`叠连群序列文件

3. 生成`Contig`叠连群数据库

4. `hmms`搜索和鉴定单拷贝基因

5.数据库迁移

6. 生成基因组存储

7. 运行泛基因组分析

8. 数据可视化

更多

About

Languages

License

llxlr/Lactobacillus_Pentosus_Pangenome

Folders and files

Latest commit

History

Repository files navigation

Lactobacillus Pentosus Pangenome

工作流程

1. 下载、解压序列文件：

2. 格式化FASTA序列文件为Contig叠连群序列文件

3. 生成Contig叠连群数据库

4. hmms搜索和鉴定单拷贝基因

5.数据库迁移

6. 生成基因组存储

7. 运行泛基因组分析

8. 数据可视化

更多

About

Topics

Resources

License

Stars

Watchers

Forks

Languages

2. 格式化`FASTA`序列文件为`Contig`叠连群序列文件

3. 生成`Contig`叠连群数据库

4. `hmms`搜索和鉴定单拷贝基因