formatdb is an outdated software tool in molecular bioinformatics to format protein or nucleotide databases for BLAST. It has been replaced by the tool makeblastdb and the NCBI "strongly encourage[s]" users to stop using formatdb.
The formatdb.exe program is part of the BLAST release, which can be found here:
ftp://ftp.ncbi.nih.gov/blast/executables/release/2.2.18
在对核苷酸或蛋白质序列数据库进行Blast搜索之前,必须要对所使用的序列数据库进行formatdb, 即对序列数 据库进行格式化,这是所有使用BLAST所必须的一步。
格式化序列数据库— —formatdb
formatdb 简单介绍
formatdb处理的都是格式为 ASN.1和 FASTA,而且不论是核苷酸序列数据库,还是蛋白质序列数据库;不论是使用Blastall ,还是Blastpgp,Mega Blast应用程序,这一步都是不可少的。
formatdb 命令行参数
它可以根据我们的想法把源数据库格式化
主要参数的说明
-i 输入需要格式化的源数据库名称 Optional
-p 文件类型,是核苷酸序列数据库,还是蛋白质序列数据库
T – protein F - nucleotide [T/F] Optional
default = T
-a 输入数据库的格式是ASN.1(否则是FASTA)
T - True, F - False. [T/F] Optional
default = F
-o 解析选项
T - True: 解析序列标识并且建立目录
F - False: 与上相反
[T/F] Optional default = F
formatdb命令的参数说明
参数 |
说明 |
值 |
默认值 |
备注 |
-t |
数据库的标题【可选】 |
字符 |
|
|
-i |
需要创建数据库的文件名 |
文件名 |
|
|
-l |
日志文件名 |
文件名 |
formatdb.log |
|
-p |
文件数据类型 |
[T/F] |
T |
T – 蛋白质F – 核苷酸 |
-o |
解析选项 |
[T/F] |
F |
T表示解析序列文件并产生索引文件,F则不解析 |
-a |
数据库文件是否为ASN.1格式 |
[T/F] |
F |
T为是ASN.1格式 |
-b |
ASN.1的模式 |
[T/F] |
F |
T为二进制,F为文本模式 |
-e |
ASN.1数据库的序列数 |
[T/F] |
F |
T表示数据库中只有一条序列 |
-n |
重命名数据库文件的名称 |
字符窜 |
|
|
-v |
数据库卷的大小 |
整数 |
0 |
单位:兆字符 |
-s |
限制索引的类型 |
[T/F] |
F |
T为仅用接收号创建索引 |
-L |
创建数据库别名 |
输出文件名 |
|
|
-F |
Gi列表的文件名 |
输入文件 |
|
配合-L使用 |
-B |
生成的Gi二进制的文件名 |
输出文件 |
|
配合-F使用 |
示例:
formatdb -i uniref100.fasta -n uniref100 -t uniref100 -l uniref100.log -p T
formatdb -i uniref90.fasta -n uniref90 -t uniref90 -l uniref90.log -p T
formatdb -i uniref50.fasta -n uniref50 -t uniref50 -l uniref50.log -p T
ftp://ftp.ncbi.nih.gov/blast/documents/formatdb.html
http://www.ncbi.nlm.nih.gov/staff/tao/URLAPI/formatdb_fastacmd.html
http://en.wikipedia.org/wiki/Formatdb
http://boyun.sh.cn/bio/?p=1483
http://code.google.com/p/mass-spec-gui/downloads/detail?name=formatdb.exe&can=2&q=
========================================================================================
BLAST+ 中包含的 makeblastdb 参数详解
与以前的Blast相以,我们还是从格式化数据库到比对开始
一般我们是有一个fasta文件用来格式化数据库,以前的命令是formatdb,现在是makeblastdb
一般用到的格式如下:
makeblastdb -in input_file -dbtype molecule_type -title database_title -parse_seqids -out database_name -logfile File_Name
-in 后接输入文件,你要格式化的fasta序列
-dbtype 后接序列类型,nucl为核酸,prot为蛋白
-title 给数据库起个名(不能用在后面搜索时-db的参数)
-parse_seqids 推荐加上,现在有啥原因还没搞清楚
-out 后接数据库名,自己起一个有意义的名字,以后blast+搜索时要用到的-db的参数
-logfile 日志文件,如果没有默认输出到屏幕
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/
http://www.ncbi.nlm.nih.gov/books/NBK1763/
http://nebc.nox.ac.uk/bioinformatics/docs/makeblastdb.html
http://blast.ncbi.nlm.nih.gov/Blast.cgi
ftp://ftp.ncbi.nlm.nih.gov/