NCBI的nr、nt库包含了基本上所有现有已知物种的序列信息,再进行blast时,由于数据库较大,搜索时间会比较长,同时可能会有其他物种信息干扰。因此我们可以根据NCBI提供的物种分类号对其进行拆分,下面以nr库进行举例说明。一、准备1.1、数据: nr库:https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/ accession2......
bam格式是目前最常见的比对数据存储格式,其是一种高度压缩的格式,sam是其文本格式,下面将与sam格式进行说明。sam格式是一个tab键分隔的文本格式,包含两个部分: header section (可选的) alignment section。其中header 行以‘@’开头,若存在header,则必须在alignment 行之前。alignment 行包含......
FASTQ格式是一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。格式FASTQ文件中,一条序列信息由四行组成。 第一行以@开头,之后为序列的标志符和描述信息; 第二行为序列信息; 第三行以+开头,后面可加上序列标志符,描述信息,也可以不加任何东西; 第四行为第二行每个碱基的质量得分,以单个ASCII字符表示;一个FASTQ例子如......
Fasta文件格式是最常用的生物信息文件格式之一,其是文本文件,用于表示核苷酸或者蛋白质序列,其中碱基对或氨基酸使用单字母代码表示,其可用常用的文本编辑器打开。FASTA文件以>开头的单行描述符开始,后面紧跟序列行。建议所有文本行的长度小于80。一个FASTA示例如下:>NM_001126117.2 Homo sapiens tumor protein p53 (TP53), tran......
在研究生物学功能的时候,一般同源性序列意味着相似性,虽然序列相似不一定可以说明序列同源,但是相似度高的序列很有可能也是同源的,这一假设对研究基因和蛋白质很有帮助。一对残基间可能的比对只有三种, 序列X的碱基A比对到序列Y的碱基B; 序列X的碱基A比对到序列Y的空位; 序列X的空位比对到序列Y的碱基B;下面基于此介绍一下比对的方法。序列X: AAG序列Y:......