生信之旅-生物信息常用文件格式（1）- FASTA

生物信息常用文件格式（1）- FASTA

burning 2021年06月02日 867

生物文件格式

Fasta文件格式是最常用的生物信息文件格式之一，其是文本文件，用于表示核苷酸或者蛋白质序列，其中碱基对或氨基酸使用单字母代码表示，其可用常用的文本编辑器打开。FASTA文件以>开头的单行描述符开始，后面紧跟序列行。建议所有文本行的长度小于80。一个FASTA示例如下:

>NM_001126117.2 Homo sapiens tumor protein p53 (TP53), transcript variant 7, mRNA
TCCTACAGTACTCCCCTGCCCTCAACAAGATGTTTTGCCAACTGGCCAAGACCTGCCCTGTGCAGCTGTG
GGTTGATTCCACACCCCCGCCCGGCACCCGCGTCCGCGCCATGGCCATCTACAAGCAGTCACAGCACATG
ACGGAGGTTGTGAGGCGCTGCCCCCACCATGAGCGCTGCTCAGATAGCGATGGTCTGGCCCCTCCTCAGC
ATCTTATCCGAGTGGAAGGAAATTTGCGTGTGGAGTATTTGGATGACAGAAACACTTTTCGACATAGTGT
GGTGGTGCCCTATGAGCCGCCTGAGGTTGGCTCTGACTGTACCACCATCCACTACAACTACATGTGTAAC

>后紧跟的字符串为该序列的标识符（例如：NM_001126117.2），其余内容则为序列的描述（标识符与描述均非必须），“>”和标识符之间不应有空格。

序列应以标准 IUB/IUPAC 氨基酸和核酸代码表示，但以下情况除外：

允许小写字母，并会被转作大写字母；
一个连字符可表示一个空白字符；
在氨基酸序列中，U和*是合法字符。
序列中的任何数字都应删除或替换为适当的字母代码（例如，N 表示未知核酸残基或 X 表示未知氨基酸残基）

核酸编码如下：

蛋白编码如下：

参考:

生信之旅

生物信息常用文件格式（1）- FASTA

最新评论：

发表评论

电子邮件地址不会被公开。必填项已用*标注

公告栏

阅读量排行

标签

服务器推荐

欢迎关注公众号