生物信息常用文件格式(1)- FASTA
Fasta文件格式是最常用的生物信息文件格式之一,其是文本文件,用于表示核苷酸或者蛋白质序列,其中碱基对或氨基酸使用单字母代码表示,其可用常用的文本编辑器打开。FASTA文件以>开头的单行描述符开始,后面紧跟序列行。建议所有文本行的长度小于80。一个FASTA示例如下:
>NM_001126117.2 Homo sapiens tumor protein p53 (TP53), transcript variant 7, mRNA TCCTACAGTACTCCCCTGCCCTCAACAAGATGTTTTGCCAACTGGCCAAGACCTGCCCTGTGCAGCTGTG GGTTGATTCCACACCCCCGCCCGGCACCCGCGTCCGCGCCATGGCCATCTACAAGCAGTCACAGCACATG ACGGAGGTTGTGAGGCGCTGCCCCCACCATGAGCGCTGCTCAGATAGCGATGGTCTGGCCCCTCCTCAGC ATCTTATCCGAGTGGAAGGAAATTTGCGTGTGGAGTATTTGGATGACAGAAACACTTTTCGACATAGTGT GGTGGTGCCCTATGAGCCGCCTGAGGTTGGCTCTGACTGTACCACCATCCACTACAACTACATGTGTAAC
>后紧跟的字符串为该序列的标识符(例如:NM_001126117.2),其余内容则为序列的描述(标识符与描述均非必须),“>”和标识符之间不应有空格。
序列应以标准 IUB/IUPAC 氨基酸和核酸代码表示,但以下情况除外:
- 允许小写字母,并会被转作大写字母;
- 一个连字符可表示一个空白字符;
- 在氨基酸序列中,U和*是合法字符。
- 序列中的任何数字都应删除或替换为适当的字母代码(例如,N 表示未知核酸残基或 X 表示未知氨基酸残基)
核酸编码如下:
蛋白编码如下:
参考:
版权声明:本文转载请注明出处!
最新评论:
发表评论
电子邮件地址不会被公开。 必填项已用*标注