生信之旅

扫码分享下吧!
分享

生物信息常用文件格式(1)- FASTA

Fasta文件格式是最常用的生物信息文件格式之一,其是文本文件,用于表示核苷酸或者蛋白质序列,其中碱基对或氨基酸使用单字母代码表示,其可用常用的文本编辑器打开。FASTA文件以>开头的单行描述符开始,后面紧跟序列行。建议所有文本行的长度小于80。一个FASTA示例如下:

>NM_001126117.2 Homo sapiens tumor protein p53 (TP53), transcript variant 7, mRNA
TCCTACAGTACTCCCCTGCCCTCAACAAGATGTTTTGCCAACTGGCCAAGACCTGCCCTGTGCAGCTGTG
GGTTGATTCCACACCCCCGCCCGGCACCCGCGTCCGCGCCATGGCCATCTACAAGCAGTCACAGCACATG
ACGGAGGTTGTGAGGCGCTGCCCCCACCATGAGCGCTGCTCAGATAGCGATGGTCTGGCCCCTCCTCAGC
ATCTTATCCGAGTGGAAGGAAATTTGCGTGTGGAGTATTTGGATGACAGAAACACTTTTCGACATAGTGT
GGTGGTGCCCTATGAGCCGCCTGAGGTTGGCTCTGACTGTACCACCATCCACTACAACTACATGTGTAAC

>后紧跟的字符串为该序列的标识符(例如:NM_001126117.2),其余内容则为序列的描述(标识符与描述均非必须),“>”和标识符之间不应有空格。

序列应以标准 IUB/IUPAC 氨基酸和核酸代码表示,但以下情况除外:

  1. 允许小写字母,并会被转作大写字母;
  2. 一个连字符可表示一个空白字符;
  3. 在氨基酸序列中,U和*是合法字符。
  4. 序列中的任何数字都应删除或替换为适当的字母代码(例如,N 表示未知核酸残基或 X 表示未知氨基酸残基)

 

核酸编码如下:

蛋白编码如下:

参考:

  1. https://zh.wikipedia.org/wiki/FASTA格式
  2. https://zhanglab.dcmb.med.umich.edu/FASTA/
版权声明:本文转载请注明出处!

最新评论:

发表评论

电子邮件地址不会被公开。 必填项已用*标注

captcha

公告栏

有任何问题均可以在文章页面留言!或者邮件 burning@burning.net.cn 欢迎关注微信公众号 “生信之旅”,每天均可在菜单栏领取外卖红包、支付宝红包!最高20元!

服务器推荐

欢迎关注公众号

欢迎关注生信之旅