Fasta文件格式是最常用的生物信息文件格式之一,其是文本文件,用于表示核苷酸或者蛋白质序列,其中碱基对或氨基酸使用单字母代码表示,其可用常用的文本编辑器打开。FASTA文件以>开头的单行描述符开始,后面紧跟序列行。建议所有文本行的长度小于80。一个FASTA示例如下:>NM_001126117.2 Homo sapiens tumor protein p53 (TP53), tran......
KEGG数据库是了解生物系统(例如细胞、生物、生态系统)的实用性数据库,是国际最常用的生物信息数据库之一。一般进行kegg注释我们都是通过kegg网页版或者其API进行提交,今天我们介绍一个基于hmm模型进行本地kegg注释的软件KofamKOALA。 KofamKOALA 基于KOfam(KEGG Orthologs (KOs)定制的HMM数据库),通过使用HM......
Blast是我们在分析数据常用的一个软件,功能是序列比对,相信生物类的同学应该多多少少都会用它的网页版不过网页版有其局限性: 上传的序列不能过大 不能使用自己构建的数据库等网页版有一定的局限性,所以说我们需要构建自己本地的Blast环境,下面我就分步骤来说明下Blast本地安装。一、下载Blast安装包到Blast的官网(https://......
昨天我们已经介绍了GWAS分析,今天我们来介绍下曼哈顿图的绘制,一般来说,我们常使用R,qqman包来进行绘制的,但是个人觉得其配色不是很好看,今天向大家推荐一个R包CMplot(github项目地址:https://github.com/YinLiLin/R-CMplot),该包不仅可以绘制曼哈顿图、qq图,还可以绘制SNP分布热图,配色方面也很美观,先来欣赏下吧(由测试数据绘制)。......
GWAS的全称是全基因组关联分析(Genome-wide association study),从物种基因组范围内中找出存在的单核苷酸多态性(SNP),与某种表型进行关联分析,从而找出与表型相关的SNPs。进行GWAS分析的软件有很多,今天我们主要使用EMMAX软件,其官网为(http://genetics.cs.ucla.edu/emmax/),该软件使用的是混合模型。下面介绍它的安装及使用:......