好久没更新了,最近在弄DNA甲基化测序的东西,接触到了Bismark这个软件,由于对甲基化测序数据的比对有点疑惑,同时文献不长,所以简单看了下,在此做个记录。一、甲基化测序基本原理一般来说,就是将DNA使用重亚硫酸盐处理,使得DNA链中的碱基非甲基化C转为U,而后在PCR流程中转化为碱基A,而甲基化的碱基C不受影响。(更详细的建议自行查找下材料、文献学习)......
在机器学习中,我们常用到特征选择算法,好的特征对于模型来说,能得到更好的结果。特征选择的好处包括但不限于:1. 降低数据的维度以降低计算复杂度;2. 降低噪声以提高分类准确性;特征选择方法主要有3个类别:1. 过滤法(filters)过滤法本质上是数据预处理和数据过滤方法,特征的选择主要是基于内在特征进行挑选的,例如相关性、判别目标类别的能力、互信息等。其比......
在研究生物学功能的时候,一般同源性序列意味着相似性,虽然序列相似不一定可以说明序列同源,但是相似度高的序列很有可能也是同源的,这一假设对研究基因和蛋白质很有帮助。一对残基间可能的比对只有三种, 序列X的碱基A比对到序列Y的碱基B; 序列X的碱基A比对到序列Y的空位; 序列X的空位比对到序列Y的碱基B;下面基于此介绍一下比对的方法。序列X: AAG序列Y:......
FM indexfm-index是一种结合到BWT和小的辅助数据结构中的索引,它的核心就是BWM中的F与L。虽然BWM与后缀数组有关,但是不能使用与后缀数组相同的查询方法,因为字符串的中间部分我们并没有进行保存。这里我们使用上一篇文章所用的字符串S(ACGTAA)作为示范。见下图所示,其中红线部分未保存。FM Index 查询当我们需要查询子字符串P在字典序排序矩阵M中行的......
一、前言BWT算法对数据量大的数据来说,压缩比较有效,目前已经广泛用于生物学数据的存储中,例如bowtie就使用到了这一策略。虽然之前在大学期间学过该算法,但是有点遗忘了,故重新复习一番。二、什么是BWT?严格来说,BWT并不是压缩算法,它仅是把需要压缩的字符重新排列,将相同的字符排在一起或者相邻位置,使其更易被压缩。三、BWT原理BWT算法主要分为两个......