福建水产设备联盟

浅谈菜鸟如何入门生物信息分析

基因检测与解读 2021-09-12 06:43:46

作者:周在威
前言
    首先谈谈游侠自己是如何自学生物信息分析的,游侠的研究生工作主要是分子生物学实验,跟生物信息关系不大,2011年毕业于上海交大医学遗传研究所后,留在所里跟马老师做affy的基因表达芯片,扫描芯片之后看看质控是否过关,之后的流程是将数据传给专门的生物信息人员分析,但是我有强烈的好奇心想快点知道这些芯片在正常组与对照组哪些基因表达有差异,于是我就下载了affy自己的表达软件,这些软件很好操作,不需要很高深的编程技术,所以菜鸟们可以先从无需编程的商业软件开始学习,比如Partek,genespring等软件。 接下来我发现有时候有差异表达的基因用定量PCR验证的时候不能得到很好的结果,我就想看看这些基因的表达在芯片上具体数值是多少,当时是手动地一个一个挑出来看,真的是好麻烦,懒人思维让我搜索一下有没有更快更省力的方法,果然通过R语言可以实现。所以对菜鸟的第二个忠告是当你在做一些重复的枯燥的工作时,不妨搜索一下看看有没有更好的工具。我第一次用R语言的时候,是跟着一些tutorial来操作,很顺利地上手了,对菜鸟的第三个忠告是刚开始的时候不要直接自己编程,而是先照着别人已写好的命令运行,熟悉方式,先上手有成就感。虽说R也算是编程语言,但是相对而言不是很复杂,因为R有很多软件包,你可以根据自己的需要将这些软件包衔接起来。
虚心请教
    游侠有一段时间在分析AFFY的甲基化芯片,文章上介绍主要使用MAT算法,可是这个软件真的是很难安装成功,主要是需要的各个必备软件的版本不兼容,游侠我整整花了一个月的时间就是安装卸载MAT,在不同的操作系统上尝试,最后还是没有成功,在万般无奈之下厚着脸皮请教生信的老师后一下子就解决了,解决的方案就是确定各必备软件的版本。所以第四个忠告是在多次失败后要懂得向对的人请教
二代测序
    上面都是谈芯片,接下来再谈谈测序,在2012年左右,所里有个怀疑遗传病的患儿在华大做了一家三口的全外显子测序,负责的老师将四个excel表格让我按照遗传模式筛查候选基因,虽说我花了一天的时间用R语言编了程序查找复合杂合突变的候选基因(一个基因有两个杂合突变,一个来自父亲,一个来自母亲),但是真的好麻烦且低效,筛选下来也有几十个基因符合条件,根本没有心思再一个一个去查看基因的功能,然后我就想不应该用R语言去分析,应该用测序的专门软件啊,不会可以自学嘛,测序的软件都需要在linux系统下运行,可是看到类似DOS系统的黑框框就一点学的欲望都没有了。犹豫纠结了好长一段时间到底要不要学,还好搜索到linux系统原来也可以有图形界面(生信的小伙伴尽情的鄙视我吧),这就好办,游侠一直用centos系统图形界面,终于可以使用鼠标了,系统解决了,呃。。。估计这也是很多菜鸟觉得生信很难的一个重要因素吧。Linux有很多常用命令,如安装软件、加载硬盘等都可以百度搜索一下(此处怎么感觉怪怪的),特别是自己要多尝试,不要怕出错,出错的地方解决了就是进步,建议菜鸟以一例全外显子的原始数据开始,将整个流程跑通,包括fastQC,bwa比对、GATK处理及Annovar注释,先不要去管每个命令的参数,按照别人的参数先运行成功就OK。对菜鸟的最后一个忠告是:不要泛泛地想学习生信而学习生信,那样很容易失去目标,最好以任务需求来自学,比如我给你一个遗传病患者的全外显子数据,要你找到致病突变位点,这样你就知道自己的目标与方向,知道要达成目标需要解决哪些问题,而不会纠结于某个软件的各种参数。

最后
    最后游侠祝菜鸟们能够快速成长,你们只是缺少实战,而在目前测序数据大量生产的同时,必将有你们的用武之地。
关注公众号,查看更多干货!