Your Good Partner in Biology Research

Nat Methods挑战传统理论:编码蛋白的“垃圾DNA”

日期:2013-11-18 10:24:35

通过采用一种新的分析方法,瑞典卡罗林斯卡研究所/生命科学实验室(SciLifeLab)的研究人员发现了接近一百种编码蛋白质的人类新基因区域。其中许多的区域都是所谓的假基因(pseudogene),它们或许与癌症相关。预计这一近期开发的蛋白质分析方法将开辟一个全新的研究领域。这项研究发表在科学杂志《自然方法》(Nature Methods)上。

 

所有关于人类基因组的信息都储存在细胞核的DNA序列中,在21世纪初科学家们即绘制出了这些信息图谱。基因是指规定编码不同类型蛋白质的部分DNA。在过去的几十年里,研究人员采用DNA分析定义了大约2.1万个人类蛋白质编码基因。在不同的细胞类型中,不同蛋白质的编码基因或是处于活化或是处于失活状态,许多的医学疾病也与特异基因活性改变有关。

 

人类基因组只有大约1.5%DNA是由蛋白质编码基因构成。在剩余的DNA中,一些序列用来调控基因的蛋白质生成,但大部分的DNA都被认为缺乏用途,通常称之为“垃圾DNA”。在垃圾DNA中存在着所谓的假基因。人们一直将假基因视作是无功能基因,认为它们是进化过程中丧失了功能的基因残留物。

 

在当前的论文中,研究人员提出了一种新的蛋白基因组学方法,使得能够追踪基因组剩余98.5%DNA中的蛋白质编码基因,这是一项直到现在都被视作是不可能完成的任务。研究表明,一些假基因生成了蛋白质,表明它们确实具有功能。

 

研究的领导者、副教授Janne Lehtiö 说:“为了能这样做,我们不得不将实验肽序列数据与全基因组中数百万可能的位点进行匹配。我们必须开发出新的实验和生物信息学方法才能进行基于蛋白质的基因检测,但当我们一切就绪时,感觉就像是在基因组中参加一次Jules Verne 秘密冒险。”

 

Lehtiö研究小组发现了人类基因组中存在近百个新蛋白质编码区域的证据。在来自小鼠的细胞中也获得了相似的研究结果。其中许多由假基因编码的新蛋白在其他的癌细胞系中也可以追踪到,研究人员的下一个工作事项是调查:这些存在于基因组“垃圾场”中的基因是否在癌症或其他疾病中起作用。

 

Lethiö说:“我们的研究挑战了假基因不编码蛋白质的旧理论。所提出的方法允许在具有复杂基因组的生物体中基于蛋白质进行基因组注释,可促使不仅在人类中并且在任何具有已知DNA序列的物种中发现许多新的蛋白质编码基因。”