首页  >  热点  >  新闻特写  >  文章正文
shRNA表达克隆

人类基因组中的“暗物质”

Nov 07, 2016 No Comments

科学家们在逐步发现上调或下调我们基因表达的隐藏开关,但绘制这一复杂网络仍需大量工作。

十五年前,科学家为首次完成人类基因组测序而欢欣鼓舞。当时,他们预测人类有25,000到40,000个负责编码蛋白质的基因。这一估计持续下降。实际上,人类似乎只有19,000个蛋白编码基因,只占到基因组的1-2%。那么,剩下的99%的基因(被称为“DNA的暗物质”)是如何调控这些1%的基因的呢?

类似的基因测序项目还包括美国国家人类基因组研究所(US National Human Genome Research Institute)2003年发起的DNA元件百科全书(Encyclopedia of DNA Elements, ENCODE)项目等。这些工作表明,大量的调节元件正在发挥作用以调节基因表达,而科学家们才刚刚开始探索这些秘密。科学家们希望通过解密非蛋白编码基因的调控指令,来找到理解和治疗疾病的新方式。ENCODE团队成员、加州大学(University of California)的细胞生物学家任兵(Ren Bing)表示,毫不夸张地说,ENCODE对学界理解人类基因组和理解基因测序起到了同样重要的作用。

 

人类基因组中的“暗物质”

以前,科学家们认为,人类基因被“垃圾”包围,现在他们发现,这些“垃圾”其实是调节基因活力的调控区域。

 

 

任兵也参与了ENCODE的一个后续项目——表观基因组学线路图(Roadmap Epigenomics Project)。ENCODE和这个项目均由美国国立卫生研究院(US National Institutes of Health, NIH)资助,旨在绘制和预测基因组中调控基因表达的元件。通过使用生化方法检测DNA序列、RNA转录物、与DNA/RNA结合的调控蛋白和表观标记(粘附在DNA和包裹DNA的组蛋白上的化学标签),科学家们已经获得了一份调控元件列表。

目前数据表明,人类基因组中存在数十万个负责调控基因表达的功能区域:人类基因组中,用于调节基因表达的序列远多于基因本身。科学家现在试图通过实验验证每个预测的元件一一确认功能。这项工作非常繁重,幸而科学家们有了新工具,应对这个挑战。

CRISPR-Cas9普及后,研究人员研究非编码区元件功能的速度大幅提升。但研究调控元件仍然是个巨大挑战:到目前为止,人类基因组中已发现的DNA调控区域超过300万个,与转录因子结合的位点超过1500万个。大约15万个在各种细胞中都是有活力的。 

这些对于理解疾病至关重要,因为与常见疾病相关的大多数单核苷酸突变通常发生于非蛋白编码区,并且通常与ENCODE指出的DNA调节区域重叠。例如,一些驱动基因表达的调控元件是癌症的发病根源。数据表明,破坏基因的调节元件可能对细胞功能产生破坏性影响。借助CRISPR-Cas9,科学家就可以在非编码区域引入基因突变,并观察后结果。

 

解码复杂网络

人类基因组中具有基因调控功能的暗物质的数量还有待讨论。2012年,ENCODE科学家基于生化测定结果,提出预测:80%的非编码区域具有功能。但随着研究人员缩小了“功能”的定义,并设计了报告基因等方法来测试这些功能,他们发现,这个估计值偏高。斯坦福大学(Stanford University)的遗传学家兼ENCODE成员Michael Snyder指出,具体数字还不完全清楚,部分原因是表观基因组学图谱并不完整。大多数人认为,10%到20%的非编码基因可能具有功能。一旦你破坏这些区域,细胞乃至机体就会受到影响。

但调控元件功能复杂、形式多样,研究它们困难重重。即使是最有名的调控元件类型,如启动子(位于转录起点的旁边)以及增强子(与转录因子结合后,能增加与它连锁的基因转录的概率),都很难研究。这些序列不仅数量庞大——估计为1500万个,而且增强子可能离它的连锁基因相隔几千个碱基对。因此,很难预测增强子调控的基因的位置,以及具体的调控作用。

到目前为止,ENCODE和Roadmap项目提供了一些重要线索,但是要证明这些元件的实际调控作用还需要进行功能测试。对于基因来说,功能测试的常用方法是敲除某个基因,随后在细胞模型和动物模型中观察影响。这对于非编码基因组不太容易做到,因为许多元件是多余的,只删除一个元件可能不会改变基因表达或产生明显的变化。以色列特拉维夫大学(Tel Aviv University)的遗传学家Ran Elkon指出,现阶段,要区分ENCODE的调控元件列表中的功能元件和非功能元件非常困难。

CRISPR-Cas9加速了科学家对增强子的探索。该技术使科学家能够使用向导RNA库,靶向和破坏不同基因区域,以高通量方式突变大量调节元件,观察结果。这种方法不仅相对较快,而且研究人员还可以直接在人类细胞中进行测定。

这类实验已取得了一些意想不到的发现。当Elkon还在荷兰癌症研究所(Netherlands Cancer Institute)的癌症生物学家Reuven Agami的实验室做博士后时,作为Reuven Agami团队的一名成员,他和Reuven Agami等人首次使用CRISPR-Cas9进行了调控元件筛选。借助CRISPR-Cas9方法,他们能分别测试ENCODE预测与p53结合的各个增强子的作用。科学家对p53非常感兴趣。p53是肿瘤抑制因子,且在50%以上的人类肿瘤中都发生了突变。研究人员从p53编码基因附近几千个基因位点中筛出了两个调控P53的抑癌功能的增强子。ENCODE预测的第三个增强子位置还未确定,因为它距离p53以及相关基因的距离都非常远。

在另外一次筛选中,他们以雌激素受体α的结合位点(对乳腺癌的发生发展起到重要作用)为靶标,识别出3个影响肿瘤生长的启动子序列。这些元件也与乳腺癌对治疗形成抵抗有关。

麻省理工学院-哈佛大学博德研究所(Broad Institute of MIT and Harvard)的生物工程师张锋和他的研究小组也使用CRISPR-Cas9来鉴定癌细胞存活所必需的基因。使用黑色素瘤模型,他们首先筛选了人类细胞中约1.8万个基因,以精确定位与黑色素瘤药物威罗菲尼(vemurafenib)抵抗有关的基因。然后,上个月发表的一项后续研究中,他们在一次新的筛选中,鉴定了几个抗性基因的调节区。分子生物学家Neville Sanjana表示,他们的研究结果非常符合ENCODE对调控元件位置的预测,并且揭示了新的功能元件。Sanjana在张锋的实验室做过博士后,现在在纽约大学(New York University)的纽约基因组中心(New York Genome Center)工作。

并非所有的CRISPR-Cas9筛选数据都符合ENCODE预测。哈佛医学院(Harvard Medical School)的Richard Sherwood等人创建了一种名为多路复用编辑调控测定(multiplexed editing regulatory assay)的方法,以筛选著名小鼠胚胎干细胞系可能影响基因表达的非编码区。借助这种技术,他们获得了这些调节区域对基因表达调控程度的定量信息。他们的一些结果与由ENCODE预测的增强子区域不一致——ENCODE预测的一些增强子区域突变后,并不影响基因表达。

此外,研究人员还发现了一些“未标记的调节元件”(unmarked regulatory elements, URE)的神秘部分,这些序列无法嵌入现有功能元件的分类。该团队目前正在探索这些URE在基因组中的广泛性。Sherwood认为,这种新型测定方法以及其它他基于基因编辑的筛选方法,将在验证ENCODE候选列表中发挥越来越重要的作用。

 

技术调整

ENCODE和Roadmap项目的研究人员主要依靠一种名为DNase-seq的生化技术展开实验。该技术对基因组的所有暴露区域(也被称为开放染色质)进行测序和绘图。在这些部分中,DNA呈松散状态,而不是紧密卷绕在组蛋白周围,因此更有可能促进转录因子结合,从而促进基因表达。通过绘制这些区域,研究人员可以找出非编码基因组中的候选增强子、启动子、沉默子、绝缘子和其它调节元件(图“观测调控元件”)。

另一种方法则是ATAC-seq。对染色质中靠近转座酶的核染色质进行检测和测序。 DNase-seq和ATAC-seq均能够得到开放染色质区域的全基因组视图。研究人员表示,因为这样的表观基因组图谱可以映射基因在某些细胞类型中被激活的程度,所以可以用于临床决策,尤其ATAC-seq的检测速度非常快,非常适合临床检测。然而,许多人认为染色质免疫沉淀(ChIP)更可靠,因为ChiP是唯一一个可以识别特定转录因子所有潜在的结合位点的方法。

 

观测调控元件

 

即使如此,生化测定也只能提示功能。相比之下,CRISPR-Cas9细胞筛选更直接,因为科学家可以在基因组中的特定位点引入突变或缺失,并观察其如何影响基因表达。缺点是这些测试都只能覆盖基因组的很小一部分。Sanjana指出,如果把人类基因组的30亿个碱基对打印成3本Leo Tolstoy的《战争与和平》(War and Peace)(1869年版本,1771页),现在的筛选技术仅仅能涵盖其中的一页。但他对未来的基因编辑技术充满信心,他认为未来基因编辑技术会更快捷、更方便,涵盖更多的序列。

任兵认为,短期内CRISPR将主要用于验证生化试验预测的功能元件。而Sherwood则表示,一旦这类筛选完成,便可将数据输入机器学习工具,以提高其预测能力。

新的计算工具大大提高了科学家们解读生化图谱数据的能力。算法可以预测转录因子结合位点,然后研究人员可以探索其功能。但是正如约翰霍普金斯大学(Johns Hopkins)的计算生物学家Michael Beer指出,即使有算法的帮助,预测人类基因组中活跃的增强子都远比预测酵母或蠕虫基因组中活跃的增强子要难得多。

Beer等人已经开发了一种计算模型,用于预测特定细胞类型中发挥作用的基因调控元件网络,以及在复杂疾病的情况下,这些元件受到了多少程度的影响。2012年他们使用ENCODE的基因数据,在人类类淋巴母细胞系(lymphoblastoid cell lines)上验证了这种名为deltaSVM的开源算法。随后于2014年,他们又用ENCODE的小鼠基因数据验证了算法。

最初,科学家基于癌症来研究功能元件和疾病之间的联系,因为比起精神疾病等复杂疾病,癌症细胞的研究更简单,而且癌症细胞株非常便于检测增殖、死亡或衰老等指标。但是,Roadmap项目得到的数据正在改变科学家对于癌症起源的思考。去年由西雅图华盛顿大学(University of Washington)的遗传学家John Stamatoyannopoulos等人发表的一项研究表明,给定的癌细胞中,基因突变聚集在非开放染色质区域,而不是在开放染色质区域——这可能是因为DNA修复酶能修复开放染色质区域的基因突变。

科学家还发现,肿瘤中的突变密度取决于细胞特异性的表观基因组图谱。因此,DNA序列可以提示肿瘤起源的信息,这意味着,未来人们可能使用表观基因组学数据来预测肿瘤的发生。同时,这也为新的癌症治疗方法提供了理论依据。Stamatoyannopoulos指出,癌症本质上是,细胞的调控元件或表观基因程序相互叠加,导致基因和基因组的不稳定性。由于我们已经分析了大量的癌症基因组,所以发现了很多以前想都没有想过的肿瘤发生模式。

基因组中可能还存在一些现有检测方法无法检出的元件。毕竟,就像Sherwood的URE筛选中观察到的一样,细胞偶尔会出现突发性调控信号。哈佛医学院(Harvard Medical School)免疫学家Daniel Tenen的团队发现了一种潜在的新型调控元件。这些元件似乎通过阻断甲基转移酶1(一种通过给基因增加甲基基团,从而使其沉默的酶)来控制基因的打开或关闭。这些元件被称为“extracoding RNA”,并且因为它们可以特异性地影响基因沉默,因而具有临床潜力。今年早些时候,阿拉巴马大学(University of Alabama)的神经科学家Jeremy Day等人发现,在大鼠神经元中,extracoding RNA能影响对于记忆形成非常关键的基因的转录。

Stamatoyannopoulos指出,ENCODE团队将继续绘制基因组中的非编码空间,预计2020年将能涵盖绝大部分的调控DNA。从空间角度上理解DNA包装,以及基因与其调控元件的3D折叠状态,对于预测调控元件的目标基因至关重要。例如,NIH共同基金(NIH Common Fund)开始了“4D核组”(‘4D Nucleome’)项目,其目的是预测每个调节元件的靶基因。这对于全面探索调控元件对健康和疾病的影响具有重大意义。

第二代测序已经——并且仍然是——ENCODE的技术引擎。但展望未来,研究人员可能能够大规模使用高分辨率活细胞成像,以使用特定标记实时观察基因组的状态变化。不过Stamatoyannopoulos表示,这种技术可能具有破坏性。如果我们有更好的成像技术,或许未来就不需要测序了。

 


原文检索:
Kelly Rae Chi. (2016) The dark side of the human genome. Nature, 538(1038): 275-277.

张洁/编译

新闻特写, 热点
No Responses to “人类基因组中的“暗物质””

Leave a Reply


two + 7 =