科学家如何解密癌症大数据信息？

感谢成像领域、模型研究以及遗传学研究的进展，如今大量的数据源源不断地涌入癌症研究者的手中，如今临床试验中来自单一患者肿瘤的相关数据量已经高达1TB了，这些数据信息量相当于13万本书的内容。

但如今研究者仍然缺乏工具来有效处理这些大量的遗传数据从而为疗法的开发进行精准地预测，而治疗癌症似乎依然是研究者未来的一个终极目标，目前研究者并不能准确预测特定的肿瘤如何对任何给定的药物产生反应，以及患者如何进行治疗，是否癌细胞能够不断进化从而使得疗法失效等等问题。

如今来自美国能源部和国家癌症研究所进行联合研究来抵御癌症，在一项为期三年的研究计划中，研究人员就利用了美国能源部的超级计算功能构建了复杂的计算机模型，从而就能够在分子、病人以及群体水平上来研究抵御癌症的策略。这项研究计划基于美国总统奥巴马提出的精准医疗计划以及副总统近日提出的癌症探月计划，的确研究者的目的是针对个体不同的状况实现个体化的诊断和癌症治疗。

来自美国国家癌症研究所的研究者Warren Kibbe说道，癌症研究者们非常擅长通过基因组数据、蛋白质组数据以及成像数据得出多种类型的数据，但我们并不擅长如何将这些信息数据进行整合，使其成为一种一致性的模型，并且有效预测肿瘤是否会对既定的疗法产生反应。

CANDLE

合作的关键在于计算机框架，其名为“癌症分布式学习环境计划”（ CANcer Distributed Learning Environment，CANDLE）。过去很多年里，科学家们进行了多项研究计划，评估了大量的癌症研究数据，其中包括肿瘤的基因组、病人的数据以及多项潜在药物的临床数据等，CANDLE的设计就是利用机器学习算法来在大型数据库中寻找合适的模式，机器的学习就是一类人工智能，其重点关注于那些能够教授我们处理数据的一些程序，这些模式或许最终就能够帮助改善患者的疗法或指导科学家进行新的实验。

截止到目前为止，很多机器学习相关的研究都产生了新型的计算机模型来在单一的数据点评估药物的的反应，然而研究者们想象到了一个更高程度的复杂性并且整合了多种类型的信息，比如药物反应和患者谱系特殊性等。

科学家如何解密癌症大数据信息？

分子水平上的研究

30%的癌症都表现出了Ras家族的突变，Ras蛋白家族能够帮助诱导细胞机器制造新型细胞或杀灭老细胞。研究者Lawrence Livermore就进行的是分子水平上的试点研究，他利用CANDLE架构来预测Ras蛋白家族蛋白如何在细胞膜上发挥作用，随后他将相关信息加入到了Ras通路问题的研究上，Ras通路问题会导致基因停留在“开启”的位置从而引发肿瘤。

研究者想进行高度复杂性的模拟来描述细胞膜上蛋白质如何移动以及如何结合到特殊位点，他们希望将这些信息能够应用于数百万个Ras通路上，并且明显增强他们的理解，从而预测单一信号在疾病发生过程中的作用。

病人水平上

癌症往往包含着成百上千种疾病，每一种都有着不同的发病原因，因此对于特殊患者而言将精准化引入到疗法选择中或许就是研究者在病人水平上进行研究的终极目的。在CANDLE平台的帮助下，研究人员开发了新型的预测模型，其基于更广泛的多种数据能够引导针对不同肿瘤的疗法选择。

研究者Kibbe说道，研究者们或许会去尝试寻找特殊肿瘤逃脱疗法获产生耐药性的机制，从概念上而言，未来的癌症疗法或许是不断改进变化的，如今我们并不理解癌症对于任何特殊疗法所产生的耐药性对于预测组合性疗法效果的生物学意义，但我认为，模拟将能够帮助我们更好地预测组合性疗法对特殊患者的有效性及重要性。

群体水平上

在任何一个时间点，3%至5%的癌症患者都会参与到癌症临床试验中，而且对患者研究数据的分析编目也仍然是一项非常巨大的手工任务；美国橡树岭国家实验室（Oak Ridge）就将帮助国家癌症研究所的研究者，通过自动化的样品读取及分析过程来监测癌症患者的变化，通过将自然的语言处理及机器学习算法应用到数百万份临床报告中，计算机就会从医生和护士笔记本的信息中提取出有效的东西进行加工。

加工完成后，系统就会自动分析并且提取相关信息以便科学家们监测遍布全球的结果，随后就能指导不同生活方式、环境以及癌症类型的患者进行治疗；档案在进行群体水平的试点研究之前研究者们必须对数据进行去识别化操作。

科学家如何解密癌症大数据信息？

下一步该怎么做？

在接下来3年里，美国国家癌症研究所及能源部的研究者将会进行一项巨大任务，对此研究者们是由计划的，首先第一年他们讲重点关注合并统计学模型并且构建机器学习方法来对现象进行最好地解释和预测；第二年计算机科学家将会利用计算机进行推断他们对这些预测结果的自信程度；最后一年研究者们将会把所有的信息相结合，同时整合后进行试验性设计分析。

研究者Stevens表示，此刻我们处于一种特殊的阶段，如今在政府部门间出现了一些让人难以置信的谈话，关于如何整合大数据以及信息来理解疾病的发病机制等信息，如果我们能够理解突变、正常生物学过程以及癌症之间的相互作用，那么我们或许就有望对疾病进行干预或预测。

Stevens已经从事了将近20年的计算生物学领域研究，他表示如今他们面临了很多问题，而且他们也并不确定如果他们真的那样做会带来什么后果，但如今癌症探月计划给他们带来了动力，研究者认为，随着后期深入的研究以及多种信息的整合，未来或许有望早期破解癌症大数据，从而为开发新型个体化癌症疗法提供新的思路和希望。

(责任编辑：泉水)

搜索

热门标签:

科学家如何解密癌症大数据信息？