(转)惊鸿一瞥:人工智能,改变研究方式的力量_惊鸿一瞥：人工智能，改变科研方式的力量。-CSDN博客

惊鸿一瞥:人工智能,改变研究方式的力量

原创 2017-07-13 Adrian Cho 象物

叶子分割线
译/刘畅
叶子分割线

AI早期试验场：追寻新粒子

粒子物理学家在20世纪80年代末开始尝试人工智能（AI），彼时，“神经网络”一词方才引起了公众的好奇。这些粒子物理学家们的研究领域正合适开展人工智能和机器学习算法研究：他们的实验目的即是在粒子探测器生成的无数相似数据中寻找特定的空间模式，而这恰好是AI力所能及。“我们花了好些年才让人们相信这些研究并不属于魔术、骗术、黑箱子之流。”首批接受AI技术的来自费米实验室的Boaz Klima说。现如今，AI已位列物理学研究标准技术之一。

粒子物理学家是一群探寻宇宙内在运行机制的人，他们的工作就是用亚原子粒子对撞产生新粒子。举例说来，2012年科研团队利用瑞典巨型强子对撞机（世界最大的质子对撞机）发现了早就存在于预测中的希格斯玻色子，它是物理学家解释其他基本粒子为何拥有质量的关键。

利用巨型强子对撞机，平均每十亿次质子对撞才堪堪产生一个希格斯玻色子，而它在1皮秒（万亿分之一秒）的十亿分之一就会衰变成为其他粒子（比如一对光子或四个μ介子）。要重现希格斯玻色子，物理学家必须辨认出其产生的粒子，用粒子对撞机将它们聚合成衰变前的样子。

据费米实验室的另一个物理学家 Pushpalatha Bhat称，诸如神经网络之类的算法在庞大背景中寻找信号的能力分外突出。在粒子探测器（通常是巨大的桶状传感器聚合装置）内部的子系统（又称电磁热量计）中，光子会如花洒一般产生大量粒子。当然，电子和强子也会有如此效应，只是其方式有细微差别。机器学习算法则可以发现其中的不同，它通过统计解释这一效应的多元变量的相关性来完成辨别任务。这些算法还可以通过随机配对帮助研究者区分来源于希格斯衰变的成对光量子。”算法进行的筛选就像是谚语所说的‘大海捞针’，”

机器学习在粒子物理学领域自然并非一家独大。物理学家们主要还是靠着自己对基础物理学的理解来决定如何从资料中搜寻新粒子和新现象的迹象。但是AI正变得愈加重要，劳伦斯伯克利国际实验室的计算机科学家Paolo Calafiura这样认为。研究者们计划在2024年对句型强子对撞机进行升级以提高其对撞率。到那个时候，Calafiura说，机器学习对于处理日渐增长的数据流将更加重要。

一个恰当的算法=解密公众情绪的钥匙

社交媒体拥有数以亿计用户，每个用户每年都产出大量的推特和邮件，这将社会科学推向了大数据时代。心理学家Martin Seligman发现，社交媒体为AI提供了大量的实践机会来发掘人们在交流中表现出的意图。在宾夕法尼亚大学的积极心理学研究中心，Martin Sligmen和其他世界幸福工程项目的心理学家、内科医生以及计算机科学家用机器学习和自然语言编程来筛选数据，以期测量公众的情绪和心理健康。
按照惯例，这些工作本应通过调查完成。但是据Sligman所言，社交媒体产生的数据“数量大，价值低，不受重视”。社交媒体的调查毫无章法，而AI却给进一步研究提供了有力的条件。

Sligman和同事们最近研究了29000名Facebook用户的更新，这些用户都进行了抑郁症自我测评。利用这些数据，机器学习算法成功发现了用户用词和其抑郁程度之间的联系。这样一来，该算法便可以仅根据社交媒体更新来判断其他用户的抑郁程度。

在另外一个团队的研究中，研究者分析了1亿4800万个推特以预测一个县城中的心脏病致死率。研究证明与愤怒、不良关系有关的词汇是一项风险指标。这样的一个来源于社交媒体的死亡率风险指标做出的预测与实际死亡率十分接近，其契合程度超过了10项主要风险指标如吸烟、糖尿病等。除此之外，研究人员还利用社交媒体来预测用户的个性、收入和政治倾向，同时也对医院护理等其他课题进行了研究。这一团队甚至依据推特根据每个县的幸福、抑郁、信任和五种人格特征给美国地图上色标记。

“语言分析及其与心理学相关的领域将迎来一场革命。”德克萨斯大学奥斯汀分校的社会心理学家James Pennebaker说。这位专家关注的是风格而非内容，举例来说，通过大学入学论文的功能词使用可以用来预测入学分数。使用冠词和介词体现了分析思维，这预示着分数可能更高，而代词和副词体现了叙事思维，意味着分数不那么理想。曾有一种说法，即1728年的剧本《Double Falsehood》作者是莎士比亚，如今James Pennebaker则对这一说法给出了有力支持：机器学习算法根据认知复杂性、罕见词汇等因素将这个剧本与莎翁其他作品成功匹配。他说：“现在，我们能分析你发布的任何内容，无论是文章，还是你和别人的聊天记录。”

解码自闭症的基因之源

自闭症是遗传学家面临的令人头疼的挑战。遗传模式表明自闭症存在很强的遗传因素。然而已知的基因变异型对自闭症有影响的案例仅占全部案例的20%。如果想要找到其他的变异型，就需要在25000个其他基因中寻找线索，这一任务对于人类研究者来说相当艰巨。因此，普林斯顿大学计算生物学家Olga Troyanskaya引入了人工智能。
“我们所能做的和生物学家一样多，也就是揭示自闭症的遗传基础。”Robert Darnell说，他是纽约基因组中心的创业合伙人，也是纽约洛克菲勒大学的内科学学者。“科学家问10个问题的同时机器就可以问万亿，机器将带来变革。”

Troyanskaya整合了上百个数据集，这些数据包含了哪些基因在特定的人类细胞中具有活性、蛋白质之间如何相互作用、转录因子结合位点在哪里，以及其他关键基因特征位点所在之处的描述。她的团队继而利用机器学习构建了基因相互作用的图谱，同时将多个已知风险基因与数千个未知基因进行对比，试图寻找相似之处。

问题是，遗传学家最近才意识到基因并非独立工作。基因的行为由数百万临近的非编码碱基决定，而这些碱基则与DNA结合蛋白和其他因素形成相互作用。找到自闭症相关基因只是第一步，而识别对自闭症基因有影响的非编码碱基则困难许多，Troyanskaya在普林斯顿大学实验室的毕业生Zhou JIan正在致力用AI的力量解决这一问题。

周为了训练他的程序——一个深度学习系统——将它接入数据库中。数据均来自DNA百科全书和表观基因组路标（the Encyclopedia of DNA Elements and Roadmap Epigenomics）。这两个项目记录了成千上外个能够影响相邻基因的非编码碱基。这一系统实际上已经在评估未知非编码碱基的过程中学会了如何确定应寻找特征。

2015年10月，周和他的老师在Nature Method上介绍他们的研究计划“深海（DeepSEA）”时，加州大学计算机科学家Xie Xiaohui称该计划为“基因组研究深度学习的里程碑”。如今，周的团队正在利用“深海”研究自闭症患者的基因组，希望能够对非编码碱基的影响力进行排序。

Xie Xiaohui本人也在将AI应用于基因组研究，他的视野较自闭症更为宽广。他也希望能够将突变分级，因为它们可能有害。但他还是警示道，基因组研究中，深度学习系统最高只能达到它们接触的数据集的水平。“在我看来，当前人们对系统能否理解基因组还是持怀疑态度，”他说，“但是随着机器学习进一步发展，能接受它的人会越来越多。”

机器学习，让星空更清晰

今年四月，天体物理学家Kevin Schawinski在推特上发布了四个星系的模糊图片，随图附上了一个请求，希望有天文学家帮忙进行分类。他的同事在下面回复说，这些图像中的星系看起来像是熟悉的椭圆和螺旋结构。
有些天文学家对此存疑，他们直言不讳：这些是真的星系？它们是物理学模型吗？对此，Kevin Schawinski实言相告：两者皆非。Schawinski、计算机科学家Zhang Ce和他们的合作者在苏黎世联邦理工学院完成了这张图。他们在神经网络内对星系进行了模拟，虽然神经网络本身对物理学一无所知。这似乎能帮助我们理解在深层次观察中，星系应当是什么模样。

Schawinski有一个小小的想法，想要看看神经网络的作品能够令多少人信服，所以他在推特上发表图片。当然他更有一个大大的目标，即开发一种电影中的神奇技术，能够提高观测图像的清晰度：神经网络能够让星空的图像看起来更加清晰，就好像望远镜提升了一个档次一般。如此天文学家则可以从观测中的到更为精确的结果。“我们向天文观测投资已有数亿甚至数十亿美元，”Schawinski说，“一旦有了这项计数，我们即刻就能获得更多信息。”

Schawinski的图片是生成对抗网络（16年风靡全球的机器学习模型）的作品，这个模型将两组神经网络连接起来形成对抗。在制作图像时，它们一个是生成器，一个是鉴别器，产生图像的同时卡还可以消除操纵缺陷，形成了优化的生成器。该团队拍摄了数千张真实的星系图像，之后人为分解，再教会生成器拼接图像，这样它们就有了鉴别功能。最终，神经网络会成为最好的图片“降噪”软件。

按费米实验室天文物理学家的说法，Schawinski的方法十分前卫，却并非绝无仅有。美国天文学会1月份的会议上，诺德提出了机器学习策略以达到引力透镜的效果：遥远星系的图像在通往地球的过程中经历扭曲的时空时，会在天空形成罕见的光线。这些镜头可用于测量宇宙中的距离，并可发现不可见的质量浓度。

引力透镜的视觉效果十分独特，但很难用简单的数学规则描述——其筛选对于传统计算机很难，对于人来说则相对容易。Nord等人发现，神经网络经过数千个图像的训练之后可以获得与人类似的直觉。据Nord称，在1月会议之后的几个月，已有了跟风现象——十几篇应用机器学习寻找引力透镜的文章陆续发表。

这只是日益增长的天文学实践的冰山一角，人工智能提供了有力的工具，让我们能从Pb级（1024Tb）存量的数据当中寻找和辨别有趣的对象。Schawinski认为：“我们终将有一个真正的发现：我们拥有的数据太多了。”

神经网络搭建的化学合成通路

有机化学家十分擅长逆向工作。就像技艺高超的大厨能够从食物成品上看出制作的工艺，他们能以分子最终结构为起点思考它的合成路径。“（想要合成某种分子）你需要正确的材料以及混合它们的配方，”德国明斯特大学研究生Marwin Segler说。他和其他人正在将人工智能引入分子“厨房”。

他们希望在AI的帮助下能对分子合成的瓶颈做出突破：从数百个潜在的前体和数千种化学连接方式选出合适的配方。数十年来，许多科学家劳心劳力，用已知的反应充实计算机数据库，希望建立一个能够快速计算出最简配方的系统。然而，据Segler所言，“化学家太追求细节，而用二进制的方法给出所有规则却又太困难了。”

于是Segler、他的助手以及明斯特大学计算机科学家Mike Preuss开始将目光转向AI。他们摈弃了直接使用化学反应精确标准的老路子，设计了一个深度学习的神经网络，让它直接从数百万个例子中学习反应如何进行。“你让它接触的资料越多，它就做得越好。”Segler说。随着时间推移，神经网络学会了如何推演目标产物的最佳合成步骤。它“白手起家”，自学成才，形成了独有的配方系统。

三位科学家用了40种不同的目标产物测试程序，将结果与传统设计程序进行了比较。根据他们在一次会议上的报道，2小时内，传统程序只能完成方案的22.5%，而AI可以完成95%。Segler很快就将转战伦敦的一家制药公司，希望能够用这种方法来改善药物的生产。

Paul Wender是斯坦福大学的有机化学家，他认为现在判断Segler的方法好坏还为时过早。但是Wender本身也在将AI应用于化学合成，他的看法是AI应用“将会产生深远影响”。AI不仅能够设计已知分子的合成，还能找出发明新分子的方法。Segler补充说，AI不会很快取代有机化学家，他们所能做的远远不止预测反应如何进行。人工智能很像化学合成中的GPS系统，它也许能很好地找到一条合成通路，却不能自行设计和实现完整的工艺流程。