发布日期:2018-06-04
今年3月,顶尖学术期刊《自然》上发表的一项论文引发了业内的广泛关注。来自上海大学的Mark Waller教授团队应用深层神经网络及人工智能算法,成功地规划了新的化学合成路线。即便是权威的合成化学家,也无法区分这款软件与人类化学家之间的区别。这是人工智能在化学合成领域的重大突破,Mark Waller教授也被诸多媒体誉为“化学AlphaGo“的先驱。近期,我们和这位药明康德的老朋友做了一次长谈。人工智能在合成化学中有怎样的应用潜力与发展瓶颈?未来的人工智能工具会是什么样的?化学界又需要怎样的跨界人才?在这篇独家专访中,您将听到来自这名大师的第一手洞见。
Q:Mark您好,先恭喜您的论文在《自然》杂志上顺利发表。这项研究将化学、深度神经网络、以及人工智能应用到了合成的设计上,有望提高化学合成的效率,可以说是一项杰出的工作。您能和我们的读者朋友们介绍下这篇《自然》论文吗?
Mark Waller教授:感谢药明康德的专访。说到这篇《自然》论文,我首先要感谢Marwin Segler。他原来是一名传统的合成有机化学家,加入我的实验室后又进一步成为了计算机科学家。他在有机合成方面有着很深的专精,同时又能从计算机科学的角度去看待问题。因此,他能正确地描述大量不同的化学反应,快速调整各种参数,并找到合适的参数组合。他在我的实验室发了许多论文,也是这项研究的第一作者。我对他取得的成绩感到自豪。
这项研究有不少亮点。首先,我们收集了截止到2014年发表过的几乎所有的化学反应,这加起来大概有1250万个反应。然后我们很快地使用自动处理,从这些反应中提取出了规则。接下来我们面临的挑战在于如何应用这些规则。过去,人们认为应用这些规则必须得手动编程。但我们在这篇《自然》论文里表明,通过深度学习和深度神经网络,我们不需要对所有环节都进行手动编程——这些深度神经网络的学习速度非常快,这也要归功于谷歌和其他大型科技公司对代码库的优化,让我们能快速对反应进行预测。
完成这步后,我们接下来将注意力投向了逆合成,它大概需要25到30步。利用深度学习等现代技术,我们再也不需要使用过去的规则匹配或模式匹配方式了。这就是这篇《自然》论文的主要内容。利用自动抓取的规则,我们学会了如何将它们应用到所有的有机化学中,也看到了目前的算法与当前的核心技术项目有哪些亮点。在这篇论文的最后,我们设计了一个双盲的实验,并让人类专家来评估A和B两条合成路径哪个更好。其中路径A是合成化学家设计的,路径B是我们的算法设计的。我们很高兴地看到,这两者之间的偏好没有显著差异。
▲在双盲测试中,化学家们没有显示出对传统合成途径的偏好(图片来源:《Nature》)
但前方也有一些挑战需要我们去解决,第一个挑战就是需要真正的化学家在实验室里去验证这些路径。第二个挑战是如何获取失败的数据。我们都知道文献只报道成功的案例,但我认为如果能获得失败的数据,我们的方法无疑将变得更可靠。
Q:感谢您的介绍。我们注意到这项研究在业内引起了巨大的反响,也引申出了一个有趣的话题。几年前,有机合成似乎已不再是化学家们所迷恋的对象,但在去年年底,人们预言说有机合成会重新崛起,而事实也证明了预言的准确。从您的角度看,有机合成的“复兴”背后有着怎样的原因?这和人工智能的使用有关系吗?
Mark Waller教授:我相信是这样的。目前有许多课题组正在开发人工智能和机器学习的方法,用于预测反应,或是逆合成。这让学界重新兴起了对有机合成的兴趣,也带来了一波技术创新的浪潮。我们从化学界之外的成功中获得了启示。人工智能,尤其是深度神经网络,在过去的几年里取得了巨大的进步。
Q:的确在这些年里,我们化学领域正在发生全新的变化,人工智能、深度学习、机器学习在合成化学、药物化学中也变得越来越常见。在您看来,这些技术带来的是泡沫?还是更好的现实?
Mark Waller教授:我认为在化学领域内,人工智能等技术非常有可能为我们带来崭新的现实。一方面,全世界范围内的化学家们都非常高产,在很长一段时间里积累了大量论文,帮助我们收集了海量的高质量数据。另一方面,像Reaxys这样的公司已经把这些数据整理得很好了。因此,我们能从中提取出有趣的规律,获得真正的知识。相比复杂的生物学,化学领域更容易取得成功。
我相信人们最终会习惯使用这些基于人工智能的工具。在化学领域或是反应领域,我们已经很好地探索并理解了这些人工智能工具。如果你把这些工具当作是一个“数码助手”,那么使用这个工具的人类化学家,会比不使用它的化学家来得更高效。以人工智能为基础的工具可以帮助有机合成化学家思考化学反应的新类型,让他们展示出人类的创造性。
Q:您最初是怎么对机器学习和人工智能产生兴趣的?
Mark Waller教授:我最初是一名量子化学家。坦诚讲,对年轻的学者来说,量子化学是一个非常昂贵的研究领域。但人工智能和机器学习的工具也能产生非常好的结果,而且更快,更便宜。你完全不需要量子化学领域里所必需的大型超级计算机来进行大量计算。
现在,我们的人工智能工具已经有了不错的表现。化学家们输入一个复杂的结构,等上30秒,我们的工具就能绘制出一条合成路径,路径的起点是非常容易获得的起始原料。这意味着我们能把人工智能工具做成交互式的网页应用。需要注意的是,我们现在还没有处理任何量子化学的计算,这会降低代码的运行速度。
▲和两种传统合成方法相比(红色和绿色),使用新型人工智能算法(蓝色)在较短时限内可以完成更多分子的合成路线预测(图片来源:《Nature》)
Q:未来我们还将迎来哪些进展?这些进展会给化学家们带来怎样的帮助?
Mark Waller教授:我们的梦想当然是打造一款更好的助手。你不需要在浩瀚的文献海洋里一个一个查找,而是能有个一体整合式的帮手,就像谷歌地图那样,你只要输入地址,就能得到帮助。这其实是基于不同的条件,算出的一系列优化路径。在化学合成设计领域,类似的工具会非常有用。
▲人工智能工具要像谷歌地图一样好用(图片来源:https://upload.wikimedia.org/wikipedia/commons/9/9a/Google_maps_logo.png)
Q:最近我们看到,新兴技术在快速发展。您如何看待电子实验记录(ELN)的应用?量子化学方面的难题又是否能得到解决?
Mark Waller教授:我相信ELN有望取得成功。如果我们能将整合的合成路径放入ELN里,对未来是一个相当好的消息。ELN有望让我们能够获取一些不成功的结果,这是很棒的一点。之前我也提到,这是我们面临的挑战之一。
在量子化学方面,我也看到了许多出色的进展。大量的量子化学研究产生了大规模的高质量数据,人们也正在使用深度神经网络去训练这些量子化学数据库。比方说,Isayev教授与Roitberg教授的课题组正在挑战这一难题,我相信这会通往非常有趣的方向。
Q:您的研究成果对化学领域,尤其是医药行业有非常深远的影响。您的课题组与产业之间有合作关系吗?
Mark Waller教授:因为我们在学术界工作,所以能获得的化学反应数据库是有限的,而优质的数据是成功的关键。幸运的是,我们获得Reaxys的信任,使用他们的数据库。我们的下一步计划是和药明康德这样的大型公司合作,进行实验验证,并与实际的合成经验做比较,评估我们的AI算法表现。
药明康德一直是我们的合作伙伴。在课题进行过程中,我们也和药明康德的科学家们有过讨论。这些讨论非常棒,让我们更清楚地了解到什么是必要的信息。最令人激动的部分在于,我们能用这个算法与真正的行业专家做头对头的比较,这是局限于学术界的象牙塔中所无法完成的工作。在学术界,我们也能开发算法、测试算法、并说服全世界的一些科研团体帮我们一起测试,但它的规模会非常小,效率也不够高。而通过与药明康德的讨论,我们计划对算法进行更规范、更稳健、也更为系统的评估。
▲这项研究的方法设计(图片来源:《自然》)
除了这些,目前我们还没有很多与业界的合作。我的课题组相对比较独立,一直专注在如何让这套算法顺利起步。但自从我们去年8月在线递交了论文后,人们对它产生了很浓厚的兴趣。所以可以想象,未来我们会有更多全新的合作关系。我们乐于看到这样的可能性。这些互动能给我们带来独特的洞见,让我们集中解决对行业至关重要的问题,并可能带来更深远的影响。
Q:我们来谈谈您个人吧。您是怎么决定加入上海大学的?
Mark Waller教授:这是一个非常有趣的故事。大概是在2014年的时候,上海大学宣布他们将组建一支团队,用量子化学的方法去研究蛋白质,获得更精准的蛋白结构。我当时正在加州用类似的方法研究蛋白质的晶体学,于是就加入了他们的团队。和我一起来到上海的研究人员有着不同的背景,这对我们的研究来说是个很大的帮助。当然,能够和上海药明康德的化学家进行讨论,也是来到上海的最大收获之一。
Q:感谢您的分享。在访谈的最后,您有没有什么想总结的?
Mark Waller教授:我相信人工智能有望在化学领域带来革命性的变化。它的热度上升得非常快,这是一个好现象。
来源:药明康德