用不了多长时间,AlphaGo将不再是地球上最好的棋手。新式高超的人工智能程序版本已经出现,它堪称怪物:在一场白热化对决中,AlphaGo Zero以100:0的不败战绩绝杀“前辈”。
真正炫酷之处在于Alphabet Zero是如何做到这一点的。
原来的AlphaGo需要与人类专家进行成千上万次对弈,才能从中获取数据,Alphabet Zero则截然不同。虽然它也是由Alphabet旗下的子公司DeepMind开发的,但它从零开始,面对的只是一张空白棋盘和游戏规则。它无师自通,仅仅通过自学使自己的游戏技能得以提高。
这种新程序代表着人类在建造真正智能化机器方面向前迈进了一步,因为即使在没有大量训练数据的情况下,机器也需要找出解决困难问题的方法。
“最引人注目的一点是,我们不再需要任何人工数据,”DeepMind联合创始人兼首席执行官戴密斯·哈萨比斯(Demis Hassabis)说。哈萨比斯认为,建造Alphago Zero的技术已经足够强大,可以应用在现实世界,例如药物发现与材料科学等一些有必要继续探索各种可能性的行业。Alphago Zero的相关研究成果发表在今天的《自然》杂志上。
值得注意的是,在自学过程中,Alphago Zero发现了许多人类围棋选手在过去几千年中形成的诀窍和技术。“在几天的时间里,它重新找到了已知的最佳玩法,在最后一天,甚至在此之上发现了更好的东西,”哈萨比斯说。“看到这一切,感觉很酷。”
DeepMind公司总部位于伦敦,2014年被谷歌收购。该公司专注于利用游戏、模拟和机器学习在人工智能领域取得巨大进步;迄今为止,他们已经聘请了数百名AI研究人员共同追寻这一目标。哈萨比斯说,大约15人参与AlphaGo Zero的研发,耗费的计算资源估计达数百万美元。
AlphaGo和AlphaGo Zero都采用一种被称之为强化学习的机器学习方法及深层神经网络系统。强化学习的灵感来源于动物可通过实验和反馈进行学习,DeepMind已经使用这种技术,在简单的雅达利游戏有着超人的表现。
然而,掌握围棋有着特别重要的意义,因为围棋十分复杂,最好的棋手可以凭借本能落子。换句话说,一盘好棋很难用代码来解释或写出来。
围棋中各种变数的数量,甚至超过了宇宙中原子的数量
毫无疑问,AlphaGo Zero在围棋世界标志着颠覆性进步,但是,它对世界其他领域有什么潜在影响?
麻省理工学院计算机科学和人工智能实验室(CSAIL)的研究生尼克·海因斯(Nick Hynes)认为,在一段时间内,它只是一种专门工具,不太可能对我们的日常生活造成冲击。
“到目前为止,该算法只适用于采取简单几个步骤就能解决的问题,如果要将其运用于移动等连续控制问题,那就需要加以改进,”海因斯告诉Gizmodo。“而且,它要求你具备非常好的环境模型。在这种情况下,它差不多了解所有规则。这就像你拥有一个机器人,你可以准确地预测它的行动结果,但在不完美的现实系统中,它是不灵的。”
他说,好消息是目前有几项人工智能研究正在致力于解决上述两个问题(例如机器学习、进化算法等),所以,它实际上只是个集成问题。海因斯说,“这里的真正关键在于技术。”
“正如预期和期望的那样,我们正在与获得一堆人类标记数据并训练一种模型来模仿它的经典模式渐行渐远,”他说,“我们在这里看到的是一个毫无人类偏见和预设的模型:它可以从它认为最优的东西中学习,可能比我们自己对这个概念的看法更加细致入微。如同一种外星文明发明了自己的数学,允许它去做像时间旅行之类的事情,”对此他补充说,“尽管我们距离奇点还很远,但我们肯定正在朝着那个方向前进。”
正如海因斯所承认的,这一最新突破并不意味着技术奇点(即在未来某个假定时间,超过人类的机器智能实现爆炸性增长)即将来临,但它应该让人们停下思想的脚步。一旦我们教一种系统学会游戏规则或某一现实世界问题的强制规定,增强学习的力量将使其可以简单地按下开始按钮,让系统做余下工作。然后,它将找出在这项任务中取得成功的最佳方法,设计出超越人类能力、甚至可能是人类理解能力的解决方案和战略。
DeepMind研究人员在其论文中所总结道:“我们的研究结果全面展示了即使在最具挑战性的领域,纯粹的强化学习方法也是完全可行的:不借助人类的示范或指导,不用学习超越基本规则的知识,就可以培养出超人。”
而事实上,现在人类玩家已经无法在国际象棋、围棋等游戏中独占鳌头,可以说,我们已经进入了超级智能的时代。这一最新突破是对未来的最细微暗示。
加拿大艾伯塔大学的马丁·穆勒(Martin Mueller)教授曾对围棋软件做出重要贡献,AlphaGo Zero的设计给他留下了深刻印象,认为它使强化学习更上层楼。他说:“这种架构比以前的版本更简单,功能更强大。”
AlphaGo从来都不仅仅关乎棋盘游戏。
AlphaGo Zero不是第一种可自主运行的算法——埃隆·马斯克旗下的非营利机构OpenAI也采用了类似技术来训练一种AI程序玩视频游戏——但它的能力表明,它是迄今为止最强大的技术实例之一。
“药物发现、蛋白质、量子化学、材料设计——材料设计,想想看,也许在室温下就可以制造出超导体,”哈萨比斯说,他指的是一种可完美导电的假想金属。
DeepMind说不会公布代码,因为它可能被用于其他意图。哈萨比斯说,研究人员可以从《自然》杂志上复制部分代码。
该领域的其他人认为,这种方法简单得令人吃惊,预示着该算法可适用于其他领域。OpenAI的AI研究科学家蒂姆·萨里曼斯(Tim Salimans)在发给外媒的电子邮件中指出,简单而常见的方法在AI研究中非常有价值,因为不需要付出更多努力就可以为其他问题带来同样的解决方法。
“我认为将其定性为‘普遍适用于当今的技术优势’是公平的,”萨里曼斯说。“当然了,尽管它不足以直接应用于其他问题,但可以将其视为解决其他问题的第一步,这种看法不无道理。”
强化学习也显示出人们有可能在许多其他环境(包括在一些手工编程不现实的地方)实现机器编程自动化。通过测试已证明,运用这项技术可以教会机器人抓取笨重物体,并可以对正在运行的硬件重新配置,以保存数据中心所需能量。然而,在许多实际情况下,可能没有大量例子可供学习,这意味着机器必须自学成材,这正是AlphaGo Zero令人感兴趣之处。
“不使用人工数据或人工专长,我们就可以真正突破人类知识的限制,”DeepMind公司首席研究员、伦敦大学学院教授大卫·西尔佛(David Silver)说,“它能运用基本原理自行创造知识。”