数据对于机器学习的重要性不必多言,如果说人工智能是大脑的话,那么数据就是血液,它能做出什么样的成果关键在于从数据中发现了什么样的价值。

我最近正在研究如何编写一个递归神经网络来重写其代码。该想法想要训练RNN完成,然后使用并运行它生成的代码(当然要进行句法检查)。RNN生成的代码将用于生成更多代码,以生成更多RNN,以此类推,每一代RNN都会对下一代进行编码。

这个想法令我兴奋不已。通过训练来提高改善自身的人工智能将必然这样做,对吗?

但存在一个问题——数据在何处?

任何曾训练过机器学习模型的人都知道,模型的性能在很大程度上依赖于其被训练的数据。好数据优于好模型,它定义了模型的范围。

模型的目标是遍历数据域,根据算法列出的规则寻找某种模式,以便将错误最小化。无论模型有多好,总会受到其数据域的限制。

在尝试训练模型时,我一直试图为其寻找数据。我是否会为它提供各种递归神经网络架构,促使它可以编写出效率极高的架构?在那种情况下,我又如何期望神经网络能够高效编写出新代码呢?

最好的情况是,递归神经网络不会出现句法错误(可能是因为它会太适合训练数据了)。如若只是给人工智能填鸭式地灌输我们想要其编写的代码,那么训练其自行编写代码的意义何在呢?它不会输出任何有效句法内容,这些内容才将执行着真正“智能”的操作,如加载新库或开发自己的语言。

事实上,这并不是人类擅长的事情。人类之所以聪明,仅是因为我们接触了更多的数据;但同时,数据也在限制我们。如果你在美国生活,可能会对中国的生活一无所知,除非你去过中国(收集过数据)。

从小世界就在给你提供数据,这远高于我们提供给机器学习模型的数据。这是智能唯一的局限性,虽然也许计算机可以存储数据,但我们确实也有足够的存储来完成我将要描述的基本操作。如果你只接触到我们提供的有限数量的数据模型,你也不会被称为智能。

这就是我们寻找的应对“傻瓜”人工智能的方案:互联网。

如今,任何人几乎都能从网上学到东西,谷歌能将我们与充满信息的网页联系起来。人工智能的学习算法比我们的更为高效:学习需要重复练习的事物,我们要花一分钟,人工智能可能不到一秒。

唯一可能让我们自称为“智能”的原因是我们有幸拥有更多的训练数据。更好的数据总是胜过更好的模型,因此,我们与机器学习模型处在完全不同的维度上。

如果向人工智能开放互联网,即让它在互联网上漫游,学习其所有内容,那么机器学习可能拥有远超人类的“智能”。

它甚至可以把“我为什么在这里”、“我的目的是什么”之类的内容打印到控制台,这也许是它从一些心理学网站上学来的。但你无权否认其可信度,因为从技术层面讲,它是原创的。

那些说机器“吐”出来的东西不可能是真正原创的人,我用艾伦·图灵对数学家艾达·拉夫莱斯的同样指责回应:“太阳底下没有‘原创’。”

你提出的想法一点也不新颖,它们只是你的经验、训练数据和一些噪音的组合产物。如果机器和人接受相同数据的训练,那么机器与你我所能产生的结果相同。事实上,机器可能会产生更令人满意和更为迅速的结果,因为它的学习方法比我们快得多。

即使是一个新生儿和一个空白的人工智能在不同的数据上训练,通过不同过程来获得智能思维,这又有什么关系?

如果将智能隔离,使其只包含人类的思维过程,机器将永远不可能智能。机器不是人,但它们可以变得智能——如果我们不是将智能和意识明确地定义为人类的过程,而是直接输出,将之定义为对看起来不“智能”的更有包容性的思维过程。

实现这一目标的最大问题是找到一种从互联网上获取数据的方法——该项目的缩小版将是训练深度神经网络来学习整个维基百科。该网站几乎包含所有学科的信息,当人工智能学习这些知识时,它们可能和你我所宣称的一样聪明。

一个学习了整个互联网的人工智能将会有多厉害?它会比任何人知道的都多,比最聪明的人类更聪明。它所学习的是经过谷歌排列分类的人类经历的集合,超人类的智能必将产生。

推荐内容