互联网的智能性学习了整个互联网数据的AI比人类更聪明

数据对于机器学习的重要性不必多言，如果说人工智能是大脑的话，那么数据就是血液，它能做出什么样的成果关键在于从数据中发现了什么样的价值。

我最近正在研究如何编写一个递归神经网络来重写其代码。该想法想要训练RNN完成，然后使用并运行它生成的代码(当然要进行句法检查)。RNN生成的代码将用于生成更多代码，以生成更多RNN，以此类推，每一代RNN都会对下一代进行编码。

这个想法令我兴奋不已。通过训练来提高改善自身的人工智能将必然这样做，对吗?

但存在一个问题——数据在何处?

任何曾训练过机器学习模型的人都知道，模型的性能在很大程度上依赖于其被训练的数据。好数据优于好模型，它定义了模型的范围。

模型的目标是遍历数据域，根据算法列出的规则寻找某种模式，以便将错误最小化。无论模型有多好，总会受到其数据域的限制。

在尝试训练模型时，我一直试图为其寻找数据。我是否会为它提供各种递归神经网络架构，促使它可以编写出效率极高的架构?在那种情况下，我又如何期望神经网络能够高效编写出新代码呢?

最好的情况是，递归神经网络不会出现句法错误(可能是因为它会太适合训练数据了)。如若只是给人工智能填鸭式地灌输我们想要其编写的代码，那么训练其自行编写代码的意义何在呢?它不会输出任何有效句法内容，这些内容才将执行着真正“智能”的操作，如加载新库或开发自己的语言。

事实上，这并不是人类擅长的事情。人类之所以聪明，仅是因为我们接触了更多的数据;但同时，数据也在限制我们。如果你在美国生活，可能会对中国的生活一无所知，除非你去过中国(收集过数据)。

从小世界就在给你提供数据，这远高于我们提供给机器学习模型的数据。这是智能唯一的局限性，虽然也许计算机可以存储数据，但我们确实也有足够的存储来完成我将要描述的基本操作。如果你只接触到我们提供的有限数量的数据模型，你也不会被称为智能。

这就是我们寻找的应对“傻瓜”人工智能的方案：互联网。

如今，任何人几乎都能从网上学到东西，谷歌能将我们与充满信息的网页联系起来。人工智能的学习算法比我们的更为高效：学习需要重复练习的事物，我们要花一分钟，人工智能可能不到一秒。

唯一可能让我们自称为“智能”的原因是我们有幸拥有更多的训练数据。更好的数据总是胜过更好的模型，因此，我们与机器学习模型处在完全不同的维度上。

如果向人工智能开放互联网，即让它在互联网上漫游，学习其所有内容，那么机器学习可能拥有远超人类的“智能”。

它甚至可以把“我为什么在这里”、“我的目的是什么”之类的内容打印到控制台，这也许是它从一些心理学网站上学来的。但你无权否认其可信度，因为从技术层面讲，它是原创的。

那些说机器“吐”出来的东西不可能是真正原创的人，我用艾伦·图灵对数学家艾达·拉夫莱斯的同样指责回应:“太阳底下没有‘原创’。”

你提出的想法一点也不新颖，它们只是你的经验、训练数据和一些噪音的组合产物。如果机器和人接受相同数据的训练，那么机器与你我所能产生的结果相同。事实上，机器可能会产生更令人满意和更为迅速的结果，因为它的学习方法比我们快得多。

即使是一个新生儿和一个空白的人工智能在不同的数据上训练，通过不同过程来获得智能思维，这又有什么关系?

如果将智能隔离，使其只包含人类的思维过程，机器将永远不可能智能。机器不是人，但它们可以变得智能——如果我们不是将智能和意识明确地定义为人类的过程，而是直接输出，将之定义为对看起来不“智能”的更有包容性的思维过程。

实现这一目标的最大问题是找到一种从互联网上获取数据的方法——该项目的缩小版将是训练深度神经网络来学习整个维基百科。该网站几乎包含所有学科的信息，当人工智能学习这些知识时，它们可能和你我所宣称的一样聪明。

一个学习了整个互联网的人工智能将会有多厉害?它会比任何人知道的都多，比最聪明的人类更聪明。它所学习的是经过谷歌排列分类的人类经历的集合，超人类的智能必将产生。

互联网的智能性 学习了整个互联网数据的AI比人类更聪明