神临地(数字锈斑) 第116章智能解译模型和神国任务

    有一位被几人簇拥着，很有书卷气质的男子举起了手，他动作优雅，但说出来的话语却充满了尖酸刻薄的味道。
    “要不然，还是请李晓军教授先说说吧，毕竟李教授曾经宣称他的拟合准确率达到了百分之一百，后来不知道为什么，却又突然撤回了这一声明。”
    台上的人大多都哄笑了起来，台下的人却只安静地看戏。
    在这个会场中，李晓军是第二个知道王栋这副面孔后真实身份的人。
    因为前不久，王栋刚刚顶着这副面孔跟他私下里见过面。
    而让台上的李晓军涨红了脸庞的这番来自同行的嘲讽，真正应该背锅的恰恰是王栋本人。
    事情是这样的。
    经过漫长而艰辛的努力，王栋终于在破解这台神秘机器的软件架构方面取得了重大突破。
    他找到了一个非常关键的模块。
    那是一个底层模块。
    机器要处理的所有数据，都需要先经过这个底层模块进行预处理，然后才会被送往上层各个模块做进一步分析。
    他至今还没有发现例外的情况，而且这个模块的处理结果非常有意思。
    它能把无论什么格式的数据都映射为一些固定长度的向量。
    这些向量的维度是固定的，但向量的个数并不固定。
    比如输入一段语音可能会输出两根向量，而输入另一段语音就可能输出三根向量。
    王栋发现，无论是语音、图像或其它有结构无结构数据，无论何时输入，同一个输入映射得到的输出向量集合都是一模一样的。
    无论是向量的个数，还是向量的内容。
    如果对输入数据加一些微小的噪声，只要没有到影响其内容的地步，它映射出来的输出向量也不会发生改变。
    反之，如果改变了部分属性，比如同样的语音内容但换了一个不同的说话人，或者同样一只狗的照片但换了一个拍摄地点，输出向量的集合中，总有些向量是不变的，代表未改变的那部分内容，但也总有一些向量发生了改变。
    在进行了大量的数据分析后，王栋终于确认，这不是一个简单的数据预处理模块，而是一个智能解译模块。
    它能对任意形式的数据进行解译，把数据中承载的所有信息都识别理解出来，然后用向量的形式表示出来。
    也就说，这些向量所构成的表示空间，就是机器所理解的世界。
    通过这个智能解译模块所得到的，是在其理解的世界中的一种语义表示。
    越相近的事物，在这个语义表示空间里，距离总是越接近的。
    比如同一个人的两段内容相似的语音，输出的每个向量要不然完全相同，要不然就非常相似。
    王栋曾经尝试过，基于这个模块得到的语义表示，对计算机领域各种分类任务，利用地球上已有的机器学习算法，几乎都能达到了百分之一百的识别效果。
    所以，这个底层模块才是这台神秘机器的智能核心。
    只要破解了它，掌握了它，在人工智能方面，人类就能达到与机器同等的技术水平。
    王栋猜测，支撑这个智能解译模块的很可能就是一个通用的预训练模型，或者类似的东西。
    通过它就能够实现从物理层级的世界到概念层级的世界的跨越。
    这就是地球上人工智能学者一直梦寐以求的那种模型，一个通用的底座，实现对所有数据的智能解译，进而就能够支撑所有的下游分析任务。
    然而，当王栋询问机器这个智能解译模块的工作原理时，却什么信息反馈也没有得到。
    王栋一筹莫展，机器不配合，这就是一个打不开的黑盒子。
    唯一能采用的策略，也只能是根据输入和对应的输出数据，想办法拟合出这个解译模型了。
    他先是采集了几万亿的成对数据用于拟合实验。
    随后，他便不遗余力，穷尽一切可能，开始了一段百折不挠的尝试之旅。
    即使有机器的帮助，这一破解过程也是极其艰难和缓慢的，王栋几乎遍历了所有的数学和计算机方法。
    即使如此，当他把拟合准确率提升到67%之后，这个指标说什么也无法再提升了。
    这个结果把王栋逼得吃不下睡不着，整个人近乎疯魔。
    后来，还是在于丽珍的劝说下，他把这个任务发布了出来，才得以恢复了正常的作息。
    这是神国向大众发布的第一个任务。
    除了数据外，他做过的所有的尝试及其结果也被一并发布了出来。
    当然还有奖励条款。
    只要拟合准确率大于67%，每提升一次就会得到百万赞币。
    每个月，无论拟合准确率是否高于67%，只要准确率相比上个月有所提升，且是本月最高，也会有十万赞币的奖励。
    王栋也是下了血本。
    在神国中，赞币已经变得越来越重要了。
    因为，随着技术的进步，以及人们在创新方面投入的精力越来越多，相比较于地球上原有的事物，神国中诞生的事物已经有了质的飞跃，形成了巨大的技术和文化代差。
    仅仅五年而已，“神国出品”和“地球出品”就已经是两种不能相提并论的等级了，而要想获得神国出品的事物就只能用赞币。
    现在，赞币人人都想要，人人都缺。
    但想要在神国发布的这个任务中获取赞币却不是一件容易的事情。
    任务发布已经两年多了，迄今为止拟合准确率仍旧未被提升到67%以上。
    的确出现了一些王栋从未想到过的技术路线，但拟合结果也只是差强人意。
    第一年里，王栋还曾经付出过几笔赞币奖励。
    但到了第二年，大家的准确率都卡住不动了，指标甚至都还没达到67%呢。
    现在轮到别人疯魔了，自由行走者及其团队更是疯魔的重灾区。
    对这些人而言，现在已经不是赞币的问题了，已经变成了谁更聪明的问题。
    很多人为此拼尽了全力。
    前几天，李晓军教授的确在相关论坛发帖，称自己团队拟合的准确率达到了100%。
    王栋设定过，如果发生了这种情况，机器应该第一时间通知他。
    所以，在那条消息发出一分钟后，他就出现在李晓军教授面前了，当然，顶着的是王梁的脸。
    他向李晓军说明了身份，并要求核查他的工作。
    李晓军态度有点奇怪，但还是痛快地同意了他的要求。
    李晓军团队的方法其实很简单，就是用了一个非常庞大的深度模型来拟合。
    之前，各种结构的深度模型王栋都一一尝试过，其中就包括李晓军采用的这个模型。
    模型没有什么特殊之处，李团队的训练过程也没有什么特殊之处。
    所以，这里一定有什么东西搞错了。
    王栋在测试集上跑了一下，准确率的确是100%。
    他对模型各层的潜在表示进行了分析，很快就发现了问题。
    网络里第二层的表示就已经是正确的输出结果了，后面的几百层实际上一直在做恒等变换。
    仅用一层神经网络就能拟合智能解译模型？真是离了大谱了。
    算法如果没有问题，那就是李晓军用的这台计算机有问题了。
    他在超级机器的帮助下，对这台计算机的工作原理进行了解析，原因马上就找到了。
    李晓军教授成功申请到的自由行走资格，是去研究连续学习算法。
    这个王栋印象深刻，因为他们对计算速度和算力的要求极其离谱，是他看过的申请书中最离谱的一个。
    离谱到，虽然那是五年前的事情，王栋还是马上就想起来了。
    他审核申请书时，觉得那样的计算平台根本不可能存在，然而，机器竟然承诺可以提供。
    王栋当时也没有深究，机器说行就行呗。
    现在看来，机器的承诺竟然是以智能解译模型为基础的。
    也就是说，在计算过程中，该计算平台进行了大量的智能决策，对数据进行了筛选和压缩，才达到大规模减少实际算力开销，并加快计算速度的目的。
    用这么一个计算平台来拟合，不就相当于用智能解译模型来拟合智能解译模型自己么？拟合准确率当然是100%了。
    当时，王栋很坦率地把情况通报给了李晓军，并劝他把刚才那个消息撤回来，今后也别再用这个计算平台进行拟合实验了。
    李晓军从善如流，在消息发出二十几分钟后就把它撤了回来。
    然而，在别的研究者看来，这就是一个学术大乌龙。
    对这任务非常上头的那些人，一致认为李晓军是在对他们发动群嘲技能，所以一个个恨得牙痒痒的，找到机会就要刺上两句。
    王栋对此也没什么好办法，他总不能自曝身份跑过去替李晓军辩解吧。
    看着在台上低着头一言不发的李晓军，王栋觉得自己似乎欠了他一份人情。