不朽从二零一四开始(云山雾罩的云雾) 第135章太刑了

    想到这些，林枫若有所思。
    哈佛大学那封长信的内容再次在他脑海中翻滚。
    艾弗里斯曼的解读让一切都变得明朗——这不仅仅是一个邀请函，更是一个让人掏腰包的巧妙手段。
    哈佛大学，这个曾经代表着智慧和学术的殿堂，竟然也不得不面对现代社会的资本化需求，利用校友捐款来维持其辉煌的声誉。
    这事林枫倒是不意外，只不过如此明晃晃地摆在明面上还是让林枫感慨万千。
    作为一个世界顶尖的教育机构，哈佛需要不断的资金注入来保持其学术研究和教学设施的领先地位。
    对于像林枫这样已经成名的校友来说，这样的“捐款邀请”无疑是一种很商业化的形式
    林枫对此感到有些复杂。
    林枫深知这种所谓的捐款与其说是捐款其实就是花钱买名声。
    通常来说其实也是各取所需。
    但这种略显生硬的方式，给林枫的感觉却有些不舒服。
    尽管区区五百万美元对现在的林枫来说并不算什么。
    但以捐钱的方式嘛，免谈。
    如果以合作的形式嘛，其实倒是没什么。
    这涉及到主导权的问题。
    捐给这种海外高校，捐上几百万美元，上赶着送钱给别人，尽管能换来些虚名。
    但也正如艾弗里斯曼说的，这样的虚名每年动态调整，并不是什么很有价值的虚名。
    这岂不是明显是被主导。
    “谁主导谁。”这句话在林枫脑海中反复回响。
    与其成为一个捐款的供体，盲目地接受这些所谓的荣誉与称号，成为一个被主导者。
    不如成为主导一切之人。
    就算做不到这种，至不济也得是彼此合作的关系。
    等价交换的原则。
    如果说这类高校可能看中的会是林枫的钱。
    那么林枫看中这类高校的什么呢？
    林枫看中这些高校顶尖的学术地位，长期以来的庞大圈子。
    以及随之而来的巨大话语权。
    什么叫话语权，通俗说就是说你行你就行，不行也行。
    说你不行你就不行，行也不行。
    绝对的话语权造成绝对的垄断。
    在反垄断法高悬头顶的情况下，真正的全方位的垄断有点难。
    但通过追求话语权上的以势压人也可以寻求一种变相的垄断。
    而再通过垄断来排除潜在对手，获得利益最大化。
    而在此前林枫就明白了想要搞钱搞很多钱本质上就是变着法地追求垄断。
    别的学术领域林枫暂时不清楚。
    以林枫前世比较熟知的自然语言处理来举个例子。
    拿预料标注来说。
    语料是指用于语言研究和自然语言处理的文本数据。
    这些数据可以来自各种来源，例如书籍、文章、对话、网站内容、新闻报道、社交媒体帖子、学术论文等。
    语料的种类和内容可以涵盖广泛的领域，包括日常语言、专业术语、情感分析、技术文本等。
    在自然语言处理中，语料是用来训练、评估和改进模型的基础数据。
    自然语言处理模型依赖于大量的语料来学习如何理解、生成和处理语言。
    语料标注则是指对语料中的文本进行人工或自动化的注释和标签化的过程。
    这些注释和标签可以提供文本的结构、意义或其他语言学特征的额外信息。
    语料标注的目标是为机器学习模型提供更多的上下文和语义信息，从而帮助模型在处理语言时更加精确。
    通俗说，语料是机器学习和语言处理中的基础数据，而语料标注则是赋予这些数据结构和意义的过程，使得机器能够更好地理解和处理语言。
    而在预料中有这么一类属于权威语料的东西。
    而什么是权威语料呢？
    在语料标注中，权威语料指的是那些来自公认权威的来源，具有较高的可靠性、准确性和权威性语料。
    具体来说，权威语料包括以下几类：
    「首先当然包括政府机构、国际组织（如联\/合国、国际货币基金组织）发布的政策文件、研究报告、数据集等，往往具有很高的权威性，尤其在涉及社会、经济、环境等大规模议题时。
    其次也包括一些顶尖学术期刊（如《自然》《科学》《m国科学促进会会刊》）上的论文，以及国际会议上发表的论文，也被认为是权威语料。它们代表了学术界的最新研究成果。
    另外呢也包括顶尖学术机构的出版物：像哈佛大学、麻省理工学院、斯坦福大学等着名学府发布的研究论文、报告、教材等，都被视为权威语料。
    还有专业机构的声明或报告常常被视作权威来源，尤其在医学、科学、技术等领域。
    除此之外还有公认专家的观点，某些领域的顶级专家，若其观点被广泛接受并引用，那么他们的发言、书籍、演讲等也常被看作权威语料。例如，诺贝尔奖得主、领域内的领军人物等，他们的公开言论往往能对学术界或公众产生重要影响。」
    虽然包含很多类别，但其实真正训练的时候政府机构、国际组织的文件虽然权威性更高，但这类数据的一半不会被允许大范围的用于语料训练，而如果想要在语料训练中使用权威语料，只能在顶尖的学术期刊、顶尖学术机构出版物、专业机构的声明和报告以及公认专家的观点这些上面做文章。
    而像顶尖的学术期刊、顶尖学术机构出版物、专业机构的声明和报告以及公认专家的观点这些往往因为利益掺杂在一起，基本就混同成为顶尖学术综合体，这些东西对外就是一个声音，是掺杂在一起的。
    想要谋求权威数据基本绕不开这样的顶尖学术综合体。
    其实较真的说，如果不用这些权威语料去做语料标注是否就一定会影响语料标注的结果呢？
    是否就一定会影响自然语言处理模型的性能、可靠性和泛化性呢？
    还真未必，甚至有可能做得更好。
    但是呢，你不去用这些顶尖学术综合体搞出来的权威语料，当你用一般来源的语料即便是搞出模型的，这些模型总要去谋求商用吧。
    等你追求商用的时候呢，这些顶尖学术综合体利益受损之下，完全是可能跳出来说你语料未使用权威语料的，然后给你扣上各种诸如标注质量差、模型偏差、泛化能力差之类的帽子，对你横加指责。
    然后跳出来各种审查安排一波。
    很多商业产品时效性都是很关键的，别管没完没了的审查结果如何，基本也就凉凉了。
    总之，别管实际模型能力如何，说你行你就行，说你不行你就不行。
    这就是学术垄断的威力，躺着赚钱。
    而且还是赚非常多的钱。
    操作得好搞个十几亿美元几十亿美元不在话下。
    像是那种很有名的权威语料库，早期的时候调用费用超级昂贵。
    而对于一些顶尖高校来说搞出这种权威语料库还真不是什么难事。
    有机会的可以操作一波。
    不过只能留待以后了。
    以林枫现在的实力还不够平起平坐跟这些顶尖学术体谈什么合作的。
    现在林枫如果算一卦的话。
    估计也是九二，见龙在田。
    此时此刻对于林枫来说蓄势才是最重要的事情。
    这之后林枫又开始专注于黑客攻击的学习。
    越学林枫越感觉自己刑，太刑了。