第316章 Y搜出海(6143)
作者:画画太岁   唯我独法:我在都市修奥法最新章节     
    第316章 y搜出海(6143)
    这是实时爬取的数据吗?怎么可能?
    柚子科技怎么可能有这么大的数据中心和带宽?
    别说只是拿了10亿迈元投资的柚子科技,就算是目前现金流已经基本回正的大米,想要投一个搜索引擎,也是天方夜谭般的事情!
    “实时抓取?柚子科技的带宽和服务器够吗?”
    雷君完全想不通,柚子科技这个y搜,是怎么实现的。
    搜索引擎发展到了今天,无论是罗伯特李的超链技术和古狗基层的pagerank技术,本质都是通过网络爬虫从一个或多个著名网站开始,不断地通过各种网页链接爬取网页并读取网页内容。
    抓取到的网页内容并不是直接用于搜索,而是被分析、提取出页面中的关键信息,如文本内容、标题、关键词、链接等后,存储在搜索引擎的索引库中。
    这个索引库就像是一本互联网内容的目录,帮助搜索引擎在用户发起查询时迅速找到相关的页面。
    罗伯特李的超链技术和pagerank不同的是,罗伯特李解决的是爬取的方式问题,而pagerank解决的是为网页赋权的问题。
    具有相同内容的两个网页,来自白屋的网页和来自非洲一个小孩的个人网页,权重显然是不同的。
    古狗的pagerank通关算法,将这些网页进行赋权,算出哪些网页更有价值,那么这些网页就更容易被搜到。
    这两种技术,也是当今搜索引擎最底层的技术,几乎所有搜索引擎都是建立在这两种技术之上的。
    但这就带来一个问题。
    带宽和无比庞大的数据库问题。
    带宽决定了搜索引擎的爬取速度和用户体验速度,而数据库决定了搜索结果的准确性和丰富性。
    虽然只是存储连接和内容索引,但整个互联网网页量太大了,仅仅只是这一小部分,就不是哪个小企业能够承受的。
    古狗每年光是花在服务器新增、更新、维护上的钱就多达七十亿迈元,而且这笔钱每年都在增加。
    古狗和千寻都是在互联网蛮荒时代就已经进入这个领域的创业者,在一开始,不需要投入太多的服务器资源,就能够把互联网上所有的网页链接全都爬一遍。
    但现在可不是,经过十几年的发展,互联网已经变成了一个庞然巨物,互联网用户已经超过34亿人,占全球人口的45%。
    如果去掉学龄前尚未真正注册互联网账户的幼儿和对互联网完全没有认知的高龄老人,占比可能已经超过了65%。
    现在互联网上的数据量之大,可想而知。
    古狗和千寻这种搜索引擎巨头,是随着互联网一步步成长起来的,他们的营收增速比互联网的增长还要快,自然能够不停地加大投入,来增设新的服务器,响应用户需求。
    这也是这个行业为什么没有新入局者的原因。
    这完全是一个积累型的行业,护城河非常深,根本不是一般公司能跨越的。
    想要凭借搜索体验、内容丰富度、搜索精准度等产品力指标推翻古狗或千寻的统治,唯一的办法就是某个巨头或大佬,不计回报的投入数百亿迈元,爬取整个互联网的内容,通过精妙的算法,才能做出一个和千寻或古狗在产品力上能掰手腕的搜索引擎出来。
    这也只是能掰掰手腕,是否能真的超过千寻和古狗,还不好说。
    也正因为如此,基于成本方面的考量,搜索引擎不会为每个网页设定统一的爬取频率。
    爬虫会根据网页的重要性、更新频率、网站的爬取策略来动态调整抓取频率。
    重要的网页,比如各个新闻网站和搜索引擎自己的新闻中心,可能几分钟就会重新爬取一次,而不常更新的页面可能几天、几周甚至几个月才被重新抓取一次。
    但刚刚雷君和周授兹所看到的y搜,针对于一些普遍认为不应当被频繁抓取的网页,也进行了抓取不说,抓到的结果,还是几分钟之前的。
    例如,其中有一篇写于大嘴的自媒体文章,发表于5分钟之前。
    这种自媒体一般来说搜索引擎抓取的频率会非常低,除非类似在头条里面搜头条号这种垂直类型的搜索能搜出来,否则用千寻或古狗都是搜不出来的。
    就像这个网页就是如此,因为抓取频率的问题,这篇文章用千寻和古狗都搜不出来。
    但y搜就是给搜出来了,而且这篇文章的质量还不低。
    那未免也太巧了吧?
    “y搜不算完全的实时搜索,它和传统的搜索引擎技术实际是两个方向。”方豫把烟在烟灰缸里掐灭。
    他烟瘾不重,选在室外和雷君还有周授兹见面,就是因为雷君是个老烟枪,一天两包,新镐室内全面禁烟,这种带室外区的咖啡厅谈事情对烟民比较有利。
    “y搜所用的搜索技术和传统搜索技术完全不同,传统的搜索技术是下载链接后对链接赋权索引建立数据库。”
    “而y搜,是通过大模型分析学习目前互联网上十七亿个网页的数据连接,针对于哪些链接的质量可能更高进行概率性的判定,依据这种概率,给出搜索结果。”
    “因此,y搜并不需要特别多的服务器来存储这些网页具体数据,只是这些链接的索引都被大模型‘学习’了而已。我们只需要储存链接就可以了。”(注1)
    “当用户进行搜索的时候,大模型会自动依据用户的意图或自己的判断,给出其认为符合用户需求的链接。”
    “至于说爬取频率的问题,其实这并没有这么难,根据internetlivestats实时数据,互联网目前有13亿网页,其中百分之五十都是空链接或失效链接。”
    “去掉这些,只有六亿多,六亿的链接中,又有接近四个亿网页是‘非活跃网站’。”
    “橘子的算法是依据‘数据标记’进行判断,已经爬取的‘数据标记’并未改变的情况下并不会重复爬取,在‘数据标记’被改变后,橘子大模型才会主动爬取更新的网页,确保自身的数据处于最新,同时再新建一个‘数据标记’。”
    “这种技术的好处在于,我们不需要像千寻和古狗一样,建立那么多那么大的数据中心。”
    “一个占地两万平米的单层数据中心,应该就足够满足全大周用户的搜索需求,投入可能只相当于古狗的百分之一不到,目前y搜使用的是阿狸云。”
    “当然,如果还要开发其他业务的话,比如目前的千寻和古狗的网盘、百科、文库、地图、邮件等功能,还是需要很大的数据中心来做支撑。”
    “另外这个技术还有一个好处就是非常便于审核和过滤,在审核过滤规则确定的情况下,y搜可以更为精准的过滤需要审核的信息,避免误伤。”
    “ai时代,未被污染的数据太重要了,但现在大周互联网上的周文数据污染情况过于严重,训练大模型的效果很差。”
    “这其中相当一部分是由于审核误伤所导致的,造成周文数据可训练度差,因此在y搜的算法之下,可以精准识别需要过滤的搜索结果,降低97.98%的数据误伤。”
    “这一条虽然短时间内看不出来什么,但时间长了,对整个大周的互联网数据资源都有相当大的好处。”
    “带宽和千寻目前的带宽需求相差不大,毕竟数据的传输和返回都是需要带宽的,但这部分成本对于搜索引擎来说,占比本身就不大。”
    “这种技术最大的难点在于,大多数网页的变化是难以精确预估的,且需要一个可靠的爬取策略来保持数据的时效性,并且保障链接和生成索引之间的准确性。”
    “但好在,在这方面我们取得了一些突破,当然,具体的算法涉及机密,就不和二位介绍了。”
    “正因为各方面的成本都节省了,即使y搜不上市,我也能维持这个搜索引擎的正常运营。”
    雷君看着方豫的手机屏幕,就像在看外星人:“你的意思是,y搜是一个伪装成搜索引擎的大模型?”
    有可能做到吗?
    雷君突然感觉有些庆幸,还好自己的小米选择的是硬件创业,能成为ai的载体。
    方豫立刻纠正雷君的说法:“不,只能算是融合了ai功能的搜索引擎。”
    过犹不及,把ai融合进搜索引擎是一回事,但搜索引擎本身就是ai大模型是另一回事。
    现在大多数人对ai还处于知道有这回事,但还没有切身感受的阶段。
    这时候如果他们发现自己日常使用的搜索功能从根本上的运行逻辑都变了,必然会对ai产生警惕心理。
    到时候,说不准搞出什么事情来。
    方豫言辞恳切:“涉及尚未公开的技术信息,因为信任雷总不是喜欢八卦的人,才会告诉雷总,还请雷总帮我保密。”
    雷君苦笑两声,他现在还真的有点相信方豫的确是没想让y搜上市了。
    这种模式下,运营一个全网覆盖的搜索引擎门槛被大幅拉低了,就算柚子科技这种刚刚迈入独角兽的初创公司,同样也能进入这个领域。
    不,不能算是被拉低了,能够构建和预训练出一个这样的大模型本身就是门槛。
    尤其方豫所说的那几个算法,理论上是可行的,但也只是理论上。
    如果这几个算法这么容易搞,还有千寻和古狗什么事儿啊,这两家公司早就被颠覆了。
    但居然就被柚子科技这么一个小公司搞出来了!
    再转头看看周授兹,雷君在自己的小兄弟的眼神中看到了从未见到的热切和企盼。
    雷君心里叹了口气,倒是没有怪周授兹。
    任谁看了这种完全颠覆未来的愿景,也不可能不动心。
    “小方同学,如果是这样的话,也并不是一定要授兹过去吧?你不上市,授兹去了没有用武之地,千寻和古狗应该有很多更适合的人才。”
    悄无声息间,雷君又改变了对方豫的称呼,用手摸摸口袋。
    “对了,听说伪软的路齐现在已经离职了,千寻正在努力接触。如果你现在和他联系,他应该会很感兴趣才对。”“千寻的袁山君和刘安临最近据说也在看外面的机会,他们对搜索引擎这个领域的业务更熟悉,而且也是千寻商业化的功臣。”
    袁山君?刘安临?这两个货就是被我逼的出来找工作的,我怎么可能会要他们?
    千寻的技术人员还是不错的,管理层?呵呵,算了吧,上梁不正下梁歪,路早就走偏了。
    至于路齐……
    伪软大周这帮运营的人太喜欢玩夜总会,也太喜欢搞女同事,跟金融圈似的。
    虽说路齐一直在伪软总部吧,但他要是来了,难保不从伪软大周招几个高管进来。
    几个喜欢搞女同事和玩夜总会的高管一来,风气可就带坏了。
    自己说千寻上梁不正下梁歪,别到最后y搜的风气还不如千寻。
    方豫对很多外企职业经理人非常不感冒。
    这些人自诩打开国际视野,实际上只会夸夸其谈,在螺狮壳里做道场,在公司既定体质之下闪转腾挪,依靠平台资源做的虽然不错就认为是自己的能力。
    实则狗屁不是。
    方大强有一段时间从几个外企挖了不少职业经理人,给的待遇相对他们在外企基本都是翻番,而且有的翻了三番,并且给了他们充足的权力。
    结果这帮人到了之后第一时间就开始玩圈子,排除异己,随后就开始搂钱。
    外企不是没有强人,这些人的基础素质和能力肯定比很多民企职业经理人强的多,但不代表他们能把这个能力用在你的公司上。
    “如果觉得千寻的人不行,也可以从古狗找,古狗的菲利普施耐德在运营管理上很有一套,我此前在普鲁士的汉堡见过他。”
    雷君看上去宅男,实际察言观色的能力非常强,依稀看出方豫对这两个人不感冒,开始推荐古狗的副总裁。
    方豫笑了笑,又给雷君递了一支烟:“雷总,y搜这个职位不招非周裔,但也不准备找具有大周背景的周裔。”
    “坦白说,除了能力出众,授兹兄的背景也是我想要让他来y搜的一大原因。授兹兄,我有话直说,得罪之处见谅。”
    说罢,方豫对周授兹抱歉的笑了笑。
    周授兹有点懵。
    背景?我有什么背景?我老婆倒是有点背景,但和it也不搭噶啊。
    雷君脑中灵光一闪:“你想出海!?”
    方豫啪的打了个响指,嘿嘿一笑:“bingo!不愧是雷总。”
    雷君两根手指夹着烟,摆了摆,烟灰掉裤子上又赶紧用手掸。
    “难怪你把y域名弄到手后,还把why域名买下来,原来是想要国际市场。”
    雷君感叹了一声。
    “如果说出海的话,授兹的确是个不错的人选,他的李家坡背景确实适合开拓东南雅和巴拉特次大陆市场。”
    方豫不置可否的笑了笑,看了看周授兹:“授兹兄,怎么样?有兴趣吗?你这个级别我也不用和你谈什么待遇问题,雷总能给得起的,我也能。”
    大米做到头,上市当天也就是千亿左右的市值。
    而且随着三丧停止给大米供货,今年大米产能问题和米5的产品力问题肯定会造成大米销量下滑,到时候估值多少就不好说了。
    但也正因为如此,现在如果离开大米,就有点太不厚道了。
    如果雷总不同意,有了芥蒂,对自己的口碑不利啊。
    周授兹目光闪动,看了看雷君。
    与此同时,方豫也看了看正用手腕支着下巴的雷君。
    “雷总,ipo确实对大米来说很重要,但这个工作并不是只有授兹兄才能做。”
    “只要大米能够盈利,并且展现出品牌提升,能够成为手机行业第四极的势头,大把的专业人才都能操作这件事。”
    “之前我就说过,雷总是我一直很敬佩的企业家和创业者,我不想我们之间的合作存在芥蒂,所以我提前没和授兹兄做过任何沟通,今天搞的授兹兄有些尴尬,雷总也有些为难。”
    “这样吧,雷总,我可以给你一个承诺,柚子科技未来和任何其他手机品牌在ai系统化上的合作,我给他们的报价都会比给你的高30%-50%,我们可以签署最低价协议,有效期五年。”
    !!!
    雷君身体一震,想说什么但却又没说。
    方豫了然一笑:“雷总你和授兹兄可以商量一下,我今天先回去,授兹兄,考虑好了的话,给我回个电话,我先去买个单。”
    方豫拿起手机,站起身,转身刚要去买单,突然又想起来什么,啪的拍了下脑门。
    “雷总,你们10月要发布的大米mix和note2的代言人定了吗?能不能卖我个面子?”
    作为大米的核心合作伙伴,方豫当然知道大米下半年的产品规划。
    雷君一愣,这是品牌策略部门的事情,他此前刚刚听了李万锵的汇报,倒是有几分印象。
    “note2主打商务,正在和梁超伟接洽。mix好像他们想要找那个谁来着,就是刚从高丽回来的那个,挺帅的,吴……”
    “吴一帆。”周授兹在旁边提醒了一句。
    雷君拍拍脑门,自嘲道:“瞧我这记性,对,没错,就是他,说他现在的流量很大,年轻人都很喜欢他,对mix的黑科技设定能起到帮助。”
    “雷总,能不能mix给杨蜜?note2给热葩?”
    帮大蜜蜜谈,也不能忘了热葩啊,一碗水得端平。
    方豫根本没说诸如:不能换代言人的话也没事,我就是帮忙问一句,这种水词。
    对于方豫和雷君这种级别的人来说,这种事情,根本不重要,也就是一句话的事情。
    无非是看愿不愿意说这句话。
    而且,对于大米来说,选谁当代言人,也同样不重要。
    买大米的都是图性价比或粉丝,基本盘说白了就是屌丝,追星的谁买大米啊。
    也不知道谁选的吴一帆,喜欢他的都是女的,你选他当代言人,女的该不买你的手机还是不买。
    你大米基本盘就是年轻的男性屌丝,选个美女当代言,至少能让用户养眼。
    选个吴一帆,男的没几个不讨厌他的,基本盘流失的比他带来的流量还多。
    选大蜜蜜多好,你这mix主打的就是大和黑科技。
    大蜜蜜大是没问题的,脸上黑科技也不少,多符合品牌调性。
    果然,雷君也没当回事:“mix没什么问题,现在合同应该还没签。但你说的这个热葩是不是和note2的商务调性不匹配?”
    这不是俏媚眼抛给瞎子看吗。
    再说,梁超伟在男性顾客消费群里也没号召力啊,男的也没觉得他多有商务调性。
    估计又是品牌部门的女粉丝搞的。
    真要想主打商务,还不如找几个买了你手机的老板粉丝当代言。大米现在虽然没有什么商务调性,但用户基数这么大,找出来几个高级职业经理人或私企老板粉丝还是很容易的。
    实在不行,还可以弄几个你的大佬朋友当代言人呀。
    正在酝酿造车的uc前老板何晓彭、奶茶老公大强子、梵客老板陈念,再加上你自己,几个大老板手持note2,露着侧脸,打着背光,随着灯光的移动,摄像机跟着转,直到镜头焦点定在这些老板们装逼的姿势和手里的note2上。
    画外音是浑厚的男中音,“人生就是一次次的突破极限,小米note2,突破极限,成就自己!”
    然后再日常时不时的拍几张老板们用note2的街拍或者生活照,买点热搜。
    雷君只是稍稍琢磨了一下:“这样吧,红米那边定了三个代言人,吴修波、刘师师,还有一个小伙子,最近挺有名的,我把他们其中一个换下来,把你说的这个热葩换上去。”
    方豫展颜一笑:“谢了雷总。”
    注1:学习的网页元数据,而不是网页内容,因此和前面几章里面提到的数据危机中的数据匮乏问题并不矛盾。
    简单来说,用一本书打比方,就是在服务器里储存了书名,然后大模型学了目录,最多再学个摘要。
    这个技术设想是我原创啊,查论文了,没有相关论文。