学霸终结者(校对)第365部分在线阅读

字体大小: | | 上一章 / 章节目录 / 下一章 / 返回书籍页面 / 当前阅读进度365/517

  比如一个网民,在百度上搜“权宝儿”三个字,然后弹出几百万个搜索结果。
  第一个搜的人,得到结果列表后,点击了“权宝儿”的百度百科词条。
  第二个搜的人,点击了一条她参加的综艺节目视频。
  第三个搜的人,点击了一条关于她的娱乐新闻。
  第四个、第五个、第六个,又点了百度百科词条。
  假设,因为百度的用户容量够大,有10万人次搜了“权宝儿”这三个字,然后百度根据反馈统计:其中43%的人搜索后,点击了百科词条,22%的人,点了某娱乐新闻,17%的人……
  这时候,如果把百度搜索的云端大数据,接为‘初秘’或者SIRI的服务器端,初秘就会知道:当下一次她的手机主人说出“权宝儿”这三个字的时候,优先把这个词的百度百科词条内容推送给主人——当然,是用语音阅读的方式。
  这是最简单的问答型人工智能,靠统计数据,来让机器的回答,更贴近代表所有网民中最大众的那一群人的意见。
  这个过程中,机器并不理解“权宝儿”这三字代表了什么,它只是在算法上统计了“所有曾经搜过这个词的人,在搜索后点击查看了哪条答案”,然后把看过人最多的那条答案,推送给最新问这个问题的人。
  这样的大数据,只有搜索引擎服务的提供商,才拥有。或者说,只有那类公司的数据,样本容量才足够巨大,足够客观,足够撇掉误差。
  在中国,只有百度和谷歌有这个资本。
  而且,百度和谷歌除了搜索大数据的历史记录足够庞大、完爆其他搜索服务提供商之外,他们还有一个独门之秘,在2009年只有他们两家形成了规模。
  那就是“百度知道”,以及比百度知道逊色一些的“谷歌问答”。
  “知道”,是一个比搜索更加贴近人类语言习惯的问答产品。在搜索的时候,人只会打几个关键词,很少会直接长篇大论写一句话,写一个用人类正常语法表述的问题。
  而用百度知道的时候,因为背后是人类在回答,所以大家都遵循了人类语言的语法。
  一个新买手机的用户,和初秘或者SIRI聊天的时候,问到的问题,真的是绝无仅有、从来没有前人问过的么?
  恐怕不尽然。
  十几亿人心中的困惑,有相当大一部分是重合的。同一个问题,可能全国有几百万人想问。
  有了百度知道的云端大数据之后,初秘或者SIRI再听到手机主人的语音发问时,就可以先搜一搜这个云端数据,看看有没有近似的或者重复的前人提问。
  如果有,直接把前人提问中的“被采纳答案”推送过来、语音阅读一遍就行了。
  在“知道”这个产品上,谷歌其实走得比百度慢。谷歌的强项,是“谷歌学术”那种专业标准化的问答,而缺少家长里短的日常人工智能锻炼。
  在人工智能领域,如果非要对比谷歌和百度的优劣势,只能说:谷歌可以训练出更精密的机器,但是不如百度那样容易给机器学会‘七情六欲’。
  因为早年的谷歌,压根就没想到去锻炼其人工智能的这个方面。
  当然,说句良心话,百度也没想到。
  “百度知道”日后教会了“度秘”比SIRI更能插科打诨,也只是百度发展时一招无心插柳的歪打正着。
  ……
  正因为顾莫杰懂行,因为他自己就懂深度学习算法,所以,他比别人更能领会严磊开出的条件诱惑力。
  初音集团,在搜索上是弱项。
  但是初音集团,在人工智能的算法领域,是强项。
  一个企业人工智能产品的强弱,受制于两个因素。
  一个是算法的好坏,一个是大数据的规模。
  比如,谷歌的算法效率假设是10%,而谷歌的日搜索处理量是10亿条,所以谷歌的人工智能每天理论消化的问答是1亿条。
  如果初音的算法效率更好,有20%,但初音每天的搜索处理量只有1亿条,那么初音人工智能每天理论消化的问答只有2000万,比谷歌弱了五倍。
  有好算法,有好的“数据消化效率”,却没有足够的“数据饲料”去喂养这副“消化功能”极强的“胃口”。
  这一直是初音人工智能研究院的缺憾,短板。
  但是,如果按照严磊的说法,把谷歌中国过去五年,在中国市场上搜集到的服务器端历史记录数据统统COPY过来,“填鸭式”地塞给“初秘”去学习,那么初秘在“真正听懂中国人讲话”这个问题上,起码可以赢得相当于额外获得两三年时间锻炼的效果。
  历史上SIRI公司成立于2007年,10年被苹果收购后,在4S上放出了这个人工智能产品。
  但是用过IPHONE4S的用户,恐怕都有一种记忆:
  刚开始,4S上的SIRI智能程度真的很低,几乎听不懂什么话。还是只能和旧时代的“语音拨号助手”那样,帮主人翻翻通讯录、拨打一下电话为主。
  至于让SIRI真的近似于人一样和主人聊天,似乎是2012-2013年的事情了,那时候的SIRI才渐渐说话像人话。
  那就是因为,SIRI花了两三年时间来“学习”、来积累和消化云端大数据,渐渐统计出人类语言习惯。
  如果谷歌中国不倒下,谷歌在华的那多年数据记录,肯定是作为商业秘密不会公开的。因为那涉及到其对中国人上网习惯的统计。如果公开了,很有可能被对手拿去,作为优化对手引擎算法的参照物。
  但是,如果谷歌中国倒下了,这些数据再遮遮掩掩藏着,似乎就没什么意义了。
  只要顾莫杰出一笔看上去挺诚意的价码,谷歌总部相信就会把这笔数据财富卖给初音。
  顾莫杰意淫着美好前景,简直要兽血沸腾。
  恨不得现在就在老朋友拉利佩奇脊梁骨上捅一刀,然后把谷歌中国的数据资源巧取豪夺走。
  “磊哥,来,好好说说你数据到手之后的详细使用计划。我都有点迫不及待了……”
  “当然没问题,就是如此如此,这般这般……”
  严磊一副指点江山状,对顾莫杰讲解了一个钟头的技术路线梗概。
  “只要做到了这些,然后,我们的初秘肯定可以在‘人话识别率’上领先SIRI至少两年。”
第一百五十九章
顶级峰会
  初音邮箱的付费邮件业务,可以等。
  Gmail的死亡进程,不需要顾莫杰额外付出代价去加速。
  但是“初秘”的研发进度,真的不能等。
  顾莫杰可不想明年2月份寒假、“初心2”手机上线后,搭载一个人话都听不透彻的人工智能语音助手,去和苹果家的SiriPK。
  是时候主动去一趟京城,和久违的李老板商量商量:如何一起背后捅刀子,加速谷歌中国的死亡。
  和严磊聊完那一晚,回竹溪小径大睡了一觉。次日起身,顾莫杰就让叶敏茹安排飞机。
  “安排直升机,顺便给李老板打个电话,中午一起吃饭。”
  “好的。”
  和李老板两人私下聚会这种场合,在顾莫杰记忆里,最近的一次,也是六年前了吧。
  那年,他还是一个18岁的白手起家者,为了一个刚刚写出来的输入法,作为一个小客户,去谈百度推广。
  当时,是他如今的表嫂刘绯彤,接待的顾莫杰和表哥周立新。
  那个下午,李老板觉得顾莫杰“骨骼精奇”、“颖悟不凡”,留顾莫杰聊了两个钟头。
  谁会想到,6年之后,24岁的顾莫杰个人财富,已经反超了42岁的李老板。他名下的初音集团,资产也隐隐然追平百度。
  2009年的百度,市值也不过600来亿美元,暂时以极为微弱的优势,占住中国互联网企业市值第一的位置。
  但谁都不怀疑,凭顾莫杰的成长趋势,明年初音集团就可以稳扎稳打完成超越,把第一的宝座纳入囊中。
  李老板的号码,顾莫杰还是从那张六年前收到的名片上翻出来的。
  对方果然没换号,一打过去,很快就通了。
  “Robin,我小顾。有点事儿进京,中午一起吃个饭,地方你挑——咱谈谈谷歌。”
  “JAY?稀客啊,欢迎欢迎。”
  电话另一头的李老板笑得很和煦,有一股让人如沐春风的错觉从手机里扑面而来,“我这人不讲究吃,大董烤鸭行不?”
  “成,那我11点。大董附近我不熟,你得先找个地儿给我停飞机,弄个车接我。”
  “一句话的事儿。”
  顾莫杰挂了电话,就登上EC-135HD,直飞京城。
  ……
  四个小时后,顾莫杰准点出现在京城大董烤鸭。
  时隔六年,他可以感受到,李老板的脾性,变得越来越官场化。六年前那几分自由主义随性而为的锐意,已经被消磨了不少。
  在国内做搜索,比做社交和电商更磨人。上面打招呼和谐的敏感词,一年比一年多,一不留神就得罪人了。

< 章节目录 >   < 上一章 >   当前阅读进度365/517   < 下一章 >   < 返回书籍页面 >