追赶ChatGPT,文心一言需要两个月

作者:张晓迪
2023-03-30

但对于百度来说,这两个月什么时候能追上,才是更重要的问题。

舞台上灯光闪烁,宣传片还在播放,李彦宏已经站在侧台的暗场中等候。在之后的采访中他说:“对这次发布会的内容,我做好了充分的准备。”

这是他距今年年初举办的第五届百度Create AI开发者大会后的再次公开露面,这一次他带来的是一款生成式AI“百度文心一言”。

此时百度线上直播间已经有几十万的观众在等待,但李彦宏未曾预料到,同一时刻百度的股价却下跌了10%。

就在前一天,OpenAI率先发布了多模态大型语言模型 GPT-4,它的进化速度让人们再次为之震撼。国内生成式AI和以ChatGPT为代表的GPT-4比较肯定是有差距的,正是因为资本市场看到了这个差距,股市才会出现这样的反馈。

这时舞台灯光亮起,李彦宏缓步走上台前,开始了这场关于百度文心一言的发布。百度投入AI已经12年,在人工智能刚开始被大家讨论的时候,百度就已经默默耕耘了两年之久,研发费用将近23亿元。2014年百度开始涉足智能驾驶领域,2015年上线世界首个大规模神经网络机器翻译系统,比Google早了一年多。2016年百度正式发布“百度大脑”并开源中国第一个深度学习框架飞桨。这一次李彦宏带着百度走向了大模型。

舞台上的他看不到资本市场的震荡,也看不到网友们对白色腰带的戏谑评论。现在更重要的是,这是属于文心一言的时刻,百度内部的各个产品线、生态合作伙伴都在等着这个技术,百度没有退路可言。

文心一言能做什么?

面对众人的好奇,李彦宏在发布会上率先回应:文心一言在内测时体验感并不完美,但他表示文心一言的进步空间很大,平台发布后百度将把用户的反馈、开发者的模型迭代、调用形成正向闭环,未来会带给大家新的惊喜。

在发布会后,我们也申请到了文心一言的邀请码,并根据发布会展示的五个使用场景进行了测试,包括文学创作、商业文案创作、数理推算、中文理解和多模态生成。

这五大场景也是ChatGPT所拥有的大部分能力。李彦宏在接受采访时表示,前三个场景是对标ChatGPT已有的功能,希望让大家能够感受到国产大模型并不差。

首先第一个场景是创作能力,文心一言称自己可以创作各种类型的文学作品,例如诗歌、小说、散文、新闻报道等。

在文心一言创作的小故事中,描述了一个田园乡村人与人之间相处的温馨故事,但当我继续提问,希望它以此为背景创作一首现代诗时,文心一言只提取出了上一个问题中“乡村田园”的关键词,创作了一首赞美乡村风景的诗,并没有与它之前的回答相结合。

接下来测试的是文心一言商业文案创作能力,文心一可以创作各种类型的商业文案,例如广告文案、宣传文案、产品文案等。

我让文心一言生成一个推广巧克力脆皮冰淇淋的策划方案,但在描述方案的过程中,却几乎没有提及冰淇淋,也没有针对巧克力脆皮的特点进行创造。这样的“套话”似乎适用于各种商业策划,更像是一个通用模板。

同时,文心一言还存在字数限制,在成本评估的第三项内容描述中戛然而止,共计909字。当我问及文心一言单次输出多少字时,它拒绝了我的回答,并告诉我这是百度的商业机密。

在测试的过程当中,我们发现文心一言是有自己的观点的。当被问到“道德感高是不是一件好事”的时候,它给出了肯定的答案。而让我要求它以否定角度给出答案时,它拒绝了我的要求。

我举例论证道德感高不是一件好事,并问了它的意见。有趣的是,它尊重了我的看法,但仍然坚持了自己的观点。

接下来,我测试了文心一言的多模态生成理解能力。我尝试让文心一言用方言说话,它准确地说出了我要求的句子,但接下来我让它换一个口音时,它竟然说出来另一句话。

广东话翻译:嗯,听到了,我现在心情很好。

在绘画方面,文心一言有着不错的理解能力。此前网上传出了文心一言很多段子,例如“车水马龙”展示的则是一辆车在马路上载着一条龙。“鱼香肉丝”是身上缠满丝带的热带鱼。也有传闻说是“汉译英”再传给Stable Diffusion,尽管这一点已经被百度官方辟谣。

而在测试中,当我让文心一言画出“鱼香肉丝”时,它为我呈现了一道色泽红亮的菜肴。由此看来,文心一言也有了非常大的进步。

由于文心一言的视频生成成本较高,现阶段还未对所有用户开放,但对于使用百家号的编辑来说一定不陌生,因为视频生成能力早已接入了百家号,为文章自动生成视频。

经过测试来看,文心一言确实可以生成简单的文案,可以为使用者提供一个基本的内容框架,只需要进行内容填充就可以成为一篇简单直白的介绍文。当然要求不高的话,直接复制粘贴使用也是可以的。

但在生产力方面,文心一言的表现并不突出,甚至可以说有些稀疏平常。一个相对明显的bug在于,文心一言并不能很好地联系上下文,并做出具有逻辑性的回答,这使得文心一言更像是一个对话形式的搜索引擎。

你不是文心一言,你是鱼,你的记忆只有7秒

而在面对同样的系列提问时,ChatGPT给出了能够联系上下文的答案。

在发布会现场,PPT演示了文心一言正确回答出“《三体》作者是哪里人”的问题。或许是多年深耕于搜索引擎的自信,李彦宏表示ChatGPT目前无法正确回答出这个问题。李彦宏也在另一个采访中列举,当用户提问“二战期间苏联为什么轰炸波兰”时,文心一言能够辨别出苏联没有轰炸过波兰,是德国轰炸波兰。

然而,当我重复这个问题给文心一言时,它给出了和李彦宏不同的说法。

鉴于历史上苏联的确帮助过德国对波兰进行攻击,我换了一个离谱的问法,结果是得到了更离谱的答案。

而向“喵娘GPT”提出同样离谱的问题时,它给出了正确答案,不得不承认喵的进步速度确实更快一些。

但仍然不知道刘慈欣是哪里人。

在文心一言第一版产品测试时,百度内部将它与ChatGPT进行了对比,得出结论是相差40分。李彦宏坦言,当时文心一言团队认为文心一言的提升空间不止40分,一定能在一个月内追赶上。然而在一个月后的测评时发现距离不仅没有缩小,反而拉大了,尤其是ChatGPT所擅长的英文、编程等能力的进步让他们有了紧迫感。

在经过研究后,他们发现ChatGPT有着自己的发展规律,并不是匀速升级。而文心一言是版本迭代的方式,升级速度同样非常快。李彦宏表示,文心一言在发布当天的能力已经达到了ChatGPT在去年12月,甚至是今年1月的水平。

现在文心一言与ChatGPT之间的差距可能最多是两个月,但对于百度来说,这两个月什么时候能追上,才是更重要的问题。

AI的十倍机会

在此之前,我们聊到ChatGPT,除了惊叹于强大的对话式问答功能,其在生产力方面的表现也让许多人产生了危机感,甚至有声音认为,ChatGPT将会取代许多工作,导致失业危机。

OpenAI的创始人Sam Altman曾公开表示,大量的人一定会失业,所以OpenAI会按需收费,给没有工作的人补贴。但李彦宏对此更加乐观,他说,今天没有马车夫这样的工作,因为出现了汽车。但是今天世界上存在的工作机会跟100年前相比,不仅是多了,而且多了很多倍。

不管有多少工作被替代,这只是整个图景的一部分,另外一部分是,存在我们现在甚至无法想象的更多新机会。他预测,十年以后,全世界有50%工作会是提示词工程(prompt engineering),不会写提示词(prompt)的人会被淘汰。

百度将目光聚焦到了产业上。李彦宏在发布会上表示,在国内,乃至全球大厂中,百度是第一个发布大语言模型的公司,也是全球范围内在IT技术栈的芯片层、框架层、模型层和应用层,4个层级中都有领先产品的公司。从高端芯片昆仑芯,到飞桨深度学习框架,再到文心预训练大模型,到搜索、智能云、自动驾驶、小度等应用,各个层面都有领先业界的自研技术。

百度在每一层都提早了很多年来布局,能力也更加完整,未来当人们基于百度智能云去开发新的应用,就会非常方便。李彦宏认为,百度AI全栈布局的优势在于,可以在技术栈的四层架构中实现端到端优化,大幅提升效率。尤其是框架层和模型层之间,有很强的协同作用,可以帮助构建更高效的模型,并显著降低成本。

就在2月27日,百度智能云正式发布企业级大语言模型服务平台“文心千帆”。“文心千帆”大模型平台除文心一言外,还包括百度文心一格、文心百中等全套文心大模型,以及相应的开发工具链。未来,文心千帆平台还有望支持第三方的开源大模型,成为大模型生产和分发的集散地。

利用大模型生成的文字、图像、音频,和数字人结合,再加上超强的理解能力和表达能力,就会创造出很多新的可能。李彦宏认为,未来最大机会不在基础服务,也不是行业服务,而是像微信、抖音、淘宝这样的应用产品,这些基于AI而创造出的应用,诞生10倍于目前APP价值的机会,完全是存在的。

在人工智能时代,一定会出现杀手级应用、现象级产品不断带领大家走向新的里程。“那时人类一定是更幸福的。”李彦宏说道。

本文章选自《数字化转型方略》杂志,阅读更多杂志内容,请扫描下方二维码

《数字化转型方略》杂志