大模型的下一站,或许将以一场混战的形式拉开帷幕。
在移动互联网时代,江湖位次已经排定的云计算行业,又因为大模型的到来陷入“疯狂”和“纷争”之中。
于是外界看到,难得一见的一幕发生了——各家云计算厂商的一号位们纷纷亲自下场,不仅在产品上争高低,也在言语上博眼球。
今年3月份百度首先发布对标ChatGPT的大模型产品文心一言,李彦宏说,大模型将改变世界,压缩人类对于整个世界的认知。
4月份,以大语言模型“通义千问”为开端,阿里云推出通义大模型家族,家族成员包括语言模型通义千问、AI绘画创作大模型“通义万相”、音频的大模型应用产品“通义听悟”。背后的野心是,“所有行业、所有应用、所有软件、所有服务,都值得基于新型人工智能技术、基于 AIGC 各方面技术支撑、大模型支撑重做一遍。”
华为云也发布了盘古大模型 3.0,这不是一个大模型,而是一个大模型系列,包括5 个基础大模型和N个行业大模型以及更多细化场景的模型。
迟迟没有掏出AI大模型的腾讯则饱受外界掉队的质疑。逼急了的马化腾不得不解释,AI是几百年不遇的、类似发明电的工业革命一样的机遇,腾讯不在乎早一个月或者晚一个月。
尽管如此,很快腾讯云就发布了行业大模型解决方案撑场,号称要打造一站式服务行业大模型精选商店。
云厂商们对于大模型的反应如此激烈的背后不仅是对于新机会的激动,更是对于竞争的焦虑,正如李彦宏所言,大模型根本性地改变云计算市场游戏规则。
问题是,面对这场历史性的机遇,什么才是云厂商们真正的胜负手?
1.算力比拼,大模型之战的第一道坎
在大模型的竞争中,硬件是第一道门槛,也是入场券和敲门砖。
今年 5 月,有用户吐槽New Bing回答速度变慢。微软的回应是,因为GPU补充速度跟不上用户增长速度。
要造一个好用的大模型,背后需要有足够的算力,考验的就是企业的GPU存量和资金实力。
简单的举个例子,OpenAI在训练GPT-3时使用了1万块V100,训练GPT-3.5至少需要1万张英伟达A100的芯片集群,看起来数量差不多,但后者的性能比前者提升3.5倍。
按照行业专业人士的判断,1万张顶级显卡才算是跨进了大模型的门。
“这一波的大模型训练目前只有A100 和 A800 (A100的中国特供版)能够真的跑得起来。”商汤公布的一份纪要中提到,在国内拥有1万张英伟达A100加速卡的公司共有6家,其中百度、腾讯、字节、阿里四家云厂商位列其中。
虽然都跨过了门槛,但四家云厂商的GPU数量也存在差距。
据了解,四家中字节跳动和阿里的顶尖显卡数量排在第一梯队,尤其是字节的顶级显卡最多,A100 和 V100 总数接近 10 万块。阿里巴巴集团也拥有大约10万块顶级显卡,这些显卡也是阿里云的底气。
之所以两家拥有数量庞大的顶级显卡,原因各不相同。字节是因为此前曾经重金投入元宇宙方面,因此购买了很多显卡做渲染。阿里曾经购买了大量的GPU放在云上对外租赁,没想到销售情况并不太好,但有意栽花花不发,无心插柳柳成荫,这些显卡赶上了这一波成为香饽饽。
而腾讯方面在GPU的积累上略逊一筹,根据《晚点》报道2022年底,由于GPU算力愁卖,腾讯砍掉了一批英伟达GPU订单,追悔莫及的腾讯不得不拿着更多的钱亡羊补牢。
由于没有足够的顶级显卡,腾讯退而求其次,在今年 3 月表示新版高性能计算服务中已使用了 H800,并称这是国内首发。
H800的具体参数尚未公开,据说它的带宽仅为H100的一半。执行相同的AI任务时,H800可能比H100多花费10%至30%的时间,推测认为H800的训练效果可能不如A100,但价格更高。
百度在GPU方面可能是四家中最弱的,但是也在努力的弥补差距,据称此前百度向英伟达新下的GPU订单高达上万块。
实际上不光是百度,各家都在拼命扩充自己的硬件储备,据《金融时报》8月10日报道,今年英伟达将向百度、字节跳动、腾讯和阿里巴巴交付价值10亿美元的A800处理器,2024年还将交付价值40亿美元的GPU。
2.算法、数据,大模型的“血”和“肉”
除了硬件之外,大模型的竞争还取决于算法和数据。
因为大模型的研发不是靠堆算力就能实现的,还囊括了算法、框架、数据、模型等众多技术相关的要素。
在算法上,在国内百度和阿里云处于第一梯队。
百度是国内最早喊出All in AI口号的互联网公司,长期围绕着AI进行技术研发投入,自称是全球唯一一家在人工智能四层架构,也就是“芯片层、框架层、模型层、应用层”有着全栈布局的公司。从专利的角度来看,百度的AI专利申请量和授予量连续五年全国第一。
阿里达摩院则是国内最早启动大模型研究的机构之一。2018 年底便开始投入大模型研发,2021 年阿里先后发布国内首个超百亿参数的多模态大模型及语言大模型,此后还训练实现了全球首个 10 万亿参数的AI模型。
而在数据积累的维度上,公域数据里各家相差不大,通常都会抓取网络公开数据训练。
不过数据量的多少与大模型的竞争力也并非完全正相关,更重要的还是有优质的数据。
“文心2600亿参数效果不如1750亿的ChatGPT3.5,主要是训练的不够,打磨的不够”,有业内人士表示,参数量不是越多越好,很多参数都是凑的,“在ChatGPT之后,许多大模型都号称千亿、万亿参数,但是实际效果还赶不上前者。”
所以做模型一定要用足够多的高质量语料,核心的竞争力其实就在于能不能找到好用的私域数据,这就考验各大厂商在自有生态里优质数据的沉淀和积累。
从这一角度上来说,腾讯、字节、阿里巴巴、百度各有各的优势。
腾讯有微信,字节有抖音两大国民应用,提供了海量数据,百度拥有百科类、百度知道、贴吧等产品也积累了丰富的资料库,阿里巴巴的数据更聚焦于电商行业,正如戴珊所言“淘宝天猫拥有全网最大的商家库和商品库,全网最好的可供AI研究应用的电商土壤。”
值得注意的是,在大模型时代问答社区、垂直论坛等成为紧俏货。不久前海外知名问答平台Reddit宣布将对使用其应用程序编程接口(API)的第三方收费,原因就是Reddit不愿意被Google、OpenAI“白嫖”数据用于训练大模型。
而国内最大的问答社区知乎则拥有百度和腾讯的投资,这或许让两者可以近水楼台先得月。
3.行业大模型:大模型的下一“战场”
通用大模型的决战还没有分出高下,云计算厂商们又把目光聚焦到垂直行业模型,抢先布局。
以腾讯为例,混元大模型8月份才进入公司内应用测试阶段,而此前腾讯云6月中旬就推出了MaaS(模型即服务),已覆盖金融、文旅、政务、传媒、教育等十个行业,提供超50个解决方案。
2023世界人工智能大会上,腾讯研究院发布了《人机共生——大模型时代的十大AI趋势观察》报告,明确了腾讯的判断——行业应用是大模型的主战场。腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示,通用大模型有很强的能力,但并不能解决很多企业的具体问题。
不光是腾讯这么判断,阿里云的掌舵人张勇也认为,“最重要的不是大家拥有了一个对话式的机器人,而是如何将它融合在各自的业务场景中。”
而华为云的盘古大模型,声称“不做诗,只做事”,聚焦行业场景、垂直领域。
为什么大家纷纷跳过通用大模型而投入行业大模型,原因实际上只有一个字“钱”。
首先是花钱的问题,从投入的角度来说,通用大模型参数动辄千亿、万亿,芯片、数据、人才等成本高昂。有投资人判断,国内最终能够存活下来的通用大模型玩家能有个位数就不错了。
其次是赚钱的问题,从回报来说,通用大模型一方面是不够好用,公有大模型虽然是通才,但缺乏行业深度,没有办法成为生产工具,企业的付费意愿不强。另一方面则是通用大模型也难以TOC,它不像游戏、音乐、电视剧,很多人只是尝鲜,不愿意付费。
而行业通用大模型则可以聚焦于付费能力和意愿更强的TOB市场,正如汤道生所言,“企业需要的,是在实际场景中真正解决了某个问题,而不是在100个场景中,解决了70%-80%的问题。”
不过当企业们都踏入到同一条河流后,为了抢生态、抢用户,就意味着价格战将会再次来临。
据媒体报道,某大模型公司最开始的私域部署要2000万元,年初的调用价格降到180万到30万选包,现在已经免费。
而云厂商方面,今年以来随着阿里云率先进行有史以来最大幅度的一次降价,腾讯云与移动云也启动产品降价,其中,腾讯云部分产品线最高降幅达40%,移动云最高降幅达60%。
而作为未来云计算必备的基础服务,大模型的降价或者以捆绑其他服务进行变相降价,可能也在不远处。
大模型的下一站,或许将以一场混战的形式拉开帷幕。