“通义千问”三年磨一剑 阿里大模型征程弥远

来源:爱集微 #芯视野#
4.7w

(文/陈兴华继国内多家科技企业发布AI大模型后,这一矩阵再添生力军。4月11日,在2023阿里云峰会上,阿里方面正式宣布推出大语言模型“通义千问”。阿里集团董事会主席兼CEO、阿里云智能集团CEO张勇在会上表示,从工业革命到现在,人类将进入全新的智能化时代。未来阿里所有产品将接入通义千问大模型,进行全面改造。面向AI时代,所有产品都值得用大模型重新升级。

即便有如此雄心壮志,但阿里大模型的商用化战略难言清晰,基本可以概括为“从点到面”,即从自身的“短期垂直+中长期整合”,逐步扩展到全行业合作伙伴。但需正视的挑战是,阿里大模型与业界或国内领先水平存在的数据参数、预训练数据质量和数据清洗等方面差距。由此,如何通过通义千问破局大模型竞争,将成阿里征程弥远的战略议题。

大模型“三年磨一剑”尚存差距

随着全球掀起新一轮AI浪潮,具备中流砥柱作用的大模型重要性也愈发凸显。对此,张勇在2023阿里云峰会上表示,AI大模型的出现是一个划时代的里程碑,人类将进入到一个全新的智能化时代。就像工业革命一样,大模型将会被各行各业广泛应用,带来生产力的巨大提升,并深刻改变人们的生活方式。

张勇在阿里云峰会上演讲

基于前期的大量数字化基础设施建设,现在大模型的出现正逢其时。所有行业都值得在大模型的基础上,用人工智能的全新技术重新做一遍。”他说,阿里云希望帮助更多企业用上大模型,让每家企业都能基于通义千问具备自己行业能力的专属大模型,进而实现产品和用户体验的智能性变革。

据了解,阿里集团自2019年起开始进行大模型研究,并于2021年4月发布具有270亿参数和1.5TB训练数据的PLUG大模型,于2021年9月率先推出了中国首个超过百亿参数的多模态大模型——M6大模型。经过数年开发耕耘,阿里集团内部目前已有60多个业务体使用PLUG和M6大模型,包括天猫精灵、车载系统和智能客服等。

在阿里云峰会上,张勇接受媒体采访时称,“这几年我们也在不断努力取得进展,尤其是去年推出了非常新的云+大模型理念,我们希望它形成一个Model as a service,能够(实现)模型即服务(MaaS),以及能为社会提供基于云计算基础设施上的大模型能力。“

鉴于此,阿里针对开发者发布了魔搭社区。张勇表示,这一社区目前已经有超过百万的开发者成功调用各类模型数千万次,能够进行其各种各样的开发和二次应用实践。他还称,无论在模型训练还是在模型服务等方面,阿里云都希望能给所有模型开发者和使用者提供业界最好的服务。但阿里大模型不得不面对的挑战是,其与业界领先水平存在的一定差距。

据一位阿里云研究院高级专家称,在参数方面,通义千问基于PLUG的模型,参数在200-300亿,而GPT-3参数1750亿,同时其主要偏向文本,没有涉及图像和视频;预训练语料数据集方面,在质量和规模上都比不上OpenAI和百度;效果方面,总体相当于GPT-3,与百度文心效果差不多,但模型调优和人工精标、反馈机制的设计上优于百度。

毫无疑问,目前国内市场也掀起了激烈的AI大模型竞争。据行业人士表示,相对百度有网页数据,腾讯有很多高质量的公众号数据,阿里在数据方面处于劣势。另外,尽管阿里的To B客户数据挺多,但这种数据质量不是特别高,同时垂直领域的数据不太适合大量的加入通用模型的训练。由于爬虫的数据量级会非常大,数据采买也不一定能完全解决数据问题。

值得注意,虽然国内都在训练大模型,但几乎都没有做很多数据清洗,而是用数据直接训练,这导致产生的效果不如宣传预期。上述行业人士还称,“阿里及其他互联网公司有一些数据,但是之前投入的精力其实很少,比如阿里在模型迭代上比百度和华为应该是慢了大概两年左右,而且大模型做出来之后是否有很大帮助其实也是存疑的。

阿里所有产品将接入“通义千问”

在如何应用大模型方面,阿里方面已经表现出决心。张勇在峰会上称,阿里决定未来将所有产品接入通义千问,进行全面改造。“阿里的优势是拥有百花齐放的内部生态,形成了To C和To B的广泛产品线。我们还是希望能够首先从自身开始,在大模型的产品和业务应用能力上(积累)发生质的变化,让阿里所有产品都能基于大模型进行全面的升级。”

张勇进一步介绍道,钉钉、天猫精灵等产品在接入通义千问测试后,变得聪明了很多。像天猫精灵不仅能回答家里小朋友的各种刁钻问题,还多了一份情感连接,成为更温暖更人性化的智能助手。此外,钉钉接入通义千问测试之后,不仅可以自动生成工作方案,还可以在会议纪要后自动生成总结和待办事项,以及能拍一张功能草图自动生成小程序。

在通义千问推出后,其在阿里内外的商用推进也变得尤为重要。有行业观点称,“阿里大模型预期落地场景目前暂时还没有很明确,现在是跟天猫有一点点合作,属于是业务的横向对接,但实际上也没有落地,只是先做了一个case(案例)。”

不过,据上述阿里云研究院高级专家表示,阿里大模型的商业化包括两大路线。第一,“短期垂直化”,即将打通淘宝智能搜索、智能客服和物流;基于钉钉为企业端提供AIGC应用;为2C智能家居和车载系统提供大模型能力。第二,“中长期整合各业务体系”,即通过打造智能搜索入口去打通自身商业体的融合场景,整合淘宝、支付宝、菜鸟物流等业务体系,形成超级APP概念。

显然,阿里方面深知,全球大模型正在人工智能浪潮催化下迎来激烈竞逐。张勇指出,大模型是一场“AI+云计算”的全方位竞争,超万亿参数的大模型研发并不仅仅是算法问题,而是囊括了底层庞大算力、网络、大数据、机器学习等诸多领域的复杂系统性工程,需要有超大规模AI基础设施的支撑发展。

而随着大模型进入商业化阶段,推理算力需求将比训练算力高十倍、百倍甚至千倍。据了解,目前阿里大模型的训练算力目前基本依赖于英伟达V100、A100及部分A800,以及云端推理采用阿里自研的寒光800、高端CPU卡、英伟达低端的推理卡和国内寒武纪、海光、昇腾310等。与此同时,阿里也制定了算力储备和采购计划,主要采购英伟达V100和A800芯片。

“面对全新的AI时代,阿里已经做好了准备。”张勇表示,十多年来,阿里云已经累积从飞天云操作系统、芯片到智算平台的“AI+云计算”的全栈技术实力,如今将把这些AI基础设施和大模型能力向所有企业开放,共同推动AI产业的发展。“一家企业的想象力终归有限,释放AI潜力要靠无数人探索。只有实现万众创新,才能为社会带来革命性变化。”

无论如何,尽管通义千问难言足够完善,但国内产业界应给予阿里大模型一定的耐心和时间,以及携手共建产业链生态或抓准AI大模型催生的相关投资机会,从而在人工智能浪潮下尽快缩短与国际领先水平的差距。据悉,阿里计划在9月举行的云栖大会上发布更大的多模态预训练模型,即将集成NLP、CV、多模态和科学计算四种能力的M7版本。但在国内这一轮大模型竞争较量中,阿里、腾讯、百度和华为等谁将脱颖而出,且拭目以待。

(校对/张轶群

责编: 张轶群
来源:爱集微 #芯视野#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...