“如何从哲学角度续写《三体》?”记者向文心一言提问。它回答:续写《三体》可以从哲学角度出发,探讨人类存在和价值、人类与宇宙的关系等宏大主题。当前,国产版ChatGPT强势入场。场上,各头部大模型“百花齐放”,场下,全民围绕ChatGPT开启“狂欢模式”,用其回答脑筋急转弯、算“鸡兔同笼”问题、写代码,甚至问起恋爱问题。国产版ChatGPT能否在全球竞争中“杀出一条血路”?还是披着ChatGPT外壳的“自嗨”?记者进行了探访。
“百模大战”已开启?
4月18日当天,国产ChatGPT战场硝烟渐起。仅仅一天内,就有6家头部企业加入“战场”,发布关于大模型的重要消息。其中,百度“文心一言”大模型全面应用内部智能工作平台“如流”;钉钉宣布正式接入阿里巴巴“通义千问”大模型测试;字节跳动旗下火山引擎发布自研DPU(数据处理单元)芯片,以及发布大模型训练云平台等;金山办公宣布将推出WPS AI,类似于基于ChatGPT技术的微软Copilot产品;APUS在北京推出1000亿个参数、自研多模态的天燕大模型AiLMe,以及基于其技术的7款AI消费端应用App;斑马智行宣布接入“通义千问”大模型测试,智己汽车成为首个上车品牌;
国内ChatGPT群雄争霸“大乱斗”剑指何方?多家头部大厂在发布会上都给出了相似的答案:让产品在接入ChatGPT后,变得更“聪明”。
业内专家认为,之前选择云厂商更多看算力、存储等基础云服务。未来,更多会看框架好不好、模型好不好,以及模型、框架、芯片、应用之间的协同。记者从百度获悉,文心一言是百度继文心一格之后推出的新一代大语言模型,在继承文心大模型“知识增强”和“产业级”的核心特性的同时,延续“降低应用门槛”的发展路线。
百度透露,文心一言将通过百度智能云对外提供服务,根本改变云计算市场的游戏规则,这一趋势下,百度“云智一体”将为产业带来AI普惠,同时收获更高的云计算市场份额,云服务将从数字时代跃迁至智能时代。
如何用大模型赋能实体经济领域?以即将开放的文心一言大模型为例,其将支持更多企业构建自己的模型和应用,赋能交通、能源、制造等实体经济领域,提升生产效能。例如,Apollo将文心一言融入智能汽车,让智能汽车不仅有智商,还有情商。可以说,汽车机器人将首次拥有人格,在此基础上描述一辆汽车,不再是冷冰冰的参数,而是温柔、贴心,甚至高冷这样的形容。
钉钉接入阿里巴巴“通义千问”大模型,用一条斜杠完成了进化。根据现场演示,用户只需在对话框里输入“/”,便可以唤起十多项能力,完成内容生成、摘要提取、应用开发等诸多工作。阿里云相关负责人表示,“通义千问”是阿里云推出的类ChatGPT大模型,它基于达摩院“通义”大模型技术研发,在文本理解、文本生成、多轮对话等大语言模型(LLM)基础能力方面表现突出,并正在以周为单位进行优化迭代。阿里云透露,今后,阿里所有产品未来将接入通义千问进行全面改造,钉钉、天猫精灵率先接入测试,将在评估认证后正式发布新功能。
各自“看家本领”是怎么炼成的?
ChatGPT、Bard、文心一言背后的关键技术,都是大模型。业内专家普遍认为,动辄超千亿参数的大模型研发,不是单一的算法问题,也不是靠简单堆积GPU就能实现的,这是囊括了底层算力、网络、存储、大数据、AI框架、AI模型等复杂技术的系统性工程,需要AI-云计算的全栈技术能力。
大模型好不好用到底取决于什么?工信部语言信息智能处理及应用重点实验室副主任、南京理工大学教授夏睿告诉记者,预训练语言模型的基本技术架构包括编码器、解码器和编解码一体化三种。国产大模型大多建立在上述架构之上,结合各家前期积累,各有特色,目前看来,不同架构对于大模型能力的影响并非最大,相比而言,语料的规模及质量、代码数据的有效利用、人类反馈的设计使用以及大规模数据的训练技巧,是决定大模型性能的更关键因素。
阿里相关负责人表示,阿里达摩院在NLP(自然语言处理)等前沿科研领域布局多年的基础上,于2019年启动大模型研发。2021年,阿里先后发布国内首个超百亿参数的多模态大模型M6及语言大模型PLUG;同年8月,阿里大模型在全球机器视觉问答榜单VQA上首超人类得分;2022年2月,M6实现可同时完成10余项单模态及多模态任务,最大程度打通了AI感官;2022年9月,阿里发布集成历年技术沉淀的“通义”大模型系列,相关核心模型和技术通过魔搭社区开源开放,为国内大模型发展提供一臂之力。
近日,阿里云宣布将与OPPO安第斯智能云联合打造OPPO大模型基础设施,基于通义千问完成大模型的持续学习、精调及前端提示工程,未来建设服务于其海量终端用户的AI服务。同时,中兴通讯、吉利汽车、智己汽车、奇瑞新能源、毫末智行、太古可口可乐、波司登、掌阅科技等多家企业已向阿里云抛出“橄榄枝”,将与阿里云在大模型相关场景展开技术合作的探索和共创。
百度表示,之所以能快速做出文心一言,是因为像深度学习、自然语言处理、语言大模型等这些技术,都是“原产”的,可以说,百度为此积累了20年。百度扎根搜索的核心技术——自然语言理解,并基于搜索引擎,演化出语音、图像、知识图谱、自然语言处理等人工智能技术。另外,百度在人工智能的四层架构中,有全栈布局。包括底层的芯片、飞桨深度学习框架、大模型以及最上层的搜索等应用。而ChatGPT、文心一言类技术,位于模型层。
2022年是大模型产业化应用元年,大模型已成为许多上层应用的技术底座。而百度文心已经累计发布了11个行业大模型,并以“知识增强”为核心,实现了从单模态大模型到跨模态,从通用基础大模型到跨领域、跨行业模型,持续的突破和创新。百度透露,飞桨是百度自研的开源深度学习框架,目前,已凝聚了535万开发者,服务20万家企事业单位,并基于飞桨创建了67万个模型,构建起深度学习生态。
严格来说,ChatGPT并不是底层模型的显著突破,但它巧妙地采用了理解、生成和交互相结合的方式,并且基于人类反馈进行强化训练,在体验上带给人更加智能的感觉。记者从百度获悉,百度依托庞大的搜索业务,构建的知识图谱覆盖超过50亿实体,5500亿事实。从海量数据中融合学习,大幅提升了模型对于知识的记忆和推理能力,让模型更“聪明”。
据悉,每天,文心大模型会服务数十亿用户搜索请求,在中文语言样本训练上具有先天优势。面向国内市场,百度的“秘笈”在于中国化理解。文心大模型具备中文领域最先进的自然语言处理能力,其先进性不仅体现为对中文语言的理解,还体现为对中国文化的理解,从而更适合中国市场。
没准备好起跑就准备抢跑?
目前,国产大模型奋起直追,百花渐次开放。但在基础理论、标注数据、芯片算力等方面与国际顶尖技术相比还存在一定差距。
但不得不注意的是,从用户使用反馈来看,目前国内大模型与OpenAI最新的ChatGPT技术还存在一定差距。夏睿解释,“OpenAI在GPT系列模型、强化学习算法、自动编程等领域积累了大量的先进技术,具有丰富的数据资源和算力支持,以及多领域的应用经验,同时它还在不断研发更新型的大模型版本,因此难以在短时间内赶超。”但他也指出,近几年我国自然语言处理技术进步很快,我们也不宜妄自菲薄,在追赶的过程中,需要给国产大模型一些时间。
夏睿告诉记者,首先,人工智能领域“0”到“1”的原创性、颠覆性创新,如Transformer、预训练语言模型、ChatGPT等,多数源于国际顶尖互联网科技公司,而我国人工智能技术更擅长从“1”到“N”,处于跟随地位,创新模式以应用创新、集成创新为主,在基础理论和原始创新方面较为缺乏。
“其次,大模型依赖高质量的标注数据,中英文优质语料方面存在较大差距。”他认为,我国需要加强构建涵盖多个领域和类型的,更多、更丰富、更优质的数据资源和标注规范。同时,强大的算力是构建大模型的基础,目前大模型算力主要由GPU支撑,例如OpenAI训练ChatGPT模型号称动用了上万颗英伟达A100 GPU,而芯片领域的“卡脖子”问题也在一定程度上限制和延缓了我国大模型技术的发展。
国产ChatGPT“绝地求生”
人类获取知识的方式有视觉、语言、听觉等,它们在人脑中汇聚,将输入的不同形式内容贯通起来。因此,许多业内专家认为,未来多模态大模型需要做到多模态的信息在高维空间实现有机融合。
“‘通义千问’既不是起点也不是终点,而是个既定路线上的节点。”阿里云智能CTO周靖人表示,目前阿里还处在不断探索基于多模态的大模型的路径上,未来需要进一步突破创新。比如,如何把各个模态的模型能力融入同一个模型,是大模型探索过程中很重大的一项挑战。
2022年云栖大会上,阿里云在业界首次提出了“Model as a Service”(MaaS,模型即服务)概念,并联合生态伙伴联合推出了国内首个“模型即服务”开放平台魔搭社区,汇集行业领先的预训练模型,减少开发者的重复研发成本。目前,魔搭社区已与十多家顶尖人工智能机构合作,以开源的方式提供超1600个优质模型,汇集行业和学术热门的公开数据集,以及相关专业领域数据集。
“今后AI开发的门槛会越来越低,我们希望,未来连小学生也能开发自己想要的模型,为此需要打造新的开发范式。一方面我们认为MaaS是未来人工智能发展的重要方向,如果能实践好,将促进AI产业界的大发展,另一方面,MaaS对基础设施提出了新的要求,特别是和云计算基础设施的深度融合,也带来了新的AI工具的机会。”周靖人说。
基础研究是重大原始创新、颠覆性技术、现象级产品的源泉,但同时又存在周期长、难度大、风险高等现实问题。夏睿认为,从事基础研究不能过于急功近利,OpenAI团队以追求通用人工智能为理念,不因KPI和短期利益影响和否定发展路线,持续积累创新,最终才获得ChatGPT的成功。“因此,国内需要一批有理想有情怀,心系星辰大海、梦有诗和远方的科研人员,更需要营造鼓励基础科研、保障潜心致研的科研生态和环境。”
未来,国内通用人工智能如何“绝地求生”?夏睿分析,一方面,ChatGPT是通往通用人工智能目前最可能的一条路径,但不是唯一途径。他指出,目前大模型主要基于连接主义,具有过度依赖数据、缺乏解释性、难以逻辑推理等缺点。“需要引入符号主义,发展具有可解释性的、可信和安全的人工智能。”
另一方面,大模型技术本身存在的问题需要逐个击破。夏睿举例,包括大模型涌现能力原理的揭示、大模型生成内容的事实正确性、大模型与真实物理世界的交互性、大模型的压缩与轻量化、大模型实时性学习、细分专业领域的知识获取与推理、大模型性能评估体系等。
企业根据独特行业场景训练专属ChatGPT,是ChatGPT发展的又一“未来式”。据悉,阿里将开放通义千问的能力,企业在阿里云上既可以调用通义千问的全部能力,也可以结合企业自己的行业知识和应用场景,训练自己的企业大模型、打造自己的专属ChatGPT。比如,每个企业都可以有自己的智能客服、智能导购、智能语音助手、文案助手、AI设计师、自动驾驶模型等,而阿里云将提供完备的算力和大模型基础设施,实现“个性化生长”。
新华日报·交汇点记者 程晓琳 张宣
相关文章
猜你喜欢