ChatGPT的横空出世,引发了大模型时代的狂潮,据不完全统计,仅在中国正式发布的大模型已超过180个。
从今年3月到11月,仅仅用了3个季度的时间,GPT-4就快速迭代到GPT-4 Turbo,更长的上下文、更强的控制、知识升级、多模态、模型微调和更高的速率限制……能力提升的速度让整个业界为之震动。
其实如果国内大模型,仍旧保持传统的创新模式,要追上GPT的创新步伐是很难的。这个局面有点像传统软件时代,闭源软件巨头具有强大的先发优势,如果沿着这条既定的路线按部就班,只会反复不断的追赶,很难超越。
所以,大模型可以走出一条开源共创之路,吸引更多开发者,以生态化的方式迭代,这不失为一个跑出更快创新加速度的方式。
11月27日,浪潮信息发布“源2.0”基础大模型,并宣布全面开源。源2.0基础大模型包括1026亿、518亿、21亿等三种参数规模的模型,在编程、推理、逻辑等方面展示出了先进的能力。这会给行业带来哪些改变?
01
在三条主赛道找到突破方向
2023年可以看做是中国大模型的元年。一年以来,AI大模型如雨后春笋般层出不穷,浪潮信息的“源”大模型、文言一心、通义千问、讯飞星火、紫东太初等一批中国大模型正在快速发展,通过更为泛化的能力和无限的想象空间,赋予了行业智能化更为普世的价值,也给了开发者群体全新的期待。
“百模大战”,成为了大模型走上市场“风口”的最佳注解,但同时也带来了新的思考,大模型到底为什么而生?要解决什么问题?什么样的大模型能够最终走到最后?
吴韶华强调说,“源2.0千亿参数大模型的开源,是完全免费、完全可商用、不需要授权、最彻底的开源。我们鼓励大家去商用,去做各种各样的应用,不需要向我们申请授权,完全自由。”
对于1026亿、518亿、21亿三种不同参数规模的模型适用性,吴韶华则表示,“不同的用户可以自由选择适合他们的模型,而不一定必须是千亿参数规模。当然最强的能力,只有通过千亿参数模型才能体现出来,比如用这个模型去做高考水平的数学题,我们发现对于非常复杂的逻辑,依然能给出正确的求解。”
与此同时,浪潮信息还在开展千亿参数模型智能优化的工作,通过专门的性能优化团队,不断提升它在推理方面的性能,并持续让模型的资源开销和延迟都达到更好的效果。
当然,开源的价值,就在于生态,在于开发者的贡献,所以浪潮信息希望和各个领域的开发者,共同快速对模型能力进行持续的迭代。为此,浪潮信息发布了开发者共训计划,在计划当中,开发者提出自己的应用或场景的需求,由浪潮信息来准备训练数据并对源大模型进行增强训练,训练后的模型依然在社区开源。
每月六日,浪潮信息会收集前一月开发者提出的具体需求,开发者需要在github开源项目的issue“源大模型共训计划”问题下提出具体需求,只需说清楚具体的应用场景、对大模型的能力需求以及1~2条示例即可。然后,经过评审后列入当月模型训练计划,训练完成后的模型在当月月末就会更新到开源社区。开发者只需要提出需求,由浪潮信息来进行数据准备、模型训练并开源。
“提升了模型能力之后,源2.0依然是反馈给开发者,这是一个真正的普惠。浪潮信息会始终聚焦在基础模型层面,专心把基础模型做好,上层应用会留给元脑生态里面的各类合作伙伴,并通过伙伴去触达真正的行业应用,落地到具体行业应用。”吴韶华说。
03
未来大模型的演进路线
虽然,不同的大模型带来了不同的演进路线,但也会遵循一些共性的原则,比如对数据质量的要求。
事实上,过去一年中,一些小模型通过质量很高的数据源来学习,所表现出来的能力超过了参数量大十倍的模型,这说明衡量大模型的价值,数据质量将会是一个重要的因素。
除此之外,还有一个有趣的话题,就是基础大模型与行业大模型的辩证关系。
吴韶华提出,“各个行业是不是需要自己的行业大模型?可以通过GTP4来寻找答案,GTP4是一个能力强大的基础大模型,它没有行业属性,目标非常明确,就是通用智能。所以,基础大模型一定是最核心的部分,对于行业场景来说,基础大模型结合行业数据和行业知识库,进而在行业中实现更高效的落地。”
在此意义上,行业大模型可以看做是基础大模型在行业里的具体应用,而核心依然是基础大模型。
所以,当基础大模型的能力达不到GPT-4的水平,去谈商业模式都是为时尚早。这也是源2.0决定走向开源的背景,以更快的迭代能力追赶GPT-4,并由生态去向行业大模型延伸。这个思路,可以说是目前国内最有机会脱颖而出的路径。
同时也是浪潮信息推出开发者共训计划,坚定地推进开源策略,以商业模式的赋能合作伙伴,触达行业应用的本质所在。
相关文章
猜你喜欢