大型语言AI模型开发被认为是一个烧钱任务,但我国一个研究团队近日成功开发出超过千亿参数的大型语言模型(large language model,LLM),而且只花了10万美元。
一个由北京智源人工智能研究院、中国科学院、中国电子科技大学、新加坡南洋理工大学研究人员组成的研究团队近日发表其研究成果,展示了一个1,010亿个参数及0.31TB tokens的语言模型,不但只花了10万美元,而且能力不逊于明星模型,如GPT-3和GLM-130B。且开发一个更能准确评估模型智商(IQ)的方法。
研究人员说明,LLM现今大量应用在多种语言处理及多模任务,但是训练LLM成本高昂,以致于只有少数公司负担得起。使成本负担问题雪上加霜的是,现在模型愈来愈大,像Llama-1用了1到1.1TB token资料来训练,Llama-2则用到了2TB。
LLM研究另一问题是怎么评估。主流评估方法分成2类,一是知识导向的评估(knowledge-oriented evaluation),如MMLU及E-Eval标竿测试,二是NLP任务评估。
研究人员指出,这些评估方法都不够好。例如PPL虽有一定效度,但不够稳定。若如果某些评估资料集之前曾用于训练,则可能发生资料泄露(data leakage)而导致评估测试失准。研究人员也认为,知识评估不足以量测模型的智商。
为解决LLM训练成本的问题,研究团队使用成长策略(growth strategy)训练出一个1010参数的模型。
成长意谓参数在模型训练过程中,参数量不是固定的,而是由小量逐渐增长。
研究人员指出,以训练1000亿参数的模型而言,采用积极成长策略的训练方法可节省超过50%的成本。
此外,在模型变大的过程中,小模型的知识会被长大的模型继承,使大模型功能反而更好。
在其研究中,研究团队以渐进成长策略利用FreeLM为基础,开发出一个1,010亿个参数的双语(中文、英文)模型,因而取名为FLM-101B。
除了发展低成本训练方法,研究团队也发展了评估LLM智商(IQ)的新系统性标竿测试法。
新方法考量了智慧的4个面向,包括:
象征比对(symbolic mapping),意指能将知识泛化到未见过的情境;规则理解(rule understanding):能了解人类给定的规则而执行回应;样式探勘(pattern-mining):推论及归纳的能力;抗干扰(anti-interference)、不受噪音影响的能力。研究团队指称,使用主流知识导向标竿测试,以及新开发的系统IQ评估标竿测试的结果,FLM-101B效能与功能兼具。
最棒的一点是,研究团队从头打造这个千亿参数的钜大LLM只花了10万美元,也是他们已知造价最低的模型。
最后,研究团队也将这个模型的检查点、代码及相关工具全部开源出来,公开于Hugging Face平台上。
相关文章
猜你喜欢