禁用中国使用的ChatGPT。
中国的AI之路还很长。
在过去的一年里,当ChatGPT还没有引起轰动时,我在网上看到了一个关于国内无法开发AlphaGo的讨论。我当时对这种说法持怀疑态度,但随着时间的推移,我承认我曾过于乐观。通过深入了解ChatGPT和其他大型模型技术,结合国内的Mo、Chat GRM和文献一言等表现,我发现人工智能在不同语言之间存在明显的表达能力差距。
以GPT-4为例,这款自回归模型在英文和中文上表现出显著差异,英文的写作表达和理解更为出色。这种现象源于OpenAl的训练语料库中英文占90%以上而中文仅占0.1%。然而,令人惊讶的是,ChatGPT在中文方面也表现出不俗的能力,类似于学习英语的方式。ChatGPT在英文语境下进行知识学习,这使它能够流利地表达中文。
然而,这次人工智能技术爆发面临的挑战并非来自西方技术封锁或理论停滞,而是来自一个之前未曾预见的问题,即数据问题。人工智能的进展需要大量高质量的文本数据,然而国内互联网生态环境的恶化,导致中文网站数量减少,内容质量下降。这种问题在国外也存在,但规模更大,估计中文高质量数据仅占1%,而英文数据中高质量数据占比达5%。这种差距直接影响人工智能的表现。
解决这一问题首先需要构建一个超级中文语料库,规模要超过现有数据库,具有开放性和互通性。通过这个语料库可以为中文互联网提供高质量的知识输出,弥补数据不足,这需要国家和企业的合理规划,制定合理规范,防止垄断。只有这样才能在中文互联网中脱颖而出,保护语言文化,推动人工智能健康发展,这是一个远大的目标,需要大家共同努力。
相关文章
猜你喜欢