疯了疯了,大语言模型又迎来一位参赛选手,它便是阿里巴巴版本的 GPT —— 通义千问。
通义千问,写了一大堆,但最终没能写完整个代码,我们尝试让它继续也没能成功。文心一言的结果也差不了太多,就实现了个按钮。。但是 ChatGPT 非常优雅地实现了这个功能。
看来国内的不管是通义还是文心,在代码这块都远远逊色于 ChatGPT。
测完了代码我们又尝试测了一下 3 个AI 的数学能力,用的还是经典问题“ 青蛙跳井 ”。
通义千问直愣愣地掉进了我们挖的坑。ChatGPT 好像识别了这个陷阱,但搞混了几个数字,最终还是做错了。而文心一言,简洁明了一个公式就答对了问题。看到这里,大家估计对通义也有个大概的了解了。
新比赛我们让目前在 AI 赛道的领头羊 GPT-4 出面,让它决定哪些维度最能衡量模型好坏,该怎么出题、怎么打分都让它来。
简单说就是让 GPT-4 当出卷人、阅卷人,通义千问和文心一言当考生
(下文大 G 指 GPT-4, 小通指通义千问,小文指文心一言)。
至于 ChatGPT,由于它作为大 G 的关系户,为了保证考试公平公正,直接被红牌罚出场。不得不说,大 G 的出题水平还是相当高的。
除了测试的第 6 题,凭空捏造了个“ 人工智能伦理问题的论文 ”外,几乎找不到什么问题。
下面节选了几个有代表性的问答( 左滑显示小文 ):
说实在的,虽然在经过了几波 GPT 们的冲击,这次通义千问还是给我带来了不少惊喜的。
而且,我们简单用了一段时间后也发现,目前通义千问的潜力显然没有被挖掘完全。
在很多没有展示的测试里,通义千问在第一次回答里是错误的,可如果你多尝试生成两次,就能奇妙地发现它是能回答正确的。
我们猜测这是它的权重并没有被调教好,而在关于正确答案的赋权上,是个非常快速就能迭代更新的,一旦不断迭代量变,很快就能引起质变。
所以等后期通义千问开放使用后,大家一定不要吝啬点赞反对,这能帮助 GPT 们更快地进化,更好地服务大众。
而在 AI 大模型的落地上,阿里似乎有种后发先至的势头。
不少差友们可能已经看到了,前几天,我们已经评测过通义千问轻量版在天猫精灵上的演示应用,虽然是一个定制化轻量版,但可能是因为多了联网,两者使用起来几乎一样。
更强的是例如我让它推荐杭州的美食,它不仅和我认真地聊了起来,甚至还真的想要帮我去订一个外卖。。。
这么看起来,我几乎已经能看见通义千问重塑我们生活的样子了。
这两天,通义千问背后的负责人,阿里云智能CTO周靖人接受采访时说,通义千问模型只是“ 一个中间态 ”,“ 不是起点也不是终点,是个既定路线上的节点。”
这想象空间就太大了。假如再把格局打开一点,AI 借助像水电一样的云计算,会不会把我们想到想不到的行业,都重新升级一遍呢?
这么看来,前段时间我们聊过的组织架构大调整,现在想想,怕不就是为了云服务和 AI 布局?
站在这个历史性的时刻上,虽然我看不清未来到底是什么样子,但我很期待它的到来。
相关文章
猜你喜欢