> 自媒体 > (AI)人工智能 > 阿里大模型敢对标GPT-3.5?我们让GPT-4给它上了点强度
阿里大模型敢对标GPT-3.5?我们让GPT-4给它上了点强度
来源:差评
2023-05-03 18:43:01
413
管理

疯了疯了,大语言模型又迎来一位参赛选手,它便是阿里巴巴版本的 GPT —— 通义千问。

通义千问,写了一大堆,但最终没能写完整个代码,我们尝试让它继续也没能成功。文心一言的结果也差不了太多,就实现了个按钮。。但是 ChatGPT 非常优雅地实现了这个功能。

看来国内的不管是通义还是文心,在代码这块都远远逊色于 ChatGPT。

测完了代码我们又尝试测了一下 3 个AI 的数学能力,用的还是经典问题“ 青蛙跳井 ”。

通义千问直愣愣地掉进了我们挖的坑。ChatGPT 好像识别了这个陷阱,但搞混了几个数字,最终还是做错了。而文心一言,简洁明了一个公式就答对了问题。看到这里,大家估计对通义也有个大概的了解了。

新比赛我们让目前在 AI 赛道的领头羊 GPT-4 出面,让它决定哪些维度最能衡量模型好坏,该怎么出题、怎么打分都让它来。

简单说就是让 GPT-4 当出卷人、阅卷人,通义千问和文心一言当考生

(下文大 G 指 GPT-4, 小通指通义千问,小文指文心一言)。

至于 ChatGPT,由于它作为大 G 的关系户,为了保证考试公平公正,直接被红牌罚出场。不得不说,大 G 的出题水平还是相当高的。

除了测试的第 6 题,凭空捏造了个“ 人工智能伦理问题的论文 ”外,几乎找不到什么问题。

下面节选了几个有代表性的问答( 左滑显示小文 ):

说实在的,虽然在经过了几波 GPT 们的冲击,这次通义千问还是给我带来了不少惊喜的。

而且,我们简单用了一段时间后也发现,目前通义千问的潜力显然没有被挖掘完全。

在很多没有展示的测试里,通义千问在第一次回答里是错误的,可如果你多尝试生成两次,就能奇妙地发现它是能回答正确的。

我们猜测这是它的权重并没有被调教好,而在关于正确答案的赋权上,是个非常快速就能迭代更新的,一旦不断迭代量变,很快就能引起质变。

所以等后期通义千问开放使用后,大家一定不要吝啬点赞反对,这能帮助 GPT 们更快地进化,更好地服务大众。

而在 AI 大模型的落地上,阿里似乎有种后发先至的势头。

不少差友们可能已经看到了,前几天,我们已经评测过通义千问轻量版在天猫精灵上的演示应用,虽然是一个定制化轻量版,但可能是因为多了联网,两者使用起来几乎一样。

更强的是例如我让它推荐杭州的美食,它不仅和我认真地聊了起来,甚至还真的想要帮我去订一个外卖。。。

这么看起来,我几乎已经能看见通义千问重塑我们生活的样子了。

这两天,通义千问背后的负责人,阿里云智能CTO周靖人接受采访时说,通义千问模型只是“ 一个中间态 ”,“ 不是起点也不是终点,是个既定路线上的节点。”

这想象空间就太大了。假如再把格局打开一点,AI 借助像水电一样的云计算,会不会把我们想到想不到的行业,都重新升级一遍呢?

这么看来,前段时间我们聊过的组织架构大调整,现在想想,怕不就是为了云服务和 AI 布局?

站在这个历史性的时刻上,虽然我看不清未来到底是什么样子,但我很期待它的到来。

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
仓莫以北(普通会员)
文章
417
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成186784 电子证书796 电子名片49 自媒体20815

@2022 All Rights Reserved 浙ICP备19035174号-7
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索