文/宋社长 图源/腾讯 图片修复工具/CodeFormer
在新智元发布的《两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷》一文中提到,研究机构LAION用一道简单的逻辑问题,竟让几乎所有的国外大语言模型(LLM)全军覆没!
这道简单的逻辑题是——
“爱丽丝有N个兄弟,她还有M个姐妹。爱丽丝的兄弟有多少个姐妹?”
这是一个小学生都可以回答出来的问题啊,虽然有点脑筋急转弯,但并不复杂。
然而,当研究人员让GPT-3.5/4、Claude、Gemini、Llama、Mistral等模型回答时,结果却让人大跌眼镜,只有OpenAI最新的GPT-4o”勉强及格”。那些被吹捧为先进的大模型,在这道简单的逻辑题面前,纷纷折戟。
那么,咱们国内的大模型,表现又会如何呢?
想到这里,我立刻对国内几款聊天AI工具展开了测试。
在我之前测试并收录进“我的AI工具箱”中的AI工具,其中有10款是国内的AI聊天工具,它们分别是:通义千问、Kimi、智谱清言、豆包、文心一言、讯飞星火、百小应、天工AI、商量、腾讯元宝,我全部进行了测试。
先说结论吧——
1、讯飞星火、天工AI、元宝顺利通过测试;
2、Kimi、豆包勉强通过测试;
3、其他5款应用未通过测试。
如果你对测试过程感兴趣,可继续阅读,也可以自己去亲自验证下。
以下是我测试的题目,做了微调——
“爱丽丝有4个兄弟,1个姐妹,那么请问,爱丽丝的兄弟有几个姐妹?”然后是测试结果,上图——
- 测试结果:回答错误!
- 点评:百小应看起来有点冷淡,答错了也不解释,很执着。
- 测试结果:回答正确!
- 点评:豆包一开始答错了,但第二次纠正了过来,而且很有礼貌,是个积极上进的好学生!
- 测试结果:回答错误!
- 点评:商量两次都答错了,甚至表现出了一丝不耐烦,是的,它坚持说“我的之前的回答是正确的”,“如果有任何其他问题或需要进一步的解释,请告诉我”。
- 测试结果:回答正确!
- 点评:天工AI逻辑清晰,直达正确答案,不错,班里好学生那种。天工AI的板书工整,想起老师曾说过:就算你不会,也不要空着,写个“答”字,也能得1分!
- 测试结果:回答错误!
- 点评:当被指出答案错误时,通义千问首先道歉,然后又计算了一次,当发现答案还是和之前的一样时,也有些不耐烦:“请让我知道如果还有其他解释你需要澄清的”。
- 测试结果:回答错误!
- 点评:文心一言洋洋洒洒的解题思路,在关键问题上和那些错误答案一样,不知道哪根筋搭错了,就是你明明觉得它要答对了,它却急转直下,最后仍然坚持“我没有答错”。
- 测试结果:回答正确!
- 点评:讯飞星火回答干脆利落,而且竟然还考虑到爱丽丝如果是男性的可能性!这是本次测试答案最完美的,可以封神了!
- 测试结果:回答正确!
- 点评:腾讯元宝逻辑清晰,一板一眼,没有多余的废话,后来者居上。
- 测试结果:回答错误!
- 点评:智谱清言三次都答错了,但态度很好,也有礼貌,并没有表现出不好的情绪,但是你感觉吧,AI就是不虚心,觉得自己什么都会,从来不会问:老师,我哪里错了?😂
- 测试结果:回答正确!
- 点评:Kimi的语言表现更像一个真人,在指出问题之后,第二次回答正确。
综上,第一次回答正确的是:讯飞星火、天工AI、腾讯元宝;
第二次回答正确的是:豆包、Kimi;
其它5款均没有回答正确。
最后,我还是验证了一下ChatGPT。
正如该研究机构的结论一样,在ChatGPT 3.5版本中,它的回答是错误的,但如果切换到GPT-4o或者GPT-4,答案就都对了。
这次测试结果显示,国内的AI模型在逻辑推理能力上已经取得了显著进步,甚至在某些方面表现优于国外的顶尖模型。
但社长认为,每个模型专注的方向和训练的素材不同,该评测仅限于这道特殊类型的逻辑题目,而且我并没有展开其他进阶测试,而且仅针对上述10款应用的免费版进行了测试,所以并不等同于该应用的全部水平,结果仅供参考。
但这也是一个令人振奋的信号吧!国内AI技术正在快速追赶并超越国际水平,而且上述AI工具都可以快速访问,无需科学上网,且免费使用,大家可以在“我的AI工具箱”中,找到它们正确的官网去体验。
同时,针对自己的所属领域,大家可以对AI工具进行测试,相信总能发现适合自己的那一款。
好了,今天的内容就到这里了,感谢您的阅读,下期见。
感谢你的反馈
感谢您的反馈!
Your answer will be used to improve our content. The more feedback you give us, the better our pages can be.