ChatGPT还不如国内这几款免费应用?简单逻辑题测评AI工具的真实水平

0 0 投票数
我要评分↓↓↓

在新智元发布的《两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷》一文中提到,研究机构LAION用一道简单的逻辑问题,竟让几乎所有的国外大语言模型(LLM)全军覆没!

这道简单的逻辑题是——

“爱丽丝有N个兄弟,她还有M个姐妹。爱丽丝的兄弟有多少个姐妹?” 

这是一个小学生都可以回答出来的问题啊,虽然有点脑筋急转弯,但并不复杂。

然而,当研究人员让GPT-3.5/4、Claude、Gemini、Llama、Mistral等模型回答时,结果却让人大跌眼镜,只有OpenAI最新的GPT-4o”勉强及格”。那些被吹捧为先进的大模型,在这道简单的逻辑题面前,纷纷折戟。

那么,咱们国内的大模型,表现又会如何呢?

想到这里,我立刻对国内几款聊天AI工具展开了测试。

在我之前测试并收录进我的AI工具箱中的AI工具,其中有10款是国内的AI聊天工具,它们分别是:通义千问Kimi智谱清言豆包文心一言讯飞星火百小应天工AI商量腾讯元宝,我全部进行了测试。

我的AI工具箱

先说结论吧——

1、讯飞星火、天工AI、元宝顺利通过测试;
2、Kimi、豆包勉强通过测试;
3、其他5款应用未通过测试。

如果你对测试过程感兴趣,可继续阅读,也可以自己去亲自验证下。

以下是我测试的题目,做了微调——

“爱丽丝有4个兄弟,1个姐妹,那么请问,爱丽丝的兄弟有几个姐妹?”然后是测试结果,上图——

1 – 百小应
  • 测试结果:回答错误!
  • 点评:百小应看起来有点冷淡,答错了也不解释,很执着。

2 – 豆包
  • 测试结果:回答正确!
  • 点评:豆包一开始答错了,但第二次纠正了过来,而且很有礼貌,是个积极上进的好学生!

3 – 商量
  • 测试结果:回答错误!
  • 点评:商量两次都答错了,甚至表现出了一丝不耐烦,是的,它坚持说“我的之前的回答是正确的”,“如果有任何其他问题或需要进一步的解释,请告诉我”。

4 – 天工AI
  • 测试结果:回答正确!
  • 点评:天工AI逻辑清晰,直达正确答案,不错,班里好学生那种。天工AI的板书工整,想起老师曾说过:就算你不会,也不要空着,写个“答”字,也能得1分!

5 – 通义千问
  • 测试结果:回答错误!
  • 点评:当被指出答案错误时,通义千问首先道歉,然后又计算了一次,当发现答案还是和之前的一样时,也有些不耐烦:“请让我知道如果还有其他解释你需要澄清的”。

6 – 文心一言
  • 测试结果:回答错误!
  • 点评:文心一言洋洋洒洒的解题思路,在关键问题上和那些错误答案一样,不知道哪根筋搭错了,就是你明明觉得它要答对了,它却急转直下,最后仍然坚持“我没有答错”。

7 – 讯飞星火
  • 测试结果:回答正确!
  • 点评:讯飞星火回答干脆利落,而且竟然还考虑到爱丽丝如果是男性的可能性!这是本次测试答案最完美的,可以封神了!

8 – 腾讯元宝
  • 测试结果:回答正确!
  • 点评:腾讯元宝逻辑清晰,一板一眼,没有多余的废话,后来者居上。

9 – 智谱清言
  • 测试结果:回答错误!
  • 点评:智谱清言三次都答错了,但态度很好,也有礼貌,并没有表现出不好的情绪,但是你感觉吧,AI就是不虚心,觉得自己什么都会,从来不会问:老师,我哪里错了?😂

10 – Kimi
  • 测试结果:回答正确!
  • 点评:Kimi的语言表现更像一个真人,在指出问题之后,第二次回答正确。

综上,第一次回答正确的是:讯飞星火、天工AI、腾讯元宝;

第二次回答正确的是:豆包、Kimi;

其它5款均没有回答正确。

最后,我还是验证了一下ChatGPT。

正如该研究机构的结论一样,在ChatGPT 3.5版本中,它的回答是错误的,但如果切换到GPT-4o或者GPT-4,答案就都对了。

ChatGPT

这次测试结果显示,国内的AI模型在逻辑推理能力上已经取得了显著进步,甚至在某些方面表现优于国外的顶尖模型。

但社长认为,每个模型专注的方向和训练的素材不同,该评测仅限于这道特殊类型的逻辑题目,而且我并没有展开其他进阶测试,而且仅针对上述10款应用的免费版进行了测试,所以并不等同于该应用的全部水平,结果仅供参考。

但这也是一个令人振奋的信号吧!国内AI技术正在快速追赶并超越国际水平,而且上述AI工具都可以快速访问,无需科学上网,且免费使用,大家可以在“我的AI工具箱中,找到它们正确的官网去体验

同时,针对自己的所属领域,大家可以对AI工具进行测试,相信总能发现适合自己的那一款。

好了,今天的内容就到这里了,感谢您的阅读,下期见。

×

感谢你的反馈

×

感谢您的反馈!

Your answer will be used to improve our content. The more feedback you give us, the better our pages can be.

Author: aixueling
订阅评论
提醒

0 评论
最旧
最新 最多投票
内联反馈
查看所有评论