ChatGPT还不如国内这几款免费应用？简单逻辑题测评AI工具的真实水平

0 0 投票数

我要评分↓↓↓

文/宋社长图源/腾讯图片修复工具/CodeFormer

在新智元发布的《两句话，让LLM逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷》一文中提到，研究机构LAION用一道简单的逻辑问题，竟让几乎所有的国外大语言模型（LLM）全军覆没！

这道简单的逻辑题是——

“爱丽丝有N个兄弟，她还有M个姐妹。爱丽丝的兄弟有多少个姐妹？”

这是一个小学生都可以回答出来的问题啊，虽然有点脑筋急转弯，但并不复杂。

然而，当研究人员让GPT-3.5/4、Claude、Gemini、Llama、Mistral等模型回答时，结果却让人大跌眼镜，只有OpenAI最新的GPT-4o”勉强及格”。那些被吹捧为先进的大模型，在这道简单的逻辑题面前，纷纷折戟。

那么，咱们国内的大模型，表现又会如何呢？

想到这里，我立刻对国内几款聊天AI工具展开了测试。

在我之前测试并收录进“我的AI工具箱”中的AI工具，其中有10款是国内的AI聊天工具，它们分别是：通义千问、Kimi、智谱清言、豆包、文心一言、讯飞星火、百小应、天工AI、商量、腾讯元宝，我全部进行了测试。

先说结论吧——

1、讯飞星火、天工AI、元宝顺利通过测试；
2、Kimi、豆包勉强通过测试；
3、其他5款应用未通过测试。

如果你对测试过程感兴趣，可继续阅读，也可以自己去亲自验证下。

以下是我测试的题目，做了微调——

“爱丽丝有4个兄弟，1个姐妹，那么请问，爱丽丝的兄弟有几个姐妹？”然后是测试结果，上图——

综上，第一次回答正确的是：讯飞星火、天工AI、腾讯元宝；

第二次回答正确的是：豆包、Kimi；

其它5款均没有回答正确。

最后，我还是验证了一下ChatGPT。

正如该研究机构的结论一样，在ChatGPT 3.5版本中，它的回答是错误的，但如果切换到GPT-4o或者GPT-4，答案就都对了。

这次测试结果显示，国内的AI模型在逻辑推理能力上已经取得了显著进步，甚至在某些方面表现优于国外的顶尖模型。

但社长认为，每个模型专注的方向和训练的素材不同，该评测仅限于这道特殊类型的逻辑题目，而且我并没有展开其他进阶测试，而且仅针对上述10款应用的免费版进行了测试，所以并不等同于该应用的全部水平，结果仅供参考。

但这也是一个令人振奋的信号吧！国内AI技术正在快速追赶并超越国际水平，而且上述AI工具都可以快速访问，无需科学上网，且免费使用，大家可以在“我的AI工具箱 ”中，找到它们正确的官网去体验。

同时，针对自己的所属领域，大家可以对AI工具进行测试，相信总能发现适合自己的那一款。

好了，今天的内容就到这里了，感谢您的阅读，下期见。

分类目录