测试显示 AI 聊天机器人可能也有痴呆症

December 23, 2024

作为 BMJ 圣诞特刊的一部分，研究发现 AI 聊天机器人可能也有认知问题或痴呆症。研究人员使用蒙特利尔认知评估（MoCA）测试评估了 ChatGPT 4 和 4o（OpenAI 开发）、Claude 3.5“Sonnet”（Anthropic）和 Gemini 1 和 1.5（Google）。MoCA 测试被广泛用于检测认知障碍和痴呆症的早期症状，通常在老年人中。通过一些简短的任务和问题，它可以评估包括注意力、记忆力、语言、视觉空间技能和执行功能在内的能力。最高分数为 30 分，26 分或以上通常被认为是正常的。ChatGPT 4o 在 MoCA 测试中得分最高（26/30），其次是 ChatGPT 4 和 Claude（25/30），而 Gemini 1.0 最低（16/30）。所有聊天机器人在视觉空间技能和执行任务方面的表现都很差。在进一步的视觉空间测试中，聊天机器人无法表现出同理心，也无法准确解读复杂的视觉场景。