首页 > 事业编制招聘 > 事业编制招聘 > 9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

发布时间:2024-07-19 16:28:18来源: 15210273549

导读

一道小学生的数学题竟然难倒了全球AI大模型,只有4个大模型给出了正确答案!这究竟是怎么一回事?快来看看!

 

全球AI大模型被一道小学生数学题难倒

日前,一道来自小学生的数学题却难倒了不少海内外AI大模型,这道题的内容是“9.11和9.9哪个更大”,而仅有4个大模型给出了正确答案。

 

挑战大模型的数学推理能力

大模型的数学能力一直是短板,即便是目前最好的大模型GPT4也仍然有很大进步空间,而此前笔者在采访12位大模型时也得出了一个惊人的结论,这些大模型中仅有4个回答是正确的,而其他8个大模型却都给出了错误的答案。

 

数字切分问题与模型的理解能力

而针对大模型的数学能力,笔者曾进行过深入的采访,大部分行业人士认为大模型数学能力差的根本原因还是出在分词上,即Tokenizer(分词器)在处理数字时会出现问题,导致模型难以正确理解和计算。

 

正确答案揭晓与未来的发展方向

而这道9.11和9.9的大小比较题,12个大模型中,只有阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,其他8个大模型都认为9.11比9.9更大。

 

虽然最终4个大模型给出了正确答案,但这并不能掩饰大模型数学能力的薄弱,毕竟面对简单的大小比较题,8个大模型都给出了错误答案。

 

而对于未来大模型的发展方向,笔者也咨询了不少专家学者以及从业者,针对此前大模型的回答,不少人表示“并不意外”。

一些专家认为,未来在模型的训练数据上会越来越依赖构造型的数据,而不是直接爬取下来的数据,以提升模型的复杂推理能力。

 

因为直接爬取下来的数据中会夹杂大量的错误数据,这些错误数据会误导模型,导致模型做出错误的判断。

而构造型的数据则可以事先筛选,保证数据的准确性和可靠性,从而培养模型健康的思维方式。

事业编制招聘更多>>

金标大众起势之年,与“南北大众”做不一样的事 当AUDI点亮智能时代,奥迪E5 Sportback如何续写百年传奇? 鸿蒙智行车展全生态亮相:技术破局与生态合围 中国智能新能源汽车迎来“最强监管”! 宋Pro DM-i置换升级限时9.28万起,入门即满配! 新能源时代,谁定义了豪华的新标准? 江铃汽车与博世联合发布超级轻卡系统解决方案 MediaTek发布多款天玑汽车平台旗舰新品,定义智能座舱“芯”未来 雷克萨斯:全新一代ES全球首发、纯电、混动齐上 岚图FREE上海车展焕新登场,华为智驾加持能否冲击新能源SUV市场? 方程豹583家族齐亮相 2025上海车展豹力全开 2025年合肥师范学院高层次人才招聘公告 2025年宿州市宿马园区两站两员招聘公告 Faraday Future CES 2025亮相:FX品牌新进展,两款原型车亮相 极氪品牌第二款猎装车,极氪007GT官图发布,将于二季度上市! 全新奥迪A5旅行版实车现身 造型优雅且时尚 期待国内价格 搭载高通骁龙数字底盘 零跑B10或售13万起 全新宝马X3正式量产 计划于一季度上市 比亚迪夏部分配置曝光 将于今晚上市 车圈玩机器人,越来越靠谱了 2024年销量创新高,新能源增长超2倍,一汽奔腾为何这么猛? 特斯拉车型虽老,战力却依然拉爆 2025年,将上市的7款新车六座SUV 2024年12月国内汽车质量投诉指数分析报告 陷入低谷的大众,射出“三支箭”寻求突围 售价9.98万-13.98万元,iCAR V23成都首批车主正式交付 从红旗H5月销破两万,看2025年燃油车的发展 特斯拉2024年全球交付178.9万辆,差比亚迪很大一截 比亚迪唐L曝光,云辇C+天神之眼卖多少钱合适? 配2.0T+8AT 长安CS75 PLUS Ultra将于12月24日上市 现款售价12.19万起