面对现有AI基准测试的不足,研究人员正致力于设计更严格的评估方法。乔纳森·罗伯茨推出的ZeroBench,利用AI目前难以应对的视觉谜题检验多模态模型,结果所有模型均未能得分。Scale AI的EnigmaEval则以其高难度问题著称,领先模型也几乎无法解答。新兴测试如“人类的终极考验”及升级版ARC-AGI,旨在规避以往问题,如数据污染或题目过于简单,以评估AI超越记忆的能力。但AI技术的迅猛发展令这些测试迅速过时,ARC-AGI在短时间内便被超越。有观点指出,基准测试或许难以真实反映智能水平,因此出现了基于人类偏好的评价体系,如Chatbot Arena。随着ARC-AGI 3的启动,开发难以规避的评估工具成为新的竞争焦点。
Amid concerns that existing AI benchmarks are flawed or saturated, researchers are developing more rigorous tests. Jonathan Roberts’ ZeroBench challenges multimodal models with visual puzzles solvable by humans but currently impossible for AI, scoring all current models zero. Similarly, Scale AI’s EnigmaEval features brutally complex questions where top models score near zero. New benchmarks like "Humanity’s Last Exam" and updated ARC-AGI aim to avoid past pitfalls—such as training data contamination or simplistic questions—while measuring capabilities beyond memorization. However, rapid AI progress quickly outpaces these tests (e.g., ARC-AGI was surpassed within months). Critics argue benchmarks may never capture true intelligence, prompting alternatives like Chatbot Arena’s human preference rankings. The race for evasion-proof evaluations continues as ARC-AGI 3 development begins.
生成式人工智能的企业热情降温,整合难题导致42%的试点项目被弃(2023年为17%)。OpenAI的ChatGPT周用户达8亿,但企业遭遇数据隔离、人才缺口及品牌风险。微软、谷歌和Meta等巨头AI基础设施投资占收入近28%。AI在搜索、广告和物流的创新虽有进展,回报却不及成本。Gartner预计“幻灭期”延至2025年末,呼吁企业重实用轻炒作。苹果AI版Siri推迟发布,落后风险显现,欧盟与云服务巨头正推动提升AI能力协议。
2024年一项开创性研究显示,青少年在关系建议和自我表达方面越来越倾向于AI而非人类支持,而在自杀危机中,人类的联系仍然不可替代。研究人员分析了622名青少年在四种关键情境下对AI与人类反应的盲评,揭示了数字时代情感支持中的矛盾模式。
主要AI公司Anthropic、谷歌和OpenAI正通过不同的策略改变教育领域——从苏格拉底式对话系统到生态系统整合和学术联盟。他们的工具旨在增强批判性思维,同时应对学术诚信问题,伦敦政治经济学院和东北大学等机构的早期采用标志着教学法的巨大转变。这种企业与教育的融合既带来了前所未有的学习机会,也带来了AI采纳中的复杂挑战。
美国食品药品监督管理局宣布了一项历史性转变,逐步淘汰对单克隆抗体等药物的强制性动物测试,转而采用人工智能建模和基于人类细胞的替代方法。这一政策旨在加速药物审批,降低成本70-80%,并解决100多年来依赖动物的伦理问题。虽然科学家称赞提高了与人类相关的数据质量,但批评者警告在这一过渡期间人工智能预测错误和监管空白。此举标志着生物技术公司与人工智能初创企业之间日益增长的合作,正在重塑制药行业的职业生涯。
麻省理工学院与英伟达的研究人员开发出了HART(混合自回归变换器),这一混合AI模型结合了速度与精确度,能以比传统方法快9倍的速度生成高质量图像。通过将自回归框架与扩散细化相结合,这一突破性技术为自动驾驶车辆的复杂模拟及日常设备上的创意设计开辟了道路。该技术的效率为机器人技术、游戏等领域的实时应用打开了大门。