EN

新闻资讯

News information

PA集团官网入口-ChatGPT Agent多项测试跑分破纪录 HLE测试获41.6%

2025-07-26   •PA新闻 

  【PA集团官网入口科技消息】7月18日,Open AI首席执行官Sam Altman和四位研究员在直播中正式发布了ChatGPT Agent——一款通用型AI智能体。PA集团官网入口获悉,在HLE测试中,ChatGPT agent拿下了41.6%高分,并在数学FrontierMath基准上刷新了SOTA,碾压o4-mini和o3模型。

Sam Altman(最右)及他的团队Sam Altman(最右)及他的团队

  ChatGPT Agent融合了Operator、Deep Research和ChatGPT三大模块优势,能够自主完成网页浏览、数据分析、PPT制作等复杂任务。

ChatGPT Agent在HLE测试中获得41.6%的高分,采用并行八路推理并选取置信度最高答案后可提升到44.4%。在数学基准测试FrontierMath中,以27.4%的准确率刷新了纪录。

ChatGPT Agent多项测试跑分破纪录 HLE测试获41.6%ChatGPT Agent多项测试跑分破纪录 HLE测试获41.6%

  在Excel编辑能力的SpreadsheetBench测试中,ChatGPT agent的表现同样远超现有模型。当获得直接编辑权限时,以45.5%的得分显著超越Excel Copilot的20.0%。此外,它还在Bror:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫seComp、WebArena等浏览评测里均刷新了SOTA。

ChatGPT Agent多项测试跑分破纪录 HLE测试获41.6%

  据悉,该产品已面向Pro、Plus和Team用户开放。Pro用户可以马上使用,Plus与Team用户将在数日内陆续开通,Enterprise与Education版本将于数周后接入。

-PA集团官网入口