请输入关键字:

热门搜寻:

OpenAI推出名为MLE-bench的新基准,用于评估AI代理开发机器学习解决方案的能力

日期:2024年10月12日 下午5:42

PANews 10月12日消息,据The Decoder报道,OpenAI推出了名为MLE-bench的新基准,旨在评估AI代理在机器学习解决方案开发中的表现。该基准涵盖75项Kaggle竞赛,重点评估当前机器学习开发的挑战性任务,并将AI结果与人类表现进行比较。初步测试中,o1-preview模型与AIDE框架结合表现最佳,在16.9%的竞赛中获得铜牌,超过了Anthropic的Claude 3.5 Sonnet。通过增加尝试次数,o1-preview的成功率翻倍至34.1%。OpenAI认为,MLE-bench有助于评估核心ML工程技能,尽管它并未涵盖所有AI研究领域。

内容来源:PANews

财华网所刊载内容之知识产权为财华网及相关权利人专属所有或持有。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。

如有意愿转载,请发邮件至content@finet.com.hk,获得书面确认及授权后,方可转载。

更多精彩内容,请登陆
财华香港网(https://www.finet.hk/)
财华智库网(https://www.finet.com.cn)

现代电视(http://www.fintv.hk)

相關文章

10月12日
OKX将上线X(X empire)进行现货交易,并为X提供上市前期货
10月12日
律所Pomerantz对Coinbase Global提起集体诉讼
10月12日
Murad 4个月前以9.8万美元购入的1025万枚SPX已升值至789万美元
10月12日
Upbit使韩国交易所开启“鱿鱼游戏”?遭垄断调查,占数字银行K Bank存款20%
10月12日
链上风险投资平台Fission Labs完成160万美元的Pre-Seed轮融资
10月12日
数读崛起中的Sui生态:交易笔数短时突破1亿,DeFi激增的背后社交和游戏才是底色?
10月12日
ApeCoin DAO社区拟解散四个非必要工作组的提案正在投票
10月12日
某地址3小时前将59.56亿枚PEPE兑换为754,943枚SPX
10月12日
神鱼借助Arkham找回旧合约地址滞留资金,感叹行业进步
10月12日
上海人工智能生态基金正式发布,基金规模100亿元

视频

快讯

13:07
中国海外宏洋(00081.HK)前九个月经营溢利14.5亿元 同比下跌66.2%
13:03
石四药集团(02005.HK)两款药物通过国家药监局一致性评价
11:54
午间公告:雪榕生物董事长、总经理解除留置
11:34
中国股市9月劲扬 带动亚洲对冲基金今年前三季表现超越全球同行
11:15
【异动股】半导体板块拉升,华岭股份(430139.CN)涨29.98%
11:15
【异动股】AI芯片板块拉升,利尔达(832149.CN)涨29.89%
11:09
陈茂波:香港具有构建国际黄金交易中心的潜力
10:57
主力资金监控:拓维信息净买入超11亿元
10:39
李家超:研究推出离岸国债期货
10:29
国家发改委:加强新技术、新材料、新工艺、新方法在人民防空中的应用