OpenAI推出名为MLE-bench的新基准，用于评估AI代理开发机器学习解决方案的能力

日期：2024年10月12日下午5:42

PANews 10月12日消息，据The Decoder报道，OpenAI推出了名为MLE-bench的新基准，旨在评估AI代理在机器学习解决方案开发中的表现。该基准涵盖75项Kaggle竞赛，重点评估当前机器学习开发的挑战性任务，并将AI结果与人类表现进行比较。初步测试中，o1-preview模型与AIDE框架结合表现最佳，在16.9%的竞赛中获得铜牌，超过了Anthropic的Claude 3.5 Sonnet。通过增加尝试次数，o1-preview的成功率翻倍至34.1%。OpenAI认为，MLE-bench有助于评估核心ML工程技能，尽管它并未涵盖所有AI研究领域。

内容来源：PANews

财华网所刊载内容之知识产权为财华网及相关权利人专属所有或持有。未经许可，禁止进行转载、摘编、复制及建立镜像等任何使用。

如有意愿转载，请发邮件至content@finet.com.hk，获得书面确认及授权后，方可转载。

更多精彩内容，请登陆
财华香港网(https://www.finet.hk/)
财华智库网(https://www.finet.com.cn)

现代电视(http://www.fintv.hk)

上一篇新聞

OKX将上线X(X empire)进行现货交易，并为X提供上市前期货

下一篇新聞

安全公司：Python软件包索引中发现能窃取加密货币的恶意软件

10月12日: OKX将上线X(X empire)进行现货交易，并为X提供上市前期货
10月12日: 律所Pomerantz对Coinbase Global提起集体诉讼
10月12日: Murad 4个月前以9.8万美元购入的1025万枚SPX已升值至789万美元
10月12日: Upbit使韩国交易所开启“鱿鱼游戏”？遭垄断调查，占数字银行K Bank存款20%
10月12日: 链上风险投资平台Fission Labs完成160万美元的Pre-Seed轮融资
10月12日: 数读崛起中的Sui生态：交易笔数短时突破1亿，DeFi激增的背后社交和游戏才是底色？
10月12日: ApeCoin DAO社区拟解散四个非必要工作组的提案正在投票
10月12日: 某地址3小时前将59.56亿枚PEPE兑换为754,943枚SPX
10月12日: 神鱼借助Arkham找回旧合约地址滞留资金，感叹行业进步
10月12日: 上海人工智能生态基金正式发布，基金规模100亿元

关注我们

请输入关键字：

热门搜寻：

OpenAI推出名为MLE-bench的新基准，用于评估AI代理开发机器学习解决方案的能力

上一篇新聞

下一篇新聞

相關文章

视频

国泰强劲复苏　重建之路已完成股价逆市飙8%

【杜兰说AI】AI效率比员工还高?

利是封店进驻波斯富街 6万短租3个月租金较锐减9成

【杜兰说AI】Altman崩溃认错：当年拍脑门定价，现在ChatGPT亏大了！

比特币守得住9.7W吗？川普废除 SAB 121；美国加密监管“火力全开”；2025 Sui 超越 Solana？揭秘2025公司保命法则

快讯

请输入关键字：

热门搜寻：

OpenAI推出名为MLE-bench的新基准，用于评估AI代理开发机器学习解决方案的能力

上一篇新聞

下一篇新聞

相關文章

视频

国泰强劲复苏 重建之路已完成 股价逆市飙8%

【杜兰说AI】AI效率比员工还高?

利是封店进驻波斯富街 6万短租3个月租金较锐减9成

【杜兰说AI】Altman崩溃认错：当年拍脑门定价，现在ChatGPT亏大了！

比特币守得住9.7W吗？川普废除 SAB 121；美国加密监管“火力全开”；2025 Sui 超越 Solana？揭秘2025公司保命法则

快讯

国泰强劲复苏　重建之路已完成股价逆市飙8%