反差 telegram 大瓜来了!Llama 4陷刷榜争议:“里面职工”发帖控诉,测评版块被指特供?

发布日期:2025-04-09 07:28    点击次数:56

反差 telegram 大瓜来了!Llama 4陷刷榜争议:“里面职工”发帖控诉,测评版块被指特供?

新瓜反差 telegram,主角是昨天刚刚发布的Meta旗舰大模子——Llama 4。

里面爆料:性能不达标,压力下欲“优化”罢休?

最初引爆酌量的是一篇来自“一亩三分地”论坛的帖子,发帖东谈主自称是参与Llama 4磨练的里面职工,并示意已因此离职。

帖子内容信息量很大,主要说了几点:

1. 性能瓶颈: 尽管团队反复奋力磨练,Llama 4的里面模子性能遥远无法达到开源SOTA(State-of-the-Art,顶尖水平)基准,差距显明。2. “弧线救国”政策: 公司辅导层建议,在磨练后期,将各式基准测试的“测试集”数据混入磨练或微调数据中。这么作念的主见很径直——在各项决议上竣事标的,交出一份“看起来很好意思”的得益单3. Deadline压力: 这个“刷分”任务有明确的时候线——4月底。淌若届时无法竣事标的,后果可能很严重4. 用户响应欠安: Llama 4发布后(帖子发布于模子刚发布时),X和Reddit上已有不少用户响应,骨子测试成果相配晦气5. 学术底线与离职: 发帖东谈主示意,我方有学术配景,无法罗致这种“为了达标而混浊测试数据”的作念法,因此提交了离职,并明确要求不要将我方的名字写入Llama 4的时刻求教6. 高管动向(帖中说起): 帖子还提到,Meta的AI副总裁(VP of AI)也因访佛原因离职。(博主注:此为帖子片面说法,需矜重折柳)

这篇帖子马上激发了圈内关切,公共齐在酌量这种作念法是否扞拒了AI研发的基本诚信

这是后续反差 telegram,真正情况还有待于不雅察

外部不雅察:TechCrunch质疑测试版块“误导性”

无罕见偶,知名科技媒体TechCrunch也发文,标题直指Meta新AI模子的性能测试“有点误导东谈主”。

TechCrunch的著作东要聚焦于Llama 4(即Maverick)在著明的东谈主类评估名次榜LM Arena上的弘扬。Maverick如实得到了第二名的好得益,但这背后似乎另有隐情:

1. 版块各异: Meta提交给LM Arena进行测试评估的Maverick版块,和公修复布给修复者使用的版块,可能不是吞并个2. 官方标注: Meta在发布公告和Llama官网上其实也提到了这少许。他们明确诠释,用于LM Arena测试的是一个“践诺性的聊天版块”,大约标注为“特地针对对话场景优化的Llama 4 Maverick”3. “为榜单优化”的问题: TechCrunch指出,固然LM Arena本人并非齐备的评测器具,但昔时AI公司时时不会(至少不公开承认)特地为了擢升榜单排名而特供一个优化版块。Meta此次的作念法,很是于针对基准测试优化了一个版块去打榜,却给修复者提供了未经很是优化的“基础版”4. 误导修复者: 这种操作会让修复者难以笔据榜单排名准确预估模子在我方骨子行使场景中的真正弘扬。基准测试固然有局限,但本应提供一个相对公谈的参考5. 举止各异: X平台上的酌量东谈主员也发现,公开下载的Maverick版块,和在LM Arena上测试的版块举止如实不同。榜单上的阿谁版块更心爱用色调象征(emoji),复兴也显明更啰嗦一些Llama 4的实测

堪称千万高下文的调回率,高下文的骨子弘扬,远低于预期

Llama 4 Maverick 在 aider 多言语编码基准测试中得分为实测仅为 16%

午夜剧场伦理片

本文起首:AI寒武纪,原文标题:《大瓜来了!Llama 4 陷刷榜争议:“里面职工”发帖控诉反差 telegram,测评版块被指特供?》

风险领导及免责条目 商场有风险,投资需严慎。本文不组成个东谈主投资建议,也未接洽到个别用户特殊的投资标的、财务情景或需要。用户应试虑本文中的任何意见、不雅点或论断是否合适其特定情景。据此投资,连累简洁。

相关资讯