Benchmark Dashboard

模型编程能力看板

现在会先给出全局能力排名,再展示厂家分组和运行明细;页面里也直接写清楚这次 benchmark 是怎么测、怎么排的。

测试说明

把测试口径和排名规则直接放到页面里,避免只看结果不知道怎么来的。

怎么测试

读取每条 run 的真实产物

看板会汇总 result.jsonevaluation.jsonbuild-status.json,统计首字时间、总耗时、Tokens、工具报错、文件改动和最终状态。

前端验收

检查页面是否真的能预览

如果 run 目录里存在 workspace/dist/index.html,看板会继续校验资源引用是否完整,并提供本地预览入口。

严格校验

当前任务会执行 node check.mjs

这一步会重新跑构建,确认 dist/index.html 存在,再检查必须的 data-testid、六个 data-face、3D transform、层旋转、交互、非自动旋转和中文文案是否齐全。

怎么排名

先看是否有效完成,再看速度

未正确调用、没有产生有效实现的模型会直接排到尾部;其余模型先按严格校验、可预览和完成情况排序,同档位再按平均首字和平均耗时升序。

严格校验通过:evaluator 真跑完且退出码为 0 严格校验失败:evaluator 跑了,但构建或断言没有过 未严格校验:批跑时跳过 evaluator,或任务没有配置校验器

能力排名

全局按能力排序,未正确调用会被压到最后。

排名 次数 厂家 模型 判定 完成度 平均首字 平均耗时 未正确调用 可预览 评语 操作

筛选

按次数、厂家、模型、状态和构建状态筛选。

厂家汇总

仍然按厂家折叠,但厂家内模型已经改为沿用全局能力排名顺序。

运行明细

每一条 run 的完整结果和预览入口,顺序会跟着能力排序走。

次数 厂家 模型 任务 状态 校验 完成度 首字 耗时 Tokens 工具 正确调用 诊断 预览 详情