怎么测试
读取每条 run 的真实产物
看板会汇总 result.json、evaluation.json 和
build-status.json,统计首字时间、总耗时、Tokens、工具报错、文件改动和最终状态。
Benchmark Dashboard
现在会先给出全局能力排名,再展示厂家分组和运行明细;页面里也直接写清楚这次 benchmark 是怎么测、怎么排的。
把测试口径和排名规则直接放到页面里,避免只看结果不知道怎么来的。
怎么测试
看板会汇总 result.json、evaluation.json 和
build-status.json,统计首字时间、总耗时、Tokens、工具报错、文件改动和最终状态。
前端验收
如果 run 目录里存在 workspace/dist/index.html,看板会继续校验资源引用是否完整,并提供本地预览入口。
严格校验
node check.mjs
这一步会重新跑构建,确认 dist/index.html 存在,再检查必须的 data-testid、六个
data-face、3D transform、层旋转、交互、非自动旋转和中文文案是否齐全。
怎么排名
未正确调用、没有产生有效实现的模型会直接排到尾部;其余模型先按严格校验、可预览和完成情况排序,同档位再按平均首字和平均耗时升序。
全局按能力排序,未正确调用会被压到最后。
| 排名 | 次数 | 厂家 | 模型 | 判定 | 完成度 | 平均首字 | 平均耗时 | 未正确调用 | 可预览 | 评语 | 操作 |
|---|
按次数、厂家、模型、状态和构建状态筛选。
仍然按厂家折叠,但厂家内模型已经改为沿用全局能力排名顺序。
每一条 run 的完整结果和预览入口,顺序会跟着能力排序走。
| 次数 | 厂家 | 模型 | 任务 | 状态 | 校验 | 完成度 | 首字 | 耗时 | Tokens | 工具 | 正确调用 | 诊断 | 预览 | 详情 |
|---|