Human as LLM
真人即大模型评估器
v2.0 · BIOLOGICAL EVALUATION PROTOCOL · LIQUID GLASS EDITION
个人信息采集模块
模型识别码
能力雷达图
● 你的能力
● GPT-4o
● Claude 3.5
● Llama 3.1 405B
架构拓扑
人类 vs 模型 对标分析
天梯排行榜
// 基于综合能力评分的全球排名(Elo系统)
| # | 模型 | 类型 | MMLU | HumanEval | MATH | 上下文 | 综合 Elo |
|---|
Human as LLM Evaluator v2.0 · Liquid Glass Edition · No GPUs were harmed · Built with 🧠 + ☕