Human as LLM · 真人即大模型评估器 v2.0

👁️ 注意力测试

屏幕将快速闪现 5 个颜色方块，请记住它们的顺序！

📐 上下文长度测试

记住显示的数字串，测试你的即时记忆广度！

知识能力测试

个人信息采集模块

模型代号 (姓名)

数据截止日期 (年龄)

模型变体 (性别)

微调方向 (职业)

有监督微调 (教育年限)

专业领域

模型识别码

能力雷达图

● 你的能力 ● GPT-4o ● Claude 3.5 ● Llama 3.1 405B

架构拓扑

人类 vs 模型对标分析

天梯排行榜

// 基于综合能力评分的全球排名（Elo系统）

#	模型	类型	MMLU	HumanEval	MATH	上下文	综合 Elo

Human as LLM Evaluator v2.0 · Liquid Glass Edition · No GPUs were harmed · Built with 🧠 + ☕