模型 | 架构类型 | 参数规模 | 上下文长度 | 分词器 |
Phi-4 | Decoder-only Transformer | 140 亿 | 4096 | tiktoken |
任务类型 | 基准测试 | Phi-4 得分 | 对比模型(示例) |
数学推理 | MATH | 高于 GPT-4o | Qwen-2.5-14B: 较低分数 |
编码 | HumanEval | 高于 Llama-3 | GPT-4o-mini: 接近分数 |
STEM 问答 | GPQA | 超越 GPT-4o | Gemini Pro: 较低分数 |
指令遵循 | IFEval | 稍弱 | Qwen-2.5-14B: 更强表现 |