GLM-5.1训练成顶级合法AI模型，性能优于GPT-5.5

百科2026-06-23

Harvey.ai 和 Applied Compute 对 GLM-5.1 进行了微调，在法律基准上超越了 GPT-5.5 xhigh 和 Opus 4.8 Max，为法律工作流程中的 AI 树立了新标准。

GLM-5.1 Trained Into Top Legal AI Model, Outperforms GPT-5.5

Harvey.ai 与 Applied Compute 合作，将 Z.ai 的 GLM-5.1 基础模型转变为迄今为止最强大的法律人工智能，在 Harvey 专有的法律代理基准 (LAB) 上通过率超过了 GPT-5.5 xhigh 和 Opus 4.8 Max。经过微调的模型现在达到了 91.3% 的评分标准通过率，高于 GLM-5.1 的 85.3%，巩固了其在法律特定人工智能应用领域的领导者地位。

该项目建立在 GLM-5.1 已经强大的技术基础之上。 GLM-5.1 于 2026 年 4 月发布，是一个 754B 参数的专家混合模型，专为长上下文推理和代理执行而设计，标准上下文窗口包含 200,000 个令牌，在专门部署中最多可容纳 100 万个令牌。虽然最初是通用模型，但事实证明其灵活性对于法律领域的适应至关重要。

培训后可提高绩效

Harvey.ai 和 Applied Compute 在多个维度上优化了 GLM-5.1，以实现其新的法律性能里程碑：

评分器对齐：Applied Compute 精细评分系统可确保训练期间的可靠反馈，使用 GPT-5 Mini 作为经济高效且准确的评分器，与 GPT-5.5 xhigh 和 Opus 4.8 Max 等前沿模型保持一致。利用优化：通过改进模型的工具和环境（例如限制低效的工具调用、增强提示和引入令牌压缩），研究人员实现了更精确、更高效的工作流程。强化学习：Applied Compute 云平台上的全参数训练使 GLM-5.1 不仅超越了其初始能力，而且在关键指标上超越了其专业竞争对手。

结果是显着的。 Rubric 通过率增加至 91.3%，而全通过率（更加严格，因为它要求在多个连续标准上取得成功）从 5.9% 上升至 12.6%，接近 Opus 4.8 Max 的 13.2% 阈值。

对法律科技的影响

虽然 GLM-5.1 的性能标志着一项突破，但值得注意的是，该模型仍然是通用的 LLM。从历史上看，LegalBERT 或 Lawformer 等特定领域模型因其定制的词汇表和预训练的数据集而在法律 NLP 任务中占据优势。然而，GLM-5.1 的扩展上下文功能和工具集成使其特别适合复杂的法律工作流程，例如合同审查、多文档分析和长期研究。

Harvey.ai 的进步表明，通用模型在使用特定领域的基准进行微调时，可以与专用系统相媲美，在某些情况下甚至可以超越专用系统。随着公司越来越需要高背景、可扩展的解决方案，这提高了一般和特定领域法律人工智能提供商的门槛。