GLM-5.1训练成顶级合法AI模型,性能优于GPT-5.5

百科2026-06-23

Harvey.ai 和 Applied Compute 对 GLM-5.1 进行了微调,在法律基准上超越了 GPT-5.5 xhigh 和 Opus 4.8 Max,为法律工作流程中的 AI 树立了新标准。

GLM-5.1 Trained Into Top Legal AI Model, Outperforms GPT-5.5

Harvey.ai 与 Applied Compute 合作,将 Z.ai 的 GLM-5.1 基础模型转变为迄今为止最强大的法律人工智能,在 Harvey 专有的法律代理基准 (LAB) 上通过率超过了 GPT-5.5 xhigh 和 Opus 4.8 Max。经过微调的模型现在达到了 91.3% 的评分标准通过率,高于 GLM-5.1 的 85.3%,巩固了其在法律特定人工智能应用领域的领导者地位。

该项目建立在 GLM-5.1 已经强大的技术基础之上。 GLM-5.1 于 2026 年 4 月发布,是一个 754B 参数的专家混合模型,专为长上下文推理和代理执行而设计,标准上下文窗口包含 200,000 个令牌,在专门部署中最多可容纳 100 万个令牌。虽然最初是通用模型,但事实证明其灵活性对于法律领域的适应至关重要。

培训后可提高绩效

Harvey.ai 和 Applied Compute 在多个维度上优化了 GLM-5.1,以实现其新的法律性能里程碑:

评分器对齐:Applied Compute 精细评分系统可确保训练期间的可靠反馈,使用 GPT-5 Mini 作为经济高效且准确的评分器,与 GPT-5.5 xhigh 和 Opus 4.8 Max 等前沿模型保持一致。 利用优化:通过改进模型的工具和环境(例如限制低效的工具调用、增强提示和引入令牌压缩),研究人员实现了更精确、更高效的工作流程。 强化学习:Applied Compute 云平台上的全参数训练使 GLM-5.1 不仅超越了其初始能力,而且在关键指标上超越了其专业竞争对手。

结果是显着的。 Rubric 通过率增加至 91.3%,而全通过率(更加严格,因为它要求在多个连续标准上取得成功)从 5.9% 上升至 12.6%,接近 Opus 4.8 Max 的 13.2% 阈值。

对法律科技的影响

虽然 GLM-5.1 的性能标志着一项突破,但值得注意的是,该模型仍然是通用的 LLM。从历史上看,LegalBERT 或 Lawformer 等特定领域模型因其定制的词汇表和预训练的数据集而在法律 NLP 任务中占据优势。然而,GLM-5.1 的扩展上下文功能和工具集成使其特别适合复杂的法律工作流程,例如合同审查、多文档分析和长期研究。

Harvey.ai 的进步表明,通用模型在使用特定领域的基准进行微调时,可以与专用系统相媲美,在某些情况下甚至可以超越专用系统。随着公司越来越需要高背景、可扩展的解决方案,这提高了一般和特定领域法律人工智能提供商的门槛。

展望未来

Harvey.ai 认为仍有改进的空间。未来的增强功能可能包括用于降低幻觉率的相关性屏蔽自蒸馏和用于优化成本质量比的代理路由器训练。这些创新可以使 GLM-5.1 在全通过率上更接近 Opus 4.8 Max,同时进一步完善其法律推理能力。

随着合法人工智能采用的加速,GLM-5.1 的成功凸显了大背景基础模型在专业领域日益增长的潜力。下一个前沿可能不是由原始参数大小定义的,而是由战略微调和域对齐定义的,正如本次合作所证明的那样。

书签
© 版权声明

相关文章