哈维律师事务所发布长期法律Agent基准测试

编辑部 2026-05-07T15:30:29.185846 8498 阅读 tech

Harvey Introducing Harvey’s Legal Agent Benchmark Harvey’s Legal Agent Benchmark is an open-source benchmark built to evaluate and improve agent capab...

Harvey

Introducing Harvey’s Legal Agent Benchmark

Harvey’s Legal Agent Benchmark is an open-source benchmark built to evaluate and improve agent capabilities for supporting legal work.

我们推出 Harvey 的法律代理基准测试 (LAB)，这是一个面向法律代理的开源基准测试。LAB 旨在评估和提升代理支持律师实际工作的能力。每个任务都包含一条指令、一个包含相关材料的客户案例，以及一项要求代理提交工作成果以供审核的条件。这种结构旨在模拟大型律师事务所的工作分配、执行和审核流程。

LAB 的目标是清晰地展现如何部署智能体来支持现实世界中的法律工作。通过阐明智能体可以完成全部、部分或完全不完成哪些任务，LAB 帮助律师事务所衡量人工智能投资的回报率，以及这些投资可以在哪些方面增强团队的工作效率。
推荐阅读
宇树 G1 人形机器人在韩国佛门“受戒”：法名“迦悲”，需遵守不过度充电等戒律

推荐阅读
深圳交警在多条高速关键路段上线“龟速车”抓拍系统，车主慢驶将被记 3 分罚款 500 元

LAB 的首个版本涵盖 24 个法律实践领域的 1200 多个代理任务，并采用超过 75000 条专家编写的评估标准进行评估。我们开源 LAB，旨在为模型提供商、代理构建者、研究人员和律师事务所提供一种共享的方式来衡量长期法律代理的进展。

我们特意在LAB发布时不设排行榜，因为我们预计数据集会随着时间推移而不断更新，并且我们希望与社区合作，确保结果能够清晰直观地反映代理的表现。在接下来的几周里，我们将与研究伙伴合作，获取LAB的基准结果，并发布排行榜，以便更好地展现法律代理的现状。此外，我们还将发布提交规范化的标准，以便大家能够识别改进之处，并跟踪基准测试的进展，因为基准测试本身也会随着新任务、实践领域和知识工作学科的出现而不断发展。

github.com

GitHub - harveyai/harvey-labs: A benchmark built to evaluate and improve agent...

A benchmark built to evaluate and improve agent capabilities for supporting legal work.

4 个帖子 - 2 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

哈维律师事务所长期法律一个 AI 帖子

哈维律师事务所 发布 长期法律Agent基准测试

Introducing Harvey’s Legal Agent Benchmark

宇树 G1 人形机器人在韩国佛门“受戒”：法名“迦悲”，需遵守不过度充电等戒律

深圳交警在多条高速关键路段上线“龟速车”抓拍系统，车主慢驶将被记 3 分罚款 500 元

GitHub - harveyai/harvey-labs: A benchmark built to evaluate and improve agent...

相关推荐

哈维律师事务所发布长期法律Agent基准测试