哈维律师事务所 发布 长期法律Agent基准测试

Harvey Introducing Harvey’s Legal Agent Benchmark Harvey’s Legal Agent Benchmark is an open-source benchmark built to evaluate and improve agent capab...
哈维律师事务所 发布 长期法律Agent基准测试
哈维律师事务所 发布 长期法律Agent基准测试
Harvey

Introducing Harvey’s Legal Agent Benchmark

Harvey’s Legal Agent Benchmark is an open-source benchmark built to evaluate and improve agent capabilities for supporting legal work.

我们推出 Harvey 的法律代理基准测试 (LAB),这是一个面向法律代理的开源基准测试。LAB 旨在评估和提升代理支持律师实际工作的能力。每个任务都包含一条指令、一个包含相关材料的客户案例,以及一项要求代理提交工作成果以供审核的条件。这种结构旨在模拟大型律师事务所的工作分配、执行和审核流程。

LAB 的目标是清晰地展现如何部署智能体来支持现实世界中的法律工作。通过阐明智能体可以完成全部、部分或完全不完成哪些任务,LAB 帮助律师事务所衡量人工智能投资的回报率,以及这些投资可以在哪些方面增强团队的工作效率。

LAB 的首个版本涵盖 24 个法律实践领域的 1200 多个代理任务,并采用超过 75000 条专家编写的评估标准进行评估。我们开源 LAB,旨在为模型提供商、代理构建者、研究人员和律师事务所提供一种共享的方式来衡量长期法律代理的进展。

我们特意在LAB发布时不设排行榜,因为我们预计数据集会随着时间推移而不断更新,并且我们希望与社区合作,确保结果能够清晰直观地反映代理的表现。在接下来的几周里,我们将与研究伙伴合作,获取LAB的基准结果,并发布排行榜,以便更好地展现法律代理的现状。此外,我们还将发布提交规范化的标准,以便大家能够识别改进之处,并跟踪基准测试的进展,因为基准测试本身也会随着新任务、实践领域和知识工作学科的出现而不断发展。

github.com

GitHub - harveyai/harvey-labs: A benchmark built to evaluate and improve agent...

A benchmark built to evaluate and improve agent capabilities for supporting legal work.

4 个帖子 - 2 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文