有什么比较权威公正的平台测评大模型能力?

现在大模型跑分有可能是被注水的,也就是提前只针对题库特别训练或者搞一些特调的模型去跑分刷榜,也有各种野榜或者是那种商业平台刷榜花钱定制冠军,让人难以分辨,有没有公认比较公正无商业化的测评平台 4 个帖子 - 4 位参与者 阅读完整话题...
有什么比较权威公正的平台测评大模型能力?
有什么比较权威公正的平台测评大模型能力?

现在大模型跑分有可能是被注水的,也就是提前只针对题库特别训练或者搞一些特调的模型去跑分刷榜,也有各种野榜或者是那种商业平台刷榜花钱定制冠军,让人难以分辨,有没有公认比较公正无商业化的测评平台

4 个帖子 - 4 位参与者

阅读完整话题

来源: linux.do查看原文