L站大模型主观排行榜网站算法求助

从 关于给佬友们用的大模型投票排行榜的民意征集 继续讨论: 目前网站已经搭建完毕,马上就可以开放给大家使用了,但是我意识到一个问题。 初期方案是让大家使用1-10来对每个模型进行打分,然后我这边再根据平均数公式来排行。 那么大家肯定会给现在最好用的gpt-5.5打9分甚至10分,那么如果有gpt-5...
L站大模型主观排行榜网站算法求助
L站大模型主观排行榜网站算法求助

关于给佬友们用的大模型投票排行榜的民意征集 继续讨论:

目前网站已经搭建完毕,马上就可以开放给大家使用了,但是我意识到一个问题。
初期方案是让大家使用1-10来对每个模型进行打分,然后我这边再根据平均数公式来排行。
那么大家肯定会给现在最好用的gpt-5.5打9分甚至10分,那么如果有gpt-5.6出现,或者更好的模型出现了呢?怎么样才能和原来的最优模型拉开差距。

对于上面的问题,我提出了以下解决方案:

  1. 给每个人的评分加上时效性,越久远的评分所占的权重更低
  2. 在用户投票新模型的时候,弹出窗口显示之前的模型投票情况,并选择是否重新投票
  3. 换成和arena一致的天梯模式,通过ELO算法来进行匹配,并通过用户的选择进行排行(需要数据量)

但是对于上面的三个方案,我认为都各有缺陷,想问下各位佬友股东们有什么建议吗?

7 个帖子 - 5 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文