从 关于给佬友们用的大模型投票排行榜的民意征集 继续讨论:
目前网站已经搭建完毕,马上就可以开放给大家使用了,但是我意识到一个问题。
初期方案是让大家使用1-10来对每个模型进行打分,然后我这边再根据平均数公式来排行。
那么大家肯定会给现在最好用的gpt-5.5打9分甚至10分,那么如果有gpt-5.6出现,或者更好的模型出现了呢?怎么样才能和原来的最优模型拉开差距。
对于上面的问题,我提出了以下解决方案:
- 给每个人的评分加上时效性,越久远的评分所占的权重更低
- 在用户投票新模型的时候,弹出窗口显示之前的模型投票情况,并选择是否重新投票
- 换成和arena一致的天梯模式,通过ELO算法来进行匹配,并通过用户的选择进行排行(需要数据量)
但是对于上面的三个方案,我认为都各有缺陷,想问下各位佬友股东们有什么建议吗?
7 个帖子 - 5 位参与者