【开源自荐】Vibebench - 一个AI外行消费者做的LLM前端横评展示项目(Claude/GPT/Gemini/GLM/Kimi/Qwen/Minimax/Mimo...SOTA模型大乱斗)

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社...
【开源自荐】Vibebench - 一个AI外行消费者做的LLM前端横评展示项目(Claude/GPT/Gemini/GLM/Kimi/Qwen/Minimax/Mimo...SOTA模型大乱斗)
开源自荐】Vibebench - 一个AI外行消费者做的LLM前端横评展示项目(Claude/GPT/Gemini/GLM/Kimi/Qwen/Minimax/Mimo...SOTA模型大乱斗)
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
  • 我的帖子已经打上 开源推广 标签:
  • 我的开源项目完整开源,无未开源部分:
  • 我的开源项目已链接认可 LINUX DO 社区:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


嗯,大概两个月前,我开启了这个项目

github.com

GitHub - kirenath/vibebench: AI Vibe Coding横评展示平台 — Same challenge, different...

AI Vibe Coding横评展示平台 — Same challenge, different models, side-by-side comparison. No scores, just vibes ✨

简单来说,就是让不同渠道的不同模型,做相同的赛题,然后展示出来

目前的成果:

vibebench.app

VibeBench — AI Vibe Coding 横向展示平台

同一道前端题,不同 AI 各展风格。浏览、对比、分享不同模型的前端作品。

image

For Whom?

市面上的benchmark,其实更多的是面向AI的研究者,面向AI的厂商,面向媒体KOL,面向股价,而非消费者

所以vibebench的manifesto是:

  1. 真实渠道,测试AI在不同渠道的表现
    消费者不止调用API,消费者用手机APP,用AI IDE,用AI CLI,用Web Chat
    消费者的渠道不止正价官方API,还有集合渠道和逆向中转

  2. 完全透明,没有打分,只有展示与对比,唯一的评判标准是消费者的看法
    所有题目的提示词公开,任何人都可以尝试复现。
    所有的作品公开,没有黑盒评分。

  3. 一次定生死(One Shot测试)
    没有pass@10,没有Best of N

  4. 消费者视角
    把评判权交还给消费者,并列展示同一道题目的所有作品,提供匿名横评功能和直接对比功能

WHY HTML?

HTML是AI能力的金丝雀测试(canary test),AI的训练数据中HTML的内容不计其数,假设某个AI,HTML写的很好,那么想要直接推断出AI的全方位能力很强,那么并不科学,就像矿坑中的金丝雀,假设金丝雀存活,并不直接代表矿坑安全,但是假设某个AI,HTML写的很差,那么就像矿坑中的金丝雀直接死亡,说明矿坑非常危险,那么就有必要质疑AI的代码能力。

或许有人会觉得,写HTML不好,不代表代码能力很差,那么问题来了,AI被厂商训练并被宣传成“通才”,假设写HTML的水平都很差,那么有必要质疑通才的含金量

还有HTML本身的优势:

零门槛验证,不需要编译,只要打开浏览器,就能观察结果(有些作品引用了外部CDN,此时需要联网);
考察综合能力,HTML中同时检验了css/js/算法等内容;
难度可调整,从简单的AI自我介绍的静态页面,到3D渲染的页面,有足够低的起点和足够高的天花板。


开源一共分为两个部分,首先是框架本身:

image

image

其次是赛题,同样基于AGPL-3.0开源,使用、转载、分享请署名原作者。


那么究竟有什么赛题?

工具类:base64转码、简单的密钥生成、时钟工具箱、cron翻译器、RGB渐变调色板……
视觉类:滚动叙事、无尽DOM套娃、字体博物馆、苹果风首页、人生选择地图……
游戏类:21点、24点、打地鼠、吃豆人、俄罗斯方块、打砖块、2048、贪吃蛇……
算法类:迷宫生成与求解、模拟万花尺、模拟高尔顿板、排序算法可视化……
复刻类:Amazoom、Readit、Spotifly、Epoch 游戏商城……

赛题数量?

目前已经上传并公开的有120道大赛题,每个赛题分为独立的phase,共260+phase,phase包括简单提示词、复杂提示词、增加design system、PRD驱动等,除非特别标注,否则不同的phase之间互相独立,无上下文关联

缺陷?

One Shot,模型输出具有不稳定性;
HTML,对于其他编程语言的代表性有限;
多种渠道,不同模型的表现不同;
作者本人能力有限,赛题本身可能就有缺陷

致谢

感谢 @ocean-zhc 佬友授权,一开始的项目来源于用mimo v2 pro free 搞一个好玩的东西
后来慢慢扩展成vibebench
感谢 @yeahhe 佬友授权,有几道赛题来自https://linux.do/t/topic/286836 的前端生成题库,例如转盘题、天气卡片
感谢 @kingd 佬友帮助,帮忙做了Opus 4.8的一部分赛题
感谢L站,我的非常多渠道都是通过L站得知,L站极大地减少了AI时代的信息差

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文