L站大模型主观排行榜网站算法求助
从 关于给佬友们用的大模型投票排行榜的民意征集 继续讨论: 目前网站已经搭建完毕,马上就可以开放给大家使用了,但是我意识到一个问题。 初期方案是让大家使用1-10来对每个模型进行打分,然后我这边再根据平均数公式来排行。 那么大家肯定会给现在最好用的gpt-5.5打9分甚至10分,
主观 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 16 篇相关文章
从 关于给佬友们用的大模型投票排行榜的民意征集 继续讨论: 目前网站已经搭建完毕,马上就可以开放给大家使用了,但是我意识到一个问题。 初期方案是让大家使用1-10来对每个模型进行打分,然后我这边再根据平均数公式来排行。 那么大家肯定会给现在最好用的gpt-5.5打9分甚至10分,
分享一下这几年喝精酿的感想与主观推荐 精酿首先从购买渠道开始说,除了在小红书的个人卖家(一般是稍贵的并且比较小众的酒比如贵腐或者冰酒(当然这些都不是精酿),还有一些国内没有中介商引进的酒才会在这里找),基本就是在中介商小程序(不打广告可以自己去搜一下)、快团团和淘宝(比较常见的酒
上期简单聊了一下我对esim卡的一点主观感受,也列了几张自己用过或者研究过的卡。后来想了想,其实还有几个比较关键的点没展开,尤其是硬件、号码质量、以及为什么有些卡一开始好用,后来越来越难用的这些问题。这篇就当是补充一下,都是个人折腾过程中的一点体会,不一定完全准确,欢迎佬友们指正
批量管理多个会话还是挺方便的,但是主观感觉好像CodeX App更费Token,但是感觉写的代码又不一样,又不太好测,有佬知道吗~ 6 个帖子 - 6 位参与者 阅读完整话题
叠甲:纯主观,基于个人体验。主要比较对象为cc opus4.6/4.7 与 omo 国模 因为5.3-codex就是个流口水的智商,很长一段时间都不想再碰gpt 但是最近羊毛渐少,a畜的号想要活着的期望成本过高,z畜一直看到佬友说429什么的,opencode go感觉最近智商不
IT之家 5 月 8 日消息,用 AI 搜索电视剧,结果置顶跳出来的却是电视剧的盗版网盘链接,这种情形下,搜索平台是否构成侵权呢?上海市徐汇区人民法院审结的一起案件给出了明确答案。 据央视新闻今日报道,这场侵权官司源于一家传媒公司的偶然发现:在 AI 搜索平台上输入他们的两部版权
如题,能解解馋的零食就行(不需要填饱肚子),最好咸口,想问问各位佬平时吃啥,麻烦发帖推荐下 33 个帖子 - 32 位参与者 阅读完整话题
八点时第一版 vibe ,GLM 确实是特别的慢。 十点的时候再跑的一遍,是有点小慢,但是很明显没那么慢了。 可以确定的是 GLM 确实是慢,尤其在某些时间段特别的慢。MIMO 全程都挺稳的,但是我用 MIMO vibe 到后面也是明显感觉到非常的慢,测速没看出问题,可能是上下文
上集回顾 [Qwen3.6]27B-FP8 VLLM本地部署主观个人测评 环境: WLS2 Ubuntu22.04 硬件: 4090 48G SGLang太佛系了,快一个月了还不更新正式版,需要好好挖掘pr。目前已经找到4090 48G本地部署的版本。 我测试了两个模型。以及DF
刚刚遇到的面试题,说实话我有点蒙,我理解里的提示词调优还是看主观效果,在我的实践中基本没有一个标准概念可以让我作为依据去调优提示词,所谓评测集我觉得也不够全面,向佬友们求教。 还有个问题,在做ai应用开发的时候“数据标注”指的是什么概念,大家有通过数据标注对智能体输出进行优化过吗
DeepSeek V4 大家基于体验可以给个投票 DeepSeek V4 体验效果投票 DeepSeek V4 体验效果投票 夯 顶级 人上人 NPC 拉完了 我先看看 点击以查看投票。 4 个帖子 - 3 位参与者 阅读完整话题
想跟大家聊聊不同 AI 模型在中文输出上的现状,纯主观使用体验,不算严谨测评。 我先抛砖引玉,说一下最近用下来比较明显的感受。 OpenAI 1. GPT-5.4 作为代码执行者确实挺强,写代码、跑任务、改工程问题都还可以。 但是一到中文文档、任务总结、说明文字,它就开始有点抽风
硬件配置 组件 规格 CPU Intel i5-13600K GPU RTX 4090 48G + RTX 4070Ti 12G 内存 DDR4-3600 128G (4x32G) 主板 华硕 Z690-P D4 系统 Windows 11 LTSC WSL Ubuntu 22.
第二篇 十天干 一、天干的定位 天干主显象。也就是说,它是外面看得见的那一层。 它代表: 外部表现; 主观动作; 被看见的能力; 已经浮出水面的特性。 同样都是一个五行,透在天干,还是藏在地支,完全不是一回事。 透干,往往就意味着: 更容易被看见; 更容易变成命主显性的行为方式。
主观测试,仅供参考: Claude测试样例非常少,可能不太准确。 Prompt演示: 6 个帖子 - 4 位参与者 阅读完整话题
文|周鑫雨 资料整理|钟楚笛 编辑|苏建勋 杨轩 靴子终于落地。 被调侃“Next Week”近3个月的DeepSeek V4,终于显露真身。 1.6T的最大参数量、1M的上下文窗口、针对Agent的性能优化,以及基于MoE(混合专家模型)和稀疏注意力机制DSA,降低计算和显存需