到GLM5.1水平了? - Gemini 3.5 Flash 编程工程评测成绩(Nao佬)
扣分榜,扣的越少越好:“工程扣分/使用体感(A~D)” (Claude模型没开推理仅供参考) 榜单网站: LLM Benchmark Dashboard 6 个帖子 - 6 位参与者 阅读完整话题
成绩 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 33 篇相关文章 · 第 1 / 2 页
扣分榜,扣的越少越好:“工程扣分/使用体感(A~D)” (Claude模型没开推理仅供参考) 榜单网站: LLM Benchmark Dashboard 6 个帖子 - 6 位参与者 阅读完整话题
虽然我今天上午考了选择题就跑了。 3 个帖子 - 2 位参与者 阅读完整话题
Toyama Nao的榜单上,gemini 3.5 flash逻辑成绩已出,非常亮眼。 极限成绩接近deepseek V4 Pro (max),中位成绩仅次于 gpt-5.5(xhigh) 和 opus 4.6(think)。 同样成本也大幅上涨,和Gemini 3.1 pro相
【SNSE Bench】目前进度 / 预告帖 开发调优 个人维护的基于算法竞赛题目的微型 LLM Benchmark。 前情提要: 注意:尽管都是编程相关,算法竞赛题目所需的能力与软件工程 / Coding Agent 并不完全重合。模型在 SNSE Bench 中的表现与其软件
哈佛大学超过三分之二的教师投票通过对本科课程A等成绩比例设限,这将是美国高等教育体系数十年来打击“成绩膨胀”的最严厉措施之一。从2027年秋季开始,每个班级不超过20%,外加四名学生,可以获得A;在周二结束的为期一周的电子投票中,近70%的票数支持该政策。 提出该政策的教师小组共
IT之家 5 月 20 日消息,在下月苹果年度开发者大会召开前夕,苹果分享了一份最新报告,介绍了 App Store 如何依托多重防护机制,同时服务广大用户与开发者群体。 苹果详细阐述了其为防范各类侵害行为、保障用户及开发者权益所采取的各项措施。官方称,App Store 早已成
答辩成绩好到离谱( 感觉还没有课设的答辩强度高 答辩前一晚紧张到凌晨三点才睡着 到了现场发现大多数都是奇奇怪怪的CRUD系统悬着的心就放下来了 剧透 被纠正的致谢 (点击了解更多详细信息) 本科生涯还有半个月就真的要结束惹 过得好快 感觉大一的时候第一次用ChatGPT就像在昨天
过去二十四个小时,API请求量为73.11K,其中成功响应72.66K,可用性达到了99.38%! 缓存命中次数也达到了4.13K,缓存率达到了5.6%,创历史新高! 当然,这一切都离不开大家的共同努力。不管是请求的ASN、源IP的国家,还是边缘数据中心的均衡分布,都是DeepL
请教下佬们,今年弟弟就要参加高考了,成绩在1本线左右,不知道未来选择什么专业比较好,很纠结 最好能够推荐下专业 23 个帖子 - 18 位参与者 阅读完整话题
比如成绩几号公布,提前一天爬,也是违法嘛?考试院的,已结束,幸亏我没干吓死了 5 个帖子 - 4 位参与者 阅读完整话题
研究称禁用手机并没有提高美国学生的考试成绩 - IT之家 1 个帖子 - 1 位参与者 阅读完整话题
IT之家 5 月 5 日消息,根据最近发表的一项研究,课堂中禁止使用智能手机可能并非美国政府和学校管理者所期望的万能药。 据《纽约时报》5 月 4 日报道,美国国家经济研究局发表的一项研究显示, 手机禁令对考试成绩的影响“始终接近于零” 。 图源:Pexels 这项研究抽样了 2
本猫高中时的班主任姓李,我们叫他李氏罢。李氏是很虔诚的社会达尔文主义者,对学生的成绩很看重,他曾说: “教育部说了:高考是跨越阶层的唯一途径。这话我当年就跟学生讲,不知道是不是教育部抄袭我的格言。” 我拼命做题,很难说不是受到他的洗脑。 现在我是一事无成的,但是偶尔还是心平气和地
IT之家 4 月 30 日消息,和往常一样,极石汽车今日率先公布了 2026 年 4 月成绩单 —— 共计交付 2035 台 新车, 销量同比劲增 80.4%,月交付量破 2000 台。 IT之家查询获悉,极石汽车 2026 年 1 月交付 1028 辆,2026 年 2 月交付
手机端刷到的,排版不方便截图见谅 省流:Deepseek V4 Pro 总分73.58,大致相当于GPT 5.3 Codex High,Deepseek V4 Flash 67.25分,大致相当于Claude 4.5 Sonnet Thinking livebench.ai Li
等一会看看Pro的成绩,不过我感觉应该不会很惊艳 15 个帖子 - 11 位参与者 阅读完整话题