话说为什么一些测大模型前端能力的 是测3js呀
为了防止跑题: 本帖说的不是要不要测3js,而是说用3js去评估前端能力是否合理。本帖也不是否定3D前端价值,而是对评测指标的代表性有疑惑。 看到微博,b站一些up测所谓的模型前端能力,结果测试的是3js/Phaser之类的,感觉有点怪怪的,他们的评测呈现的前端能力与主流业务场景
评估 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 81 篇相关文章 · 第 1 / 5 页
为了防止跑题: 本帖说的不是要不要测3js,而是说用3js去评估前端能力是否合理。本帖也不是否定3D前端价值,而是对评测指标的代表性有疑惑。 看到微博,b站一些up测所谓的模型前端能力,结果测试的是3js/Phaser之类的,感觉有点怪怪的,他们的评测呈现的前端能力与主流业务场景
MIMO模型版本对比分析 评估维度 MIMO v2.5 MIMO v2.0 代码逻辑分析 存在逻辑遗漏,分析不够完整 分析全面,逻辑覆盖较好 需求分析能力 逻辑混乱,结构不清晰 逻辑清晰,易于理解与扩展 工具调用表现 表现一般,存在多余操作 调用流畅,无多余操作 需求扩展性 扩展
目前研一,bg是双非本2硕,之前0实习经历,目前研究方向是图像质量评估以及生成模型优化。最近想找个实习(第一篇论文快到收尾阶段了,但是老板要求做两篇,因此可能要偷偷实习,边实习边做第二篇工作),想着找个多模态的跟研究方向契合的,但是同门说多模态属于是算法的,门槛非常高,他觉得ag
具体计算过程如下 感觉最近ClaudePro额度加的有点多 理论上5h长期x2、7d限时x1.5 以前5h综合等效4-6USD(考虑缓存) 现在5h综合等效约30-40USD(考虑缓存) 一方面Claude引入了创建缓存折扣至3.125usd,另外一方面以前和现在读取缓存都是免费
大厂辞职后进入创业公司 B ,B 公司业务惨淡,技术方向找工作基本找不到了,简历评估都是 Fail ,人生好艰难,大家有什么建议嘛。
大厂辞职后进入创业公司 B ,B 公司业务惨淡,技术方向找工作基本找不到了,简历评估都是 Fail ,人生好艰难,大家有什么建议嘛。
大厂辞职后进入创业公司 B ,B 公司业务惨淡,技术方向找工作基本找不到了,简历评估都是 Fail ,人生好艰难,大家有什么建议嘛。
IT之家 5 月 18 日消息,据央视新闻今日报道,记者从海南省委网信办获悉,近日,全国首个遥感卫星数据出境安全评估在海南完成, 实现了遥感卫星数据出境“零的突破” 。 报道称,遥感卫星数据既是数字经济发展的重要数据要素,也是关系国家安全的战略性资源。长期以来,受政策多头交叉、敏
IT之家 5 月 18 日消息,博主 @数码闲聊站 今日曝光某厂子系中端新机部分规格,评论区网友推测为一加 Ace7。 据介绍,该机搭载骁龙 8E5 处理器,工程机是 6.78 英寸 1.5K 超高刷直屏,保底 185Hz,评估 240Hz。此外,该机还支持百瓦满血闪充,电池容量
IT之家 5 月 18 日消息,Ayaneo 官方上周(5 月 14 日)在 Indiegogo 众筹平台发文,解释 NEXT 2 掌机停售后,此前预售订单的具体发货安排。 Ayaneo 表示,目前供应商已经开始生产 NEXT 2 的主板、屏幕、电池及其他核心部件,按照最新安排,
去年 MathArena 发布了 MathArena Apex 和 Apex Shortlist 测试集,如今 GPT 5.5 已经解决了 Apex 测试集的最后一题。 Apex 和 Apex Shortlist 模型得分率随时间的变化 但是该测试集发布至今已有近一年的时间了,M
最近在考虑企业业务中接入模型 API,想请教一下佬们怎么评估供应商对企业供应的稳定性,以及如何设计比较稳妥的接入架构。 我现在主要关心几个问题: 供应商稳定性应该怎么评估? 除了价格和模型效果以外,企业接入时应该重点看哪些指标 可用性 平均响应时间 P95 / P99 延迟 错误
IT之家 5 月 14 日消息,科技媒体 The Information 昨日(5 月 13 日)报道,苹果公司正在内部讨论,如何在不触碰现有审核规则的前提下,让使用 AI Agent(智能体)的应用进入 App Store。 消息称开发者近年来在其 App 中大量整合 AI 元
用了一年多的 cc,也使用过了 codex、cursor 等工具,引入过 trellis 等工具 但落地的时候仍会出现代码质量不可控的情况 一方面是需求澄清的不到位,也有自己提示词写的不好的原因 结果是 cc 乱写一通 现在业内有没有方案或者案例,管理整个开发的生命周期 能打开开
感觉AI Coding比古法编程累多了 上午的一个需求排期,本来评估的5天,产品一句:“这个用AI几个小时就能生成吧”,排期当场被砍到2天。有了AI开发确实是快了,但问题也变多了。如:边界、权限、脏数据、线上兼容…最后还是得靠人来兜底。之前用cc opus4.6+codexgpt
我的观点是我们没法用被验证的东西去做验证,所谓的AI评估AI永远需要一个AI之外的标准参照物,也就是人。但一个常识性的问题是,陪审团不能是被告本人啊。而当前神经网络黑箱的状态,不是里面藏了什么,而是里面没有可被定位的东西。所有的知道都分布在无数参数的相互作用里。我们需要一套不来自
上午的一个需求排期,本来评估的 5 天,产品一句:“这个用 AI 几个小时就能生成吧”,排期当场被砍到 2 天。 有了 AI 开发确实是快了,但问题也变多了。如:边界、权限、脏数据、线上兼容...... 最后还是得靠人来兜底。 之前用 cc opus4.6 + codex gpt
上午的一个需求排期,本来评估的 5 天,产品一句:“这个用 AI 几个小时就能生成吧”,排期当场被砍到 2 天。 有了 AI 开发确实是快了,但问题也变多了。如:边界、权限、脏数据、线上兼容...... 最后还是得靠人来兜底。 之前用 cc opus4.6 + codex gpt
上午的一个需求排期,本来评估的 5 天,产品一句:“这个用 AI 几个小时就能生成吧”,排期当场被砍到 2 天。 有了 AI 开发确实是快了,但问题也变多了。如:边界、权限、脏数据、线上兼容...... 最后还是得靠人来兜底。 之前用 cc opus4.6 + codex gpt
上午的一个需求排期,本来评估的 5 天,产品一句:“这个用 AI 几个小时就能生成吧”,排期当场被砍到 2 天。 有了 AI 开发确实是快了,但问题也变多了。如:边界、权限、脏数据、线上兼容...... 最后还是得靠人来兜底。 之前用 cc opus4.6 + codex gpt