推理 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技

DeepSeek半夜更新检查点

据传昨天半夜DeepSeek v4pro更新了检查点，我也聊了一两条，一上手就意识到对话的活人感强了不少，但太困了没跑推理测试之类的。起来翻了下帖子好像没人提这个，有佬友正经测试过不？ 5 个帖子 - 3 位参与者阅读完整话题

tech LinuxDo 最新话题 2026-05-23 06:42:27+08:00

OpenAI的内部模型这么厉害了吗

OpenAI宣称其内部推理模型成功解决 Erdős Unit Distance Problem 和一个Nesterov加速收敛问题. 作为一个数学偏微分方向的学生,真让人感叹又焦虑我是23年GPT开放使用的那会就一开始就在使用了,那时候包括在或许很多的大模型数学能力测试中表现都

tech LinuxDo 最新话题 2026-05-23 01:03:21+08:00

联想集团董事长杨元庆：相信未来 GPU 服务器 70% 用于推理，30% 用于训练

IT之家 5 月 22 日消息，据《科创板日报》今日报道，联想集团董事长兼 CEO 杨元庆在财报业绩沟通会上表示，AI 基础设施正在爆发式增长，从训练向推理的转移速度非常快。他提到，目前 AI 基础设施 GPU 服务器 70%、80% 的用于训练，只有 20-30% 用于推理。

tech IT之家 2026-05-22 16:09:10+08:00

近期国内外模型速度都有很大的突破，感觉 Cerebras 等厂商危险了啊

看了这篇文章有感 tilert.ai 速度：大模型推理的下一个 Scaling Law 深度解析 TileRT 高性能推理引擎及 GLM-5.1 生产级实践。再看看数据 Gemini 3.5 Flash - 289 token/s - 2026/05/20 GLM 5.1 Hi

tech LinuxDo 最新话题 2026-05-22 15:33:46+08:00

[分享创造] 拒绝感觉有效，基于在线推理性能测评，选出最适合我 Mac 的 LLM 推理框架

经常捣鼓大模型的朋友都知道，各大厂商提供的模型是生产力工具。可以蹭，但也需要计算性价比。一些小的任务或是隐私任务，放在本地更合适。随着越来越多开源的 SLM （ Small Language Model ）智力水平的提升，部署到本地也是一个选择。作为一个玩过智能家居、玩过路由器

tech v2ex 2026-05-22 00:26:34+08:00

OpenAI内部模型推翻近80年数学猜想

2026年5月20日，OpenAI宣布其内部的一个通用推理模型成功推翻了埃尔德什单位距离猜想，相关证明已由多位顶尖数学家独立验证菲尔兹奖得主蒂莫西·高尔斯明确表示，若此证明由人类完成，他会毫不犹豫地推荐发表至顶级数学期刊《数学年刊》 5 个帖子 - 4 位参与者阅读完整话题

tech LinuxDo 最新话题 2026-05-21 19:59:53+08:00

谷歌做大模型是完全放弃coding领域了吗

QA能力长期霸榜的谷歌，不信没能力做好coding。从2.5pro起，基模推理能力和知识广度已经是领先了。但模型还喜欢搞降智。网页端做的又很烂，harness agent也不好好做，大模型的coding能力又不优化，不理解公司现在的战略是什么？ 16 个帖子 - 13 位参与

tech LinuxDo 最新话题 2026-05-21 13:10:31+08:00

OpenAI称已解决了一道存在80年的数学难题

OpenAI近日表示，其最新通用推理模型自主给出了一条原创数学证明，推翻了一项自1946年由著名数学家保罗·埃尔德什（Paul Erdős）提出、悬而未决的几何猜想。 OpenAI称，这是人工智能首次自主解决一项在某一数学领域中居于核心地位的著名公开难题，而参与背书的多位数学家也

tech cnBeta全文版 2026-05-21 07:35:30+08:00

网页端Gemini 3.5flash不开extend疑似不思考？

Thinking level选择Standard 逻辑推理问题输出质量感觉明显不如之前用3flash的，别说打3.1pro了开了Extended之后才正常几个测了一年多都测烂了的题目还是有问题色盲 Standard Extend 拉煤 Standard Extend 洗车没

tech LinuxDo 最新话题 2026-05-20 14:12:57+08:00

[问与答] 昇腾是目前性价比最高的推理 GPU 吗？

对于企业内部私有化部署小模型，如 32B 、72B 等，对比英伟达或其他一众国内厂商，华为昇腾是目前性价比最高的选择吗？仅用于主流模型（如 deepseek 、qwen 、未来不知道 mimo 会不会发开源小模型）的推理，不做训练。如果是，是否有经销商推荐？目前在京东淘宝等渠道

tech v2ex 2026-05-20 11:28:06+08:00

[问与答] 昇腾是目前性价比最高的推理 GPU 吗？

对于企业内部私有化部署小模型，如 32B 、72B 等，对比英伟达或其他一众国内厂商，华为昇腾是目前性价比最高的选择吗？仅用于主流模型（如 deepseek 、qwen 、未来不知道 mimo 会不会发开源小模型）的推理，不做训练。如果是，是否有经销商推荐？目前在京东淘宝等渠道

tech v2ex 2026-05-20 11:28:06+08:00

[问与答] 昇腾是目前性价比最高的推理 GPU 吗？

对于企业内部私有化部署小模型，如 32B 、72B 等，对比英伟达或其他一众国内厂商，华为昇腾是目前性价比最高的选择吗？仅用于主流模型（如 deepseek 、qwen 、未来不知道 mimo 会不会发开源小模型）的推理，不做训练。如果是，是否有经销商推荐？目前在京东淘宝等渠道

tech v2ex 2026-05-20 10:58:47+08:00

[问与答] 昇腾是目前性价比最高的推理 GPU 吗？

对于企业内部私有化部署小模型，如 32B 、72B 等，对比英伟达或其他一众国内厂商，华为昇腾是目前性价比最高的选择吗？仅用于主流模型（如 deepseek 、qwen 、未来不知道 mimo 会不会发开源小模型）的推理，不做训练。如果是，是否有经销商推荐？目前在京东淘宝等渠道

tech v2ex 2026-05-20 10:45:25+08:00

阿里云发布“真武 M890”AI 芯片及 128 卡超节点服务器，可支持海量 Agent 并发推理

IT之家 5 月 20 日消息，在今日举办的 2026 阿里云峰会上，阿里云推出了新一代平头哥训推一体 AI 芯片真武 M890 与 ICN Switch 互联芯片。阿里云智能集团资深副总裁公共云事业部总裁刘伟光介绍称，目前该芯片已经应用于阿里云磐久 AL128 号节点服务器。

tech IT之家 2026-05-20 10:37:36+08:00

英特尔数据中心 AI 推理 GPU "Crescent Island" PCB 曝光

IT之家 5 月 20 日消息，爆料人 @结城安穗-YuuKi_AnS 北京时间今日凌晨释出了英特尔数据中心 GPU 新品 "Crescent Island" 的 PCB 图片，让我们对这块 AI 推理工作负载优化产品有了更多的了解。可以看到这款显卡采用 P

tech IT之家 2026-05-20 08:48:09+08:00

Gemini Omni，谷歌的最新视频模型

将Gemini的世界知识和推理结合在一起，生成高度真实的视频结果使用对话编辑视频，输入视频，使用自然对话编辑任意添加元素，更改风格 9 个帖子 - 3 位参与者阅读完整话题

tech LinuxDo 最新话题 2026-05-20 01:18:41+08:00

关于 5070ti 模型推理的速度和本地部署思考

前置条件：5070ti 16g ，llama.cpp ，全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化（ MoE 结构）速度大概是 120t/s-150t/s ，首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_

tech V2EX - 技术 2026-05-19 17:50:13+08:00

关于 5070ti 模型推理的速度和本地部署思考

前置条件：5070ti 16g ，llama.cpp ，全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化（ MoE 结构）速度大概是 120t/s-150t/s ，首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_

tech V2EX - 技术 2026-05-19 17:50:13+08:00

关于 5070ti 模型推理的速度和本地部署思考

前置条件：5070ti 16g ，llama.cpp ，全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化（ MoE 结构）速度大概是 120t/s-150t/s ，首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_

tech V2EX - 技术 2026-05-19 16:50:13+08:00

关于 5070ti 模型推理的速度和本地部署思考

前置条件：5070ti 16g ，llama.cpp ，全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化（ MoE 结构）速度大概是 120t/s-150t/s ，首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_

tech V2EX - 技术 2026-05-19 15:50:13+08:00

推理 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn

相关标签