[Local LLM] 各位推荐一个 32G Macbook air M5 可以跑的 moe 模型
27B/31B 甚至 35B 的 4bit 都可以, 测试了好久, 也下载了几十个了,都不太行, 感觉降智了, 这些刚出来的时候我这个配置能跑到 35tokens/s. 准备直接抄作业, 请给 huggingface 连接, 我的本地推理框架是 omlx, 感谢感谢.
7b - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第5页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 97 篇相关文章 · 第 5 / 5 页
27B/31B 甚至 35B 的 4bit 都可以, 测试了好久, 也下载了几十个了,都不太行, 感觉降智了, 这些刚出来的时候我这个配置能跑到 35tokens/s. 准备直接抄作业, 请给 huggingface 连接, 我的本地推理框架是 omlx, 感谢感谢.
27B/31B 甚至 35B 的 4bit 都可以, 测试了好久, 也下载了几十个了,都不太行, 感觉降智了, 这些刚出来的时候我这个配置能跑到 35tokens/s. 准备直接抄作业, 请给 huggingface 连接, 我的本地推理框架是 omlx, 感谢感谢.
还有65刀,可以用 GPT-5.5 https://api.cst9.com sk-cc1a07b67c96b2857b1765b1c891ef22939de14cae0f1ff32387100e2aa5376b 1 个帖子 - 1 位参与者 阅读完整话题
模型来源 RedHatAI/Qwen3.6-35B-A3B-NVFP4 · Hugging Face sakamakismile/Qwen3.6-27B-NVFP4 · Hugging Face Qwen3.6-35B-A3B速度 单用户串行测试 : num_prompts=20
硬件配置 组件 规格 CPU Intel i5-13600K GPU RTX 4090 48G + RTX 4070Ti 12G 内存 DDR4-3600 128G (4x32G) 主板 华硕 Z690-P D4 系统 Windows 11 LTSC WSL Ubuntu 22.
先说配置: CPU: E5-2680 v4 * 2 内存: 220G GPU: 3090 24G *2 系统:Ubuntu20 工具: LM Studio 0.4.11 Qwen3.6-27B Qwen3.6-35B-A3B 默认专家数量为8,这里佬友自行设置为了9, 问题是:“
使用的是Unsloth家的动态,选的Qwen3.6-27B-UD-Q5_K_XL.gguf量化版本,用的是5090单卡,32G vram,大家可以根据这个表格,快速选配下 目前输出感觉是 qwen 3.6 27B ≈ Jackrong/Qwen3.5-27B-GLM5.1 >
新发布了Qwen3.6 27B,我超开心的 刚好手头有个小游戏一个小Bug,不过这个bug需要读取不少文件联动来解决的 过程 一开始用的Qwen Code来解决,但是一直弄了好久都没解决,还有调用失败的精力,20分钟都还没处理完,我关掉了 后来我换成了OpenCode,用Qwen
4070 12G挑战一下 huggingface.co unsloth/Qwen3.6-27B-GGUF at main We’re on a journey to advance and democratize artificial intelligence through o
copilot卡无限claude4.7bug有佬知道怎么弄吗,刚得到这个消息. 3 个帖子 - 3 位参与者 阅读完整话题
token.zhilu.online ZhiLu Token - AI API Gateway sk-d62b6e3da97b3ac09b0f5f3d0da03fa4bf5561709efdc03d4edfc02e0f2ce900 500刀福利 codex gpt-5.4 7 个
Qwen3.6-27B出了。。。。 GitHub GitHub - QwenLM/Qwen3.6: Qwen3.6 is the large language model series developed... Qwen3.6 is the large language mode
IT之家 4 月 22 日消息,阿里云通义千问团队今日宣布,开源模型家族迎来新成员 ——Qwen3.6-27B。这是一款拥有 270 亿参数的稠密多模态模型,也是社区呼声最高的模型规格。 此前,通义千问已陆续发布了 Qwen3.6-Plus 和 Qwen3.6-35B-A3B,而
qwen.ai Qwen Studio Qwen Studio offers comprehensive functionality spanning chatbot, image and video understanding, image generation, docume
因为是个体验卡,能选的模型不多,需要的佬自取吧 API key:9a5e7bb73e2b4b53bb0419b4960ec4bd.tZVQRCEMBmhBDS3z 请求地址: https://open.bigmodel.cn/api/anthropic 2 个帖子 - 2 位参与
鄙人使用学校的8xa40-Pcle服务器,使用vllm部署全精qwen27b,首发延迟高,约10s,速度慢,90-100tokens/s,看到很多人用3090部署速度都没这么慢,这是为什么?有没有推荐部署的模型,27b对显存浪费有点大,不过pcle带宽比较低 12 个帖子 - 5
佬友们有个困惑求解,自部署Qwen3.5 27B,做一套偏知识类的Agent 现在的情况就是如果走Native Reasoning输出,会暴露系统约束、工具Key啥的,模型跑去复述系统提示词,如果不开而是通过提示词约束模型输出类思维链,又感觉不是很稳定。 就是感觉模型的思维过程还