昇腾910B本地部署DeepSeek-V4-Flash(w8a8量化版)测试

老登们下班了,现在可以霍霍服务器了 vllm-ascend部署文档: DeepSeek-V4 — vllm-ascend 模型: DeepSeek-V4-Flash-w8a8-mtp · 模型库 启动成功: 先问一下洗车问题: 逻辑OK 跑一下文档中的数据集(GSM8K,数学推理能力) 速度慢的发指...
昇腾910B本地部署DeepSeek-V4-Flash(w8a8量化版)测试
昇腾910B本地部署DeepSeek-V4-Flash(w8a8量化版)测试

老登们下班了,现在可以霍霍服务器了 :face_with_steam_from_nose:
vllm-ascend部署文档: DeepSeek-V4 — vllm-ascend
模型:DeepSeek-V4-Flash-w8a8-mtp · 模型库
启动成功:

image
先问一下洗车问题:
image
逻辑OK
跑一下文档中的数据集(GSM8K,数学推理能力)
image
速度慢的发指 ,10个并发~290~480 tokens/s:tired_face:(毕竟只有一台机器,速度上不去)

先去吃个饭,吃完再来看一下

2 个帖子 - 2 位参与者

阅读完整话题

来源: linux.do查看原文