[Local LLM] LiteChat 轻量级本地大模型聊天 WebUI,支持 vLLM
https://github.com/zsj1029/LiteChat 企业内部场景适用,从 llama-cpp 的 webui 扒出来的,本地改造了下支持 vllm 全程 Qwen3.6 27B (vLLM), Claude Vscode 改造
vLLM - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 8 篇相关文章
https://github.com/zsj1029/LiteChat 企业内部场景适用,从 llama-cpp 的 webui 扒出来的,本地改造了下支持 vllm 全程 Qwen3.6 27B (vLLM), Claude Vscode 改造
https://github.com/zsj1029/LiteChat 企业内部场景适用,从 llama-cpp 的 webui 扒出来的,本地改造了下支持 vllm 全程 Qwen3.6 27B (vLLM), Claude Vscode 改造
https://github.com/zsj1029/LiteChat 企业内部场景适用,从 llama-cpp 的 webui 扒出来的,本地改造了下支持 vllm 全程 Qwen3.6 27B (vLLM), Claude Vscode 改造
上集回顾 [Qwen3.6]27B-FP8 VLLM本地部署主观个人测评 环境: WLS2 Ubuntu22.04 硬件: 4090 48G SGLang太佛系了,快一个月了还不更新正式版,需要好好挖掘pr。目前已经找到4090 48G本地部署的版本。 我测试了两个模型。以及DF
老登们下班了,现在可以霍霍服务器了 vllm-ascend部署文档: DeepSeek-V4 — vllm-ascend 模型: DeepSeek-V4-Flash-w8a8-mtp · 模型库 启动成功: 先问一下洗车问题: 逻辑OK 跑一下文档中的数据集(GSM8K,数学推理
大佬们 最近用最新的gpustack2.1.2版本 搭配8个L40装了Qwen3.5-35B-A3B的vllm模型。 官方文档说可以靠thinking_budget参数来调节思考的长度,但是根本不好使啊.. system角色写提示词要求它精简思考过程也不行。。。。 没招了.. 1
硬件配置 组件 规格 CPU Intel i5-13600K GPU RTX 4090 48G + RTX 4070Ti 12G 内存 DDR4-3600 128G (4x32G) 主板 华硕 Z690-P D4 系统 Windows 11 LTSC WSL Ubuntu 22.