求本地部署的大模型API聚合建议，有4台8卡服务器7个API

编辑部 2026-05-20T14:26:50.296701 17559 阅读综合

现在有4台8卡，使用vllm分别部署了不同的模型其中一台8卡是部署了个9B的Qwen小模型响应速度快（每2张卡跑1个示例，也就是同一个模型跑4个，4个API地址）其他3台都是8卡同时运行1个模型，也就是3个API地址也就是有7个vllm创建的API地址我现在是用的liteLLM做聚合，这个可...

现在有4台8卡，使用vllm分别部署了不同的模型

其中一台8卡是部署了个9B的Qwen小模型响应速度快（每2张卡跑1个示例，也就是同一个模型跑4个，4个API地址）

其他3台都是8卡同时运行1个模型，也就是3个API地址

也就是有7个vllm创建的API地址

我现在是用的liteLLM做聚合，这个可以实现那4个相同模型的API负载均衡

很多员工都使用的Cherry Studio，有个Agent功能，但是这个功能必须要添加使用Anthropic模式接口

都是内部使用，我现在想重新聚合这7个API地址，能满足正常的OpenAi模式，还能兼容Anthropic模式请求

有没有好的组合建议

没有使用newapi是因为没看到有负载均衡的地方（负债均衡我那跑4个相同示例的API）

3 个帖子 - 3 位参与者

来源: LinuxDo 最新话题查看原文

本地部署模型 API 聚合一个帖子 AI

相关推荐