求本地部署的大模型API聚合建议,有4台8卡服务器7个API

现在有4台8卡,使用vllm分别部署了不同的模型 其中一台8卡是部署了个9B的Qwen小模型响应速度快(每2张卡跑1个示例,也就是同一个模型跑4个,4个API地址) 其他3台都是8卡同时运行1个模型,也就是3个API地址 也就是有7个vllm创建的API地址 我现在是用的liteLLM做聚合,这个可...
求本地部署的大模型API聚合建议,有4台8卡服务器7个API
求本地部署的大模型API聚合建议,有4台8卡服务器7个API

现在有4台8卡,使用vllm分别部署了不同的模型

其中一台8卡是部署了个9B的Qwen小模型响应速度快(每2张卡跑1个示例,也就是同一个模型跑4个,4个API地址)

其他3台都是8卡同时运行1个模型,也就是3个API地址

也就是有7个vllm创建的API地址

我现在是用的liteLLM做聚合,这个可以实现那4个相同模型的API负载均衡

很多员工都使用的Cherry Studio,有个Agent功能,但是这个功能必须要添加使用Anthropic模式接口

都是内部使用,我现在想重新聚合这7个API地址,能满足正常的OpenAi模式,还能兼容Anthropic模式请求

有没有好的组合建议

没有使用newapi是因为没看到有负载均衡的地方(负债均衡我那跑4个相同示例的API)

3 个帖子 - 3 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文