[分享创造] Llama Web Manager - 轻量级 llama-server 实例管理工具
以前用命令行为每个模型启动一个 llama-server ,管理起来挺麻烦的,尤其是切换模型看日志的时候。 最近写了个 Web 管理工具,核心功能: 多实例管理 - 同时运行多个 llama-server ,通过卡片管理 实时日志 - SSE 推送,启动/停止自动切换到对应实例
LLAMA - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第5页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 100 篇相关文章 · 第 5 / 5 页
以前用命令行为每个模型启动一个 llama-server ,管理起来挺麻烦的,尤其是切换模型看日志的时候。 最近写了个 Web 管理工具,核心功能: 多实例管理 - 同时运行多个 llama-server ,通过卡片管理 实时日志 - SSE 推送,启动/停止自动切换到对应实例
早上起来拉取了一下ollama cloud的模型列表,惊喜的发现v4pro已经上了,连忙测试了一下,发现速度也快的惊人,让人很是喜悦啊! 但很快我就发现不对劲,不管是太阳系模拟还是魔方居然都无法好好完成,跟我用deepseek官方测试的简直是天壤之别 然后我意识到了,不会是压根没
大家快去看看 deepseek-v4-flash 模型 1 个帖子 - 1 位参与者 阅读完整话题
ollama cloud的GLM 5.1能够接入vscode copilot使用吗?我用了cloud模型,聊天框有输出,不能够直接修改项目代码。 2 个帖子 - 2 位参与者 阅读完整话题
模型卡片: deepseek-v4-flash 1 个帖子 - 1 位参与者 阅读完整话题
去年DeepSeek R1出的时候,还出了好几个蒸馏小模型,基座是qwen2.5和llama3,现在v4也有思维链,大概不会有R2了,正好前端时间qwen3.5和qwen3.6出了,不知道会不会继续搞蒸馏小模型,当然最好是直接拿v4 pro做个小模型 1 个帖子 - 1 位参与者
ollama cloud 上线了 deepseek v4 flash pro 模型还没有上 5 个帖子 - 5 位参与者 阅读完整话题
1 个帖子 - 1 位参与者 阅读完整话题
鱼鱼煎熬中 2 个帖子 - 1 位参与者 阅读完整话题
今天下午用的时候发现好卡啊,经常好几分钟没反应,没有任何token输出的那种,人都等麻了 5 个帖子 - 4 位参与者 阅读完整话题
macmini m4pro 64g ollama oMLX nvfp 、mxfp 或者其他格式的模型? 到底怎么选?我用 omlx 测试 mxfp 貌似比 nvfp 慢,还是直接选不带后缀的 mlx ?
如题,前几天glm5.1调用显示需要订阅用户才能用,然后我就换成了glm5,今天发现glm5也需要订阅用户才能用了 5 个帖子 - 4 位参与者 阅读完整话题
智谱官方的根本抢不到,所以买了个 opencode go 写代码,但用着体感里面的 glm 5.1 是量化过的 下个月想换 ollama pro,有用过的佬说一下 ollama pro 上的 glm 5.1 有没有这个问题 1 个帖子 - 1 位参与者 阅读完整话题
流程:输入问题 → 自动检索我的文档 → Qwen总结答案,这套方案可行么,模型使用qwen3.5-32b,会不会超级慢使用起来? 3 个帖子 - 2 位参与者 阅读完整话题
llama.cpp 支持的APEX量化效果挺好的, https://huggingface.co/mudler/Qwen3.6-35B-A3B-APEX-GGUF 根据该量化库的作者的表述 , 消费级显卡可用的 Qwen3.6-35B-A3B-APEX-I-Compact.ggu
ollama.com kimi-k2.6 Kimi K2.6 is an open-source, native multimodal agentic model that advances practical capabilities in long-horizon codin
ollama不就是一个逃课的llama.cpp嘛 为啥跑起来那么慢 在我机器下原生llama.cpp能比ollama快大概20-50%的样子 1 个帖子 - 1 位参与者 阅读完整话题
刚开始接触,在本地尝试自己编译,一直报asm缺失,可是我的visual studio2026也没问题啊 3 个帖子 - 3 位参与者 阅读完整话题
其实一直有点犹豫,一开始入门用的就是ollama,简单也便捷,后面发现ollama的资源调度机制其实挺让人纳闷的,就想着能不能通过自己优化一下,问了下大模型,大模型说不如用llama.cpp 5 个帖子 - 4 位参与者 阅读完整话题
最近想开ollama pro,看别人说爽玩,有glm5.1的调用,不知道额度有多少 4 个帖子 - 4 位参与者 阅读完整话题