这不是各种中转站开始陆续上gpt-image-2了嘛,最近想玩玩文生图了,然后我就又要面对本地LLM客户端的一堆问题了。
CherryStudio我早就不用了,臃肿到离谱,但是你别说,它的文生图功能确实强大,不是说多好用,而是至少能用;
Kelivo的UI太…朴素了,我感觉作者今年大概率是没啥机会优化UI了,如果他觉得有必要优化的话,但重点其实还是文生图的问题,接入的中转站能够拉取下来模型,能够进行聊天对话,但是一开始文生图就报错,为啥呢?不知道啊,报错日志都没几个字,丢给claude都解决不了问题;
Aetherlink的问题也差不多,能拉取到模型,能chat,但是一使用文生图就失败,为啥呢?光看日志,丢给claude一通分析也不知道,最后claude觉得大概率是中转站跟Aetherlink客户端之间的过程出现了问题,让我去提issue,但是Aetherlink项目的issue里只有一个,还是去年提的,没人回答;
AionUI是启动太慢,500M的RAM占用有点不知道用来干啥的,反正我用不上,哦,AionUI在接入中转站的时候会强制要求测试模型可用性,但是许多中转站的image模型不知道是不是不支持这种测试,大多数都是返回测试失败的结果,然后在AionUI中我连image模型都用不了,因为在对话时不支持选用测试失败或未经可用性测试的模型;
顺带一提,rikkahub的移动端(好像也只有移动端)玩文生图也失败了,也不知道为啥,就挺绝望的;
难道只剩下ComfyUI了吗?可我讨厌ComfyUI,首先简单的工作流就五六个节点,用LLM客户端就能解决的事情何苦打开ComfyUI,复杂的工作流节点密密麻麻的看着都恶心,我不如直接写代码得了。值得一提的是ComfyUI官方也推出了使用第三方api key的节点,只不过需要先登录然后购买什么套餐:也就是说,我要在本地部署ComfyUI的客户端,自己去买中转站的文生图服务,最后得跟你报备(必须登录),每一次文生图都要给你交保护费(每调用一次第三方key都要消耗某种有限额度)?这种官方简直逆天,是我之前无法想象的,我见过最过分也最普遍的官方态度也就是不提供第三方api key使用方式,ComfyUI官方这种逆天玩法我还是第一次见。当然,社区也不遑多让,每一个工作流都是用来引流的,甚至是需要登录第三方平台的。再加上工作流这种方案,简单的需求可以避开它,复杂的需求不如直接写代码,它可能也就适合所谓的"中等复杂度"了,至于什么是中等,那就见仁见智了。
写到最后,人麻了,难道我就只剩下烧钱烧时间vibe coding一个文生图工具了吗?我开始怀念以前玩炼丹时lora的WEB UI了,那种可视化修改配置的方式就非常适合玩简单的文生图和图生图。虽然好像也没什么太复杂的玩法了,现在文生图模型太强大了------banana,image-2------你只要给提示词就好了,生成过程本身就是黑箱,足够优秀的提示词就能产出期望足够高的抽卡结果。
9 个帖子 - 4 位参与者