AI代理走纯视觉方案是否可行?

尝试了几种AI代理,都是在各种实现方式里面循环尝试和打转,api、UI、com等等,每到一个新的场景或新的软件,就需要各种新任务拆分和路径尝试,有没有可能,仅用截图+OCR文字识别+图片理解+模拟键鼠,自建一个电脑端的通用AI代理? 1 个帖子 - 1 位参与者 阅读完整话题...
AI代理走纯视觉方案是否可行?
AI代理走纯视觉方案是否可行?

尝试了几种AI代理,都是在各种实现方式里面循环尝试和打转,api、UI、com等等,每到一个新的场景或新的软件,就需要各种新任务拆分和路径尝试,有没有可能,仅用截图+OCR文字识别+图片理解+模拟键鼠,自建一个电脑端的通用AI代理?

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文