[开源推广]AI手机助手|不连电脑也能自动操控!

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社...
[开源推广]AI手机助手|不连电脑也能自动操控!
[开源推广]AI手机助手|不连电脑也能自动操控!
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
  • 我的帖子已经打上 开源推广 标签:
  • 我的开源项目完整开源,无未开源部分:
  • 我的开源项目已链接认可 LINUX DO 社区:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


image

目前市面上大部分开源的手机AI自动化方案需要连电脑。

流程是这样的:手机用数据线连PC → PC上跑Python脚本 → 通过ADB远程截屏 → 大模型分析后再通过ADB发送点击指令给手机。

也就是说,你的手机只是个"提线木偶",真正的大脑在电脑上。

我觉得这不够优雅。

所以我花了一点时间,把整套Agent架构完整搬到了Android端,做成了一个独立App:

MobileAgent-Android

装上就能用。不需要电脑,不需要数据线,不需要ADB,不需要root。

打开App → 输入一句话 → AI自动截屏、看图、规划、点击、滑动、打字 → 任务完成。

整个过程手机自己搞定。

核心架构:

  • 截屏识别UI元素
  • Manager 拆解任务计划
  • Executor 选择下一步操作
  • Reflector 对比前后截图判断是否成功
  • Notetaker 记录关键信息
    image

支持 GPT-4o / Claude / 豆包 / 通义千问等主流视觉大模型。

完全开源,MIT协议。

灵感来自阿里通义实验室的 Mobile-Agent论文,向原作者致敬。但原版需要PC+ADB,我把它重写成了手机端原生Ap

项目地址在这里

github.com

GitHub - GiggleWang/MobileAgent-Android: An Android-native autonomous agent that uses...

An Android-native autonomous agent that uses vision-language models to see and operate your phone — no PC or ADB required. Inspired by X-PLUG/MobileAgent.

求个 Star 支持一下!

3 个帖子 - 3 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文