AppAgent是一个多模态智能体,由腾讯和德州大学达拉斯分校的研究团队合作开发。它是一种基于大型语言模型的多模态手机用户代理框架,可模拟人类在智能手机上的操作。
AppAgent可以通过自主学习和模仿人类的点击和滑动手势,在手机上执行复杂的任务,与应用程序进行交互。它通过引入一种基于大型语言模型的多模态智能代理(Agent)框架,赋予了智能体操作智能手机应用的能力。AppAgent的操作方式是通过直接识别当前手机的界面和用户指令,直接操作手机界面,能像真实用户一样操作手机。
AppAgent的技术原理是什么?
AppAgent的技术原理是基于大型语言模型的多模态智能代理(Agent)框架,赋予了智能体操作智能手机应用的能力。AppAgent的学习方法是通过自主探索或观察人类演示来学习如何使用新的应用程序,生成一个知识库,以便代理在不同应用程序之间执行复杂任务。
哪些应用程序可以与AppAgent进行交互?
AppAgent可以与多种应用程序进行交互,包括社交媒体、电子邮件、地图、购物和复杂的图像编辑工具等. 为了展示我们的代理的实用性,我们在10个不同的应用程序中进行了50项任务的广泛测试。请注意,AppAgent的学习方法是通过自主探索或观察人类演示来学习如何使用新的应用程序,生成一个知识库,以便代理在不同应用程序之间执行复杂任务。因此,AppAgent可以与任何应用程序进行交互,只要它们在代理的知识库中。
开源地址:https://github.com/mnotgod96/AppAgent
论文地址: https://arxiv.org/abs/2312.13771
项目地址:https://appagent-official.github.io/