
AppAgent是一个多模态智能体,由腾讯和德州大学达拉斯分校的研究团队合作开发。它是一种基于大型语言模型的多模态手机用户代理框架,可模拟人类在智能手机上的操作。
AppAgent可以通过自主学习和模仿人类的点击和滑动手势,在手机上执行复杂的任务,与应用程序进行交互。它通过引入一种基于大型语言模型的多模态智能代理(Agent)框架,赋予了智能体操作智能手机应用的能力。AppAgent的操作方式是通过直接识别当前手机的界面和用户指令,直接操作手机界面,能像真实用户一样操作手机。
AppAgent的技术原理是什么?
AppAgent的技术原理是基于大型语言模型的多模态智能代理(Agent)框架,赋予了智能体操作智能手机应用的能力。AppAgent的学习方法是通过自主探索或观察人类演示来学习如何使用新的应用程序,生成一个知识库,以便代理在不同应用程序之间执行复杂任务。
哪些应用程序可以与AppAgent进行交互?
AppAgent可以与多种应用程序进行交互,包括社交媒体、电子邮件、地图、购物和复杂的图像编辑工具等. 为了展示我们的代理的实用性,我们在10个不同的应用程序中进行了50项任务的广泛测试。请注意,AppAgent的学习方法是通过自主探索或观察人类演示来学习如何使用新的应用程序,生成一个知识库,以便代理在不同应用程序之间执行复杂任务。因此,AppAgent可以与任何应用程序进行交互,只要它们在代理的知识库中。
开源地址:https://github.com/mnotgod96/AppAgent
论文地址: https://arxiv.org/abs/2312.13771
项目地址:https://appagent-official.github.io/
数据统计
相关导航

boardmix博思白板,一个点燃团队协作和激发创意的空间,集AIGC,一键PPT,思维导图,笔记文档多种创意表达能力于一体,将团队工作效率提升到新的层次。

博思AIPPT
打赏赞微海报分享

aicnn人工智能聚合平台(AIPPT/PDF文档对话)
打赏赞微海报分享

Glif
Glif是什么 Glif是一个无代...

万知
万知是什么 万知是由李开复...

牛客AI面试
产品介绍 全新一代”真”AI面试,规模化智能招聘利器。基于自研AI-NowGPT模型,“真”AI互动,融合岗位 […]

Napkin
Napkin是什么 Napkin是一个...

熊猫办公
熊猫办公是什么 熊猫办公是A...
暂无评论...