创新移动端自动化 GUI 控制:清华研发 AutoDroid-V2:创新离线在线协同

随着人工智能技术的快速发展,移动设备自动化控制领域也取得了显著的进步。近期,清华大学智能产业研究院(AIR)发布了一篇论文,介绍了 AutoDroid-V2 AI 模型,该模型利用小型语言模型(SLM)显著提升了自然语言控制的自动化程度,为移动设备控制领域带来了创新。

AutoDroid-V2 模型采用了基于脚本的方法,利用设备端小型语言模型(SLM)的编码能力,高效执行用户指令。与传统依赖云端大型语言模型(LLM)的方法相比,AutoDroid-V2 在效率、隐私和安全性方面具有显著优势。

在项目背景方面,大型语言模型(LLMs)和视觉语言模型(VLM)通过自然语言命令彻底改变了移动设备控制的自动化,为复杂的用户任务提供了解决方案。然而,传统的逐步操作方式存在诸多问题,如隐私和安全风险、用户端流量消耗以及高昂的服务器端集中服务成本等。

AutoDroid-V2 的出现,为移动设备自动化控制领域带来了创新。该模型根据用户指令生成多步骤脚本,一次性执行多个 GUI 操作,大幅减少了查询频率和资源消耗。利用设备上的小型语言模型进行脚本生成和执行,避免了对强大云端模型的依赖,有效保护了用户隐私和数据安全,并降低了服务器端成本。

为了实现这一创新,AutoDroid-V2 在离线阶段构建了应用程序文档,包含 AI 引导的 GUI 状态压缩、元素 XPath 自动生成和 GUI 依赖分析,为脚本生成奠定了基础。此外,用户提交任务请求后,本地 LLM 会生成多步骤脚本,由特定域解释器执行,确保可靠高效的运行。

在性能方面,AutoDroid-V2 在基准测试中表现出色。在 23 个移动应用上测试了 226 项任务,与 AutoDroid、SeeClick、CogAgent 和 Mind2Web 等基线相比,任务完成率提高了 10.5%-51.7%。此外,输入和输出 token 消耗分别减少至 43.5 分之一和 5.8 分之一,LLM 推理延迟降低至 5.7~13.4 分之一。值得一提的是,AutoDroid-V2 在跨 LLM 测试中表现稳定,在 Llama3.2-3B、Qwen2.5-7B 和 Llama3.1-8B 等不同 LLM 上均表现出一致的成功率和反向冗余比。

综上所述,AutoDroid-V2 的研发是清华大学在移动设备自动化控制领域的一项重要创新。该模型通过利用小型语言模型,显著提升了自然语言控制的自动化程度,实现了 AI 在离线在线的协同工作。这一创新不仅提高了自动化控制的效率、降低了成本,还为移动设备控制领域带来了更广阔的应用前景。未来,我们期待看到更多类似的研究成果,推动人工智能技术在移动设备自动化控制领域的发展。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

本文来源于极客网,原文链接: https://www.fromgeek.com/ai/667848.html

分类: 暂无分类 标签: 暂无标签

评论