MOE KLINNS Lab投稿
量子位 | 公众号 QbitAI
AI目田碳基生物双手,致使能让你的手机我方玩我方!
你没听错——这其实等于转移任务自动化。
在AI马上发展下,这逐步成为一个新兴的热点征询范围。
转移任务自动化愚弄AI精确捕捉并解析东谈主类意图,进而在转移建造(手机、平板电脑、车机终局)上高效引申各样化任务,为那些因理解局限、身段要求放胆或身处特殊情境下的用户提供前所未有的简短与复古。
匡助视障东谈主群用户完成导航、阅读或网上购物接济老年东谈主使用手机,向上数字规模匡助车主在驾驶过程中完成发送短信或调动车内环境替用户完成日常糊口中深广存在的重叠性任务……姆妈再也不嫌重叠竖立多个日期事项会心烦了。
最近,来自西安交通大学智能齐集与齐集安全栽培部要点本质室 (MOE KLINNS Lab)的蔡忠闽陶冶、宋云鹏副陶冶团队(团队主要征询标的为智能东谈主机交互、搀和增强智能、电力系统智能化等),基于团队最新AI征询后果,立异性建议了基于视觉的转移建造任务自动化决议VisionTasker。
这项征询不仅为已往用户提供了更智能的转移建造使用体验,也展现出了对特殊需求群体的时势与赋能。
基于视觉的转移建造任务自动化决议
团队建议了VisionTasker,一个连合基于视觉的UI贯串和LLM任务谋略的两阶段框架,用于渐渐收尾转移任务自动化。
该决议灵验排斥了默示UI对视图眉目结构的依赖,提高了对不同应用界面的符合性。
值得贵重的是,愚弄VisionTasker无需大皆数据考试大模子。
VisionTasker从用户以当然言语建议任务需求初始责任, Agent初始贯串并引申指示。
具体收尾如下:
1、用户界面贯串
VisionTasker通过视觉的方法作念UI贯串来解析息争释用户界面。
当先Agent识别并分析用户界面上的元素及布局,如按钮、文本框、翰墨标签等。
然后,将这些识别到的视觉信息改换成当然言语样貌,用于解释界面内容。
2、任务谋略与引申
接下来,Agent愚弄大言语模子导航,把柄用户的指示和界面样貌信息作念任务谋略。
将用户任务拆解为可引申的法子,如点击或滑动操作,以自动鼓吹任务的完成。
3、捏续迭代以上过程
每一步完成后,Agent皆会把柄最新界面和历史动作更新其对话和任务谋略,确保每一步的决策皆是基于现时高下文的。
这是个迭代的过程,将捏续进行直到判断任务完成或达到预设的放胆。
用户不仅能从交互中目田双手,还不错通过可见指示监控任务程度,并随时中断任务,保捏对统统这个词经过的次序。
当先是识别界面中的小部件和文本,检测按钮、文本框等元素过甚位置。
关于莫得文本标签的按钮,愚弄 CLIP 模子基于视觉联想来推断其可能功能。
随后,系统把柄 UI 布局的视觉信息进行区块分袂,将界面分割成多个具有不同功能的区块,并对每个区块生成当然言语样貌。
这个过程还包括文本与小部件的匹配,确保正确贯串每个元素的功能。
最终,统统这些信息被更始为当然言语样貌,为大言语模子提供明晰、语义丰富的界面信息,使其大要灵验地进行任务谋略和自动化操作。
本质评估本质评估部分,该技俩提供了对三种UI贯串的比拟分析,分别是:
GPT-4VVH(视图层级)VisionTasker方法对比浮现,VisionTasker在多个维度上比其他方法有显耀上风。
此外,在惩办跨言语应用时也推崇出了精采的泛化才气。
△ 本质1中使用到的常见UI布局
标明VisionTasker的以视觉为基础的UI贯串方法在贯串息争释UI方面具有显然上风,尤其是在濒临各样化和复杂的用户界面时尤为显然。
△跨四个数据集的单步料到准确性
著作还进行了单步料到本质,把柄现时的任务现象和用户界面,料到接下来应该引申的动作或操作。
放胆浮现,VisionTasker在所罕有据集上的平均准确率达到了67%,比基线方法提高了15%以上。
真确天下任务:VisionTasker vs 东谈主类本质过程中,征询东谈主员联想了147个真确的多法子任务来测试VisionTasker的推崇,这些任务涵盖了国内常用的42个应用尺度。
与此同期,团队还竖立了东谈主类对比测试,由12名东谈主类评估者手动引申这些任务,然后VisionTasker的放胆进行比拟。
放胆浮现,VisionTasker在大多数任务中能达到与东谈主类异常的完成率,何况在某些不老练的任务中推崇优于东谈主类。
△内容任务自动化本质的放胆 “Ours-qwen”是指使用开源Qwen收尾VisionTasker框架,”Ours”默示使用文心一言行为LLM
团队还评估了VisionTasker在不同要求下的推崇,包括使用不同的大言语模子(LLM)和编程演示(PBD)机制。
VisionTasker 在大多数直不雅任务中达到了与东谈主类异常的完成率,在老练任务中略低于东谈主类但在不老练任务中优于东谈主类。
△VisionTasker渐渐完成任务的展示
论断行为一个基于视觉和大模子的转移任务自动化框架,VisionTasker克服了现阶段转移任务自动化对视图层级结构的依赖。
通过一系列对比本质,显露其在用户界面推崇上特出了传统的编程演示和视图层级结构方法。
它在4个不同的数据集上皆展示了高效的UI默示才气,推崇出更粗俗的应用性;并在Android手机上的147个真确天下任务中,稀奇是在复杂任务的惩办上,推崇了出特出东谈主类的任务完成才气。
此外,通过集成编程演示(PBD)机制,VisionTasker在职务自动化方面有显耀的性能晋升。
当今,该责任已以雅致论文的神情发表于2024年10月13-16日在好意思国匹兹堡举行的东谈主机交互顶级会议UIST(The ACM Symposium on User Interface Software and Technology)。
UIST是东谈主机交互范围专注于东谈主机界面软件和时刻立异的CCF A类顶级学术会议。
原文连续:https://dl.acm.org/doi/10.1145/3654777.3676386
技俩连续:https://github.com/AkimotoAyako/VisionTasker— 完 —
量子位 QbitAI · 头条号签约
关注咱们,第一时刻获知前沿科技动态