OmniParser

类型:开发者工具
OmniParser
评分:9.0分 更新时间:2025-02-01
9.0
简介
OmniParser

OmniParser是什么

OmniParser是由微软研究院开发的一个紧凑的屏幕解析模块,能够将用户界面(UI)的屏幕截图转换为结构化元素。它旨在与各种模型结合使用,创建能够在用户界面上执行操作的智能代理,特别是在只有视觉输入的情况下,如在不同的操作系统和应用程序中作为通用代理。

主要特点

多模态模型的补充:OmniParser能够与大型视觉语言模型(如GPT-4V和GPT-4o)结合,显著提升这些模型在用户界面中的操作能力。高性能屏幕解析:该工具能够可靠地识别用户界面中的可交互图标,并理解屏幕截图中各种元素的语义,准确地将预期动作与屏幕上的相应区域关联起来。开源与研究推动:微软将OmniParser公开在GitHub上,并提供了训练过程的报告,以鼓励研究者开发能够在不同应用程序和环境中执行操作的代理。

主要功能

创建专业数据集:开发了两个数据集,一个用于检测可交互图标,另一个用于描述UI元素的功能,这两个数据集是训练模型理解检测元素语义的关键。微调检测和描述模型:利用两个互补的模型,一个检测模型用于识别截图中的可操作区域,一个描述模型用于提取检测元素的功能语义,生成准确描述其预期动作的文本。基准测试性能提升:在ScreenSpot基准测试中,使用OmniParser解析结果的GPT-4V性能大幅提升。在Mind2Web基准测试中,OmniParser + GPT-4V的性能优于使用HTML额外信息的GPT-4V代理。在AITW基准测试中,OmniParser超越了使用Android视图层次结构训练的专业Android图标检测模型的GPT-4V。此外,在新的WindowsAgentArena基准测试中,OmniParser也取得了最佳性能。

使用示例

以WindowsAgentArena基准测试为例,一个使用OmniParser和GPT-4V的代理在该基准测试中取得了最佳性能。这表明OmniParser能够有效地解析用户界面,并与GPT-4V结合,生成精确的、基于界面区域的操作指令。例如,代理可以识别屏幕上的“发送”按钮,并理解点击该按钮将执行发送消息的操作。

总结

OmniParser是一个创新的屏幕解析工具,它通过与先进的视觉语言模型结合,显著提升了智能代理在用户界面中的操作能力。其主要优势在于能够准确识别和理解用户界面元素,并生成精确的操作指令。微软通过开源OmniParser,为研究社区提供了一个强大的工具,以推动多模态智能代理的发展,特别是在视觉输入受限的环境中。这不仅有助于提升现有模型的性能,也为未来智能代理的开发提供了新的方向。

相关推荐 +
相关攻略 +
  • 华为P40系列国内正式发布,4188元起售,P40 Pro+最贵8888元

    时隔两周,华为2020年首款旗舰产品华为P40系列今晚在国内正式发布。手机外观和配置此前在国外发布会上已经公布,而今晚发布会大家最关注的,应该就是P40系列国内的售价了。在揭晓谜底前,我们首先来快速回

    AI教程资讯 01-07

  • Recraft使用教程-AI设计神器3分钟快速上手

    更新:有朋友评论说promt也支持中文啦!大家可以在评论区分享自己的作品!IOS可在应用市场直接搜索recraft下载或网页搜索recraft,用邮箱注册登录,界面不支持中文分享Recraft的注册步

    AI教程资讯 12-23

  • ResNet孙剑何恺明等加冕未来科学大奖!旷视张祥雨成最年轻获奖人

    今天,2023未来科学大奖揭晓,三大奖项共8人获奖:柴继杰和周俭民获得“生命科学奖”赵忠贤和陈仙辉获得“物质科学奖”何恺明、孙剑、任少卿和张祥雨获得“数学与计算机科学奖”每个奖项奖金分别为100万美元

    AI教程资讯 12-27

近期热点 +
人气推荐 +
最新攻略 +
  • 02-01
    AI自习室能成为“伴学良师”吗 图为一名儿童在体验一款AI学习机。 近日,记者走进河南郑州经五路上的一家AI自习室,看到一台台平板电脑摆放在十几名学生面前。这些电脑内置了AI学习软件,成为了学生们“看不见”的辅导老师。 随着人工智能时代
  • 02-01
    张文宏躺枪 AI换脸越陷越深 近日,知名传染病学专家张文宏直播卖蛋白棒的视频,让不少老人信以为真,疯狂买单,橱窗商品已售出上千件。但最终发现这是一起利用AI换脸技术合成的侵权视频。 张文宏等名人成为被AI技术假冒的“躺枪者”,并非
  • 02-01
    华为AI存储助力中国移动构建超大规模智算集群 大模型领域普遍存在规模化定律,即大模型的性能深受模型参数量、数据集大小以及训练算力规模三要素的影响。生成式AI的运行主要基于深度学习原理,其发展离不开海量数据信息的投入。面对智算集群目前存在的可用度
  • 02-01
    深圳“城市+AI”应用场景清单已近200个 观点网讯:12月18日,以“深AI赋能 圳启先锋”为主题的深圳市人工智能先锋城市建设推进大会暨产业推介招商大会成功举办。市长覃伟中出席活动并致辞,中国科学院院士姚期智视频致辞,中国工程院院士余少华、中国工程
  • 02-01
    AI技术时代如何追求“真善美”?阿来、李明泉精彩对谈 封面新闻记者 张杰 一份报纸走过的30年岁月,记录了无数人的人生故事,也吸引了文化界众多杰出人士关注的目光。12月18日上午,作为见证华西都市报创刊30周年非凡岁月的两位重磅的文艺名家——中国作协副主席、四川