微软公布多模态模型MM-Navigator，基于GPT-4V研发

来源：互联网时间：2025-07-20

据Arxiv页面显示，微软近日联手加州大学等高校，共同发布一款多模态大模型产品MM-Navigator。

MM-Navigator基于GPT-4V打造，可用于零镜头智能手机GUI导航任务。通过使用MM-Navigator，智能手机屏幕可以像人类用户一样进行交互，并确定后续行动以完成给定的指示。

研究发现，多模态大模型在零镜头GUI导航方面表现出色，尤其是GPT-4V，它具有先进的屏幕解释、行动推理和精确行动定位能力。

相关AI教程资讯 +

微软公布多模态模型MM-Navigator，基于GPT-4V研发

据 Arxiv 页面显示，微软近日联手加州大学等高校，共同发布一款多模态大模型产品 MM-Navigator。 MM-Navigator基于 GPT-4V打造，可用于零镜头智能手机 GUI 导航任务。通过使用 MM-Navigator，智能手机屏幕可以像

AI教程资讯 07-20
考拉悠然发布：悠然多模态产业通用大模型，披露各项技术细节！

自从2022年底open AI推出ChatGPT开始，大型语言模型（LLMs, Large Language Models）的热度吸引了全世界的眼球，相关研究也取得了令人瞩目的进展。除了纯语言模型相关的技术研究以外，将视觉能力融入大语言模型的

AI教程资讯 07-20
中科院：发现中介遗传和心理调节疼痛敏感性的多模态共变脑模式

疼痛是不愉快的主观体验，但对疼痛感知的敏感性存在较大的个体间差异。探究疼痛敏感性个体差异的产生机制，对于阐释慢性疼痛的易感性并进行个性化疼痛管理具有重要意义。已有研究提示，疼痛敏感性的个体差异可能

AI教程资讯 07-20

推荐AI教程资讯 +

近期热点 +

最新推荐 +