Skip to content

微软开源 OmniParser:界面互动图标识别工具

Published:

原文链接


微软开源了一款可以解析和识别屏幕上可交互图标的工具:OmniParser,它能准确的识别出用户界面中的可交互图标,在解析方面优于 GPT-4V 特点:1、双重识别能力,能找出界面上所有可以点击的地方,具备语义理解能力,能理解按钮或图标的具体功能 2、可以作为插件,与 Phi-3.5-V、… https://t.co/7doetSkbU1


Previous Post
学习优化大模型回答问题的有效方法
Next Post
SOCIAL MEDIA TITLE TAG