微软开源了一款可以解析和识别屏幕上可交互图标的工具:OmniParser,它能准确的识别出用户界面中的可交互图标,在解析方面优于 GPT-4V 特点:1、双重识别能力,能找出界面上所有可以点击的地方,具备语义理解能力,能理解按钮或图标的具体功能 2、可以作为插件,与 Phi-3.5-V、… https://t.co/7doetSkbU1
微软开源 OmniParser:界面互动图标识别工具
Published:
微软开源了一款可以解析和识别屏幕上可交互图标的工具:OmniParser,它能准确的识别出用户界面中的可交互图标,在解析方面优于 GPT-4V 特点:1、双重识别能力,能找出界面上所有可以点击的地方,具备语义理解能力,能理解按钮或图标的具体功能 2、可以作为插件,与 Phi-3.5-V、… https://t.co/7doetSkbU1