摘要
一句话总结 H公司发布了迄今规模最大的UI定位模型Holo2-235B-A22B Preview,通过引入代理式定位技术在多项基准测试中创下全新SOTA纪录,并借助SkyPilot实现了高效的跨云大规模训练。
关键点
- 模型发布:推出专注于UI元素定位的研究版模型Holo2-235B-A22B Preview,目前已在Hugging Face平台上线。
- 全新SOTA成绩:在Screenspot-Pro基准测试中准确率达到78.5%,在OSWorld G中达到79.0%。
- 核心技术:引入代理式定位(Agentic Localization)技术,通过迭代式优化预测结果,解决4K高分辨率屏幕下微小UI元素的定位难题。
- 性能提升:代理机制为所有参数规模的Holo2模型均带来了10%到20%的相对性能提升。
- 测试细节:在ScreenSpot-Pro测试中,单步操作准确率为70.6%,使用代理模式在3步内即可将准确率提升至78.5%。
- 训练基础设施:采用SkyPilot作为统一接口,在Kubernetes (k8s) 集群上协调跨多个云服务提供商的大规模训练工作负载。
- 研发效率:SkyPilot抽象了底层基础设施的复杂性,使研究人员无需管理k8s清单或独立部署脚本,从而全心投入模型开发。
正文
距离首批Holo2模型发布已经过去两个月,H公司再次推出了迄今为止规模最大的UI(用户界面)定位模型:Holo2-235B-A22B Preview。
该模型目前已在Hugging Face平台上线,这是一个专注于UI元素定位的研究版本。它创下了全新的SOTA(最高水平)纪录:在Screenspot-Pro基准测试中成绩达到78.5%,在OSWorld G中达到79.0%。
代理式定位(Agentic Localization)解决高分辨率难题
对于定位模型而言,高分辨率的4K界面是一项巨大的挑战,因为在宽大的显示屏上很难精准锁定微小的UI元素。
然而,通过引入代理式定位技术,Holo2能够迭代式地优化其预测结果,在每一步操作中不断提高准确率。这一机制为所有参数规模的Holo2模型都带来了10%到20%的相对性能提升。
在ScreenSpot-Pro上的卓越表现
Holo2-235B-A22B Preview在最具挑战性的GUI Grounding基准测试中表现优异:
- 单步操作:在ScreenSpot-Pro上即可达到70.6%的准确率。
- 代理模式:在3步之内即可将准确率提升至78.5%,从而确立了该项测试的全新SOTA标准。
借助SkyPilot实现高效的大规模训练
大规模训练Holo2模型需要协调跨多个云服务提供商的工作负载。为了解决这一问题,H公司采用了SkyPilot作为统一接口,在带有Kubernetes (k8s) 的集群上启动训练任务。
通过抽象化底层基础设施的复杂性,SkyPilot让研究人员能够将全部精力集中在模型开发上,而无需耗费时间去管理k8s清单或维护繁杂的独立部署脚本。