H公司发布全新Holo2模型：在UI定位领域取得领先地位

摘要

一句话总结 H公司发布了迄今规模最大的UI定位模型Holo2-235B-A22B Preview，通过引入代理式定位技术在多项基准测试中创下全新SOTA纪录，并借助SkyPilot实现了高效的跨云大规模训练。

关键点

距离首批Holo2模型发布已经过去两个月，H公司再次推出了迄今为止规模最大的UI（用户界面）定位模型：Holo2-235B-A22B Preview。

该模型目前已在Hugging Face平台上线，这是一个专注于UI元素定位的研究版本。它创下了全新的SOTA（最高水平）纪录：在Screenspot-Pro基准测试中成绩达到78.5%，在OSWorld G中达到79.0%。

对于定位模型而言，高分辨率的4K界面是一项巨大的挑战，因为在宽大的显示屏上很难精准锁定微小的UI元素。

然而，通过引入代理式定位技术，Holo2能够迭代式地优化其预测结果，在每一步操作中不断提高准确率。这一机制为所有参数规模的Holo2模型都带来了10%到20%的相对性能提升。

Holo2-235B-A22B Preview在最具挑战性的GUI Grounding基准测试中表现优异：

大规模训练Holo2模型需要协调跨多个云服务提供商的工作负载。为了解决这一问题，H公司采用了SkyPilot作为统一接口，在带有Kubernetes (k8s) 的集群上启动训练任务。

通过抽象化底层基础设施的复杂性，SkyPilot让研究人员能够将全部精力集中在模型开发上，而无需耗费时间去管理k8s清单或维护繁杂的独立部署脚本。