摘要
1) 一句话总结
Google Research 推出了原生自适应界面(NAI)框架,通过嵌入多模态AI智能体并与残障社区联合设计,将静态UI转化为能根据用户需求动态调整的无障碍体验。
2) 关键要点
- 核心框架(NAI): 推出原生自适应界面(NAI),用动态的、由智能体驱动的模块取代“一刀切”的静态导航,实现基于上下文的UI自适应调整。
- 目标受众与数据: 旨在利用生成式AI的自适应能力,更好地服务全球约13亿(占总人口16%)的残障人士。
- 社区联合设计: 秉持“没有我们的参与,就不要做关于我们的决定”原则,与 RIT/NTID、The Arc、RNID 和 Team Gleason 等组织及残障人士从开发初期合作,并为该社区创造就业机会。
- 多智能体系统: 采用中央协调器(Orchestrator)管理上下文,并将任务分配给专业子智能体(如负责处理复杂文档的“摘要智能体”和动态调整UI的“设置智能体”)。
- 多模态技术应用: 利用 Gemini 模型同时处理语音、视觉和文本的能力,将实时视频转化为即时、交互式的音频描述,降低用户认知负荷。
- 原型验证 - StreetReaderAI: 为盲人和低视力(BLV)用户设计的虚拟向导,结合“AI描述器”和“AI聊天”,具备空间和上下文记忆能力以辅助物理导航。
- 原型验证 - MAVP: 多模态智能体视频播放器,利用离线密集索引和检索增强生成(RAG)技术,允许用户在视频播放时通过语音进行高准确度的交互式提问。
- 原型验证 - 语法实验室: 由 RIT/NTID 构建的双语(美国手语和英语)AI学习平台,为学生提供定制化的英语写作辅导和反馈。
- 路缘斜坡效应: 为极端限制条件(残障人士)设计的 NAI 功能最终使更广泛的群体受益,例如语音界面方便多任务处理者,合成工具帮助专业人士快速解析信息。
3) 风险与缺口(基于原文明确提及)
- 无障碍鸿沟(Accessibility Gap): 传统开发中,新功能发布与为其创建辅助层之间存在延迟,这是实现数字公平的一个重大障碍。
- 物理空间导航障碍: 对于盲人和低视力(BLV)用户而言,在物理空间中导航是他们参与社会活动的重大现实障碍。
- 传统音频描述的局限性: 标准的音频描述(AD)通常是静态和被动的,无法满足用户在特定情境下交互式查询环境细节的需求。
正文
作者:Marian Croak(Google Research 工程副总裁)与 Sam Sepah(Google Research AI无障碍项目首席经理) 日期:2026年2月5日
Google Research 提出的原生自适应界面(Natively Adaptive Interfaces, NAI)通过嵌入多模态AI工具,重塑了通用设计。这些工具与无障碍社区共同开发,能够根据用户的独特需求进行自适应调整。
在Google,我们致力于为所有人开发产品,无障碍环境(Accessibility)是其中的关键部分。我们的团队与残障人士社区合作,从开发初期就将无障碍理念融入其中。如今,生成式AI为我们提供了让工具变得更加个性化和自适应的机会。
全球有16%的人口(约13亿人)是残障人士。借助生成式AI的自适应能力,我们有机会通过采用“没有我们的参与,就不要做关于我们的决定(Nothing About Us Without Us)”的理念来更好地服务全球13亿人。我们相信,技术应该像使用它的人一样独一无二。我们正在创造一个世界,在这个世界里,每一个界面都能根据你的偏好进行调整,与你和谐共处。
在此,我们自豪地推出原生自适应界面(NAI)。这是一个通过多模态AI工具创建更具无障碍性应用程序的框架。借助NAI,UI设计可以超越“一刀切”的模式,转向基于上下文的决策。NAI用动态的、由智能体驱动的模块取代了静态导航,将数字架构从被动工具转变为主动的协作者。
经过严格的原型测试以验证该框架,我们开辟了一条通往通用设计的新路径。我们的目标是为残障人士创造本质上更具无障碍性的环境。
社区投资:没有我们的参与,就不要做关于我们的决定
基于“没有我们的参与,就不要做关于我们的决定”这一长期倡导原则,我们继续将社区主导的联合设计融入我们的开发生命周期中。
通过与残障社区的个人合作,并邀请他们从一开始就作为联合设计师参与,我们能够确保他们的生活经验和专业知识成为解决方案的核心。在 Google.org 的支持下,罗切斯特理工学院国家聋人技术学院(RIT/NTID)、The Arc、RNID 和 Team Gleason 等组织正在构建自适应AI工具,以解决其社区在现实世界中遇到的痛点。这些组织认识到,能够熟练运用人类多样化沟通方式的AI工具具有巨大的变革潜力。
此外,这种联合设计方法推动了经济赋权,并为残障社区创造了就业机会,确保为技术提供建议的人也能从其成功中获得回报。
研究方向:为无障碍而设计
在早期的研究中,我们发现实现数字公平的一个重大障碍是“无障碍鸿沟(accessibility gap)”,即新功能发布与为其创建辅助层之间的延迟。为了消除这一鸿沟,我们正从被动工具转向界面原生的智能体系统。
使用多系统智能体改善无障碍体验 多模态AI工具为构建无障碍界面提供了最有希望的路径之一。在特定的原型(如网络可读性项目)中,我们测试了一种模型,其中中央协调器(Orchestrator)充当战略阅读管理器。
用户不再需要在复杂的菜单迷宫中导航,协调器会维护共享的上下文——理解文档,并通过将任务委托给专家子智能体来使其更易于访问:
- 摘要智能体(The Summarization Agent): 通过分解信息并将关键任务委托给专家子智能体来处理复杂文档,使最深奥的见解也变得清晰易懂。
- 设置智能体(The Settings agent): 动态处理UI调整,例如缩放文本。
研究表明,通过测试这种模块化方法,用户可以更直观地与系统交互,确保专业任务始终由合适的专家处理,而无需用户去寻找“正确”的按钮。
迈向多模态流畅性 我们的研究还致力于超越基础的文本转语音,迈向多模态流畅性。通过利用Gemini同时处理语音、视觉和文本的能力,我们构建了能够将实时视频转化为即时、交互式音频描述的原型。
这不仅仅是描述一个场景,更是关于情境感知。在联合设计会议中,我们观察到,允许用户交互式地查询他们的环境(在视觉细节发生时询问特定信息)可以降低认知负荷,并将被动体验转化为主动的对话式探索。
经过验证的原型:人机交互的“顶点”
我们通过严格的原型设计验证了这一架构,旨在解决复杂的交互挑战并寻找改进机会。在这些“顶点(vertex)”时刻,我们的研究表明,多模态AI工具能够准确解释并响应用户细微、具体的需求。
- StreetReaderAI: 这是一个为盲人和低视力(BLV)用户提供的虚拟向导。在物理空间中导航可能是他们参与社会活动的重大障碍。StreetReaderAI通过采用两个交互式AI子系统来解决这个问题:一个不断分析视觉和地理数据的“AI描述器”,以及一个回答特定问题的“AI聊天”。由于系统保持上下文,用户可以走过一个地标,稍后询问:“等等,那个公交站在哪里?”智能体会回忆起之前的视觉画面并提供精确的指导:“公交站在你身后,大约12米远。”
- 多模态智能体视频播放器(MAVP): 被动收听的标准音频描述(AD)提供了视觉元素的旁白轨道,但它们通常是静态的。MAVP原型将视频转化为交互式的、由用户主导的对话。MAVP基于Gemini模型构建,允许用户在实时播放中口头调整描述细节,或暂停提问,例如“角色穿的是什么?”。该系统使用两阶段管道:首先在离线状态下生成视觉描述的“密集索引”,然后在播放期间使用检索增强生成(RAG)提供快速、高准确度的响应。
- 语法实验室(Grammar Laboratory): 在 Google.org 的支持下,RIT/NTID 正在构建“语法实验室”,这是一个双语(美国手语和英语)的AI驱动学习平台,为学生的英语写作提供辅导和反馈。它通过多种无障碍格式提供语法教学,包括:用美国手语(ASL)讲解英语语法规则的视频、书面英语字幕、英语语音旁白和书面文字记录。学生与自适应AI工具交互,该工具会根据他们的互动创建定制内容并个性化他们的学习体验,确保用户能够以最适合其语言偏好和优势的格式参与内容学习。
路缘斜坡效应 (The curb-cut effect)
使用NAI框架的应用程序通常会产生强烈的“路缘斜坡效应”——即为极端限制条件设计的功能最终会使更广泛的群体受益。就像人行道斜坡最初是为轮椅用户设计的,但也改善了推婴儿车的父母和推行李的旅客的生活一样,使用NAI框架构建的AI工具也能为许多人创造卓越的体验。例如:
- 通用效用: 为盲人用户构建的语音界面,对于正在多任务处理的视力正常用户来说也非常有用。
- 合成工具: 旨在支持学习障碍者的工具,可以帮助忙碌的专业人士更快地解析信息。
- 个性化学习: 为聋人和听力障碍用户构建的AI导师,可以为所有学生创建定制的学习旅程。
结语:无障碍的黄金时代
我们正在进入一个AI无障碍应用可能性的“黄金时代”。借助多模态AI的自适应能力,我们有机会构建能够实时调整以适应人类各种能力的各种用户界面。
这个时代不仅仅是关于使用设备;它是关于直接与使用这些技术的社区合作。通过与残障社区共同开发技术,我们可以引发一个互助的良性循环,在创造可能性的同时不断拓展其边界。
致谢 我们的工作得益于 Google.org 的慷慨支持,他们对我们愿景的承诺具有变革性意义。我们很荣幸能与来自 Google Research AI、Product For All (P4A)、BBCWorks、罗切斯特理工学院国家聋人技术学院 (RIT/NTID)、The Arc、RNID 和 Team Gleason 的专业团队并肩工作。
相关文档
- 原生自适应界面:AI 无障碍设计的新框架;关联理由:同一事件;说明:两文都围绕 Google 的 NAI 框架展开,来源渠道不同但核心信息一致。
- 教会AI看地图;关联理由:延伸思考;说明:该文的地图空间推理能力可直接补充本文中面向视障用户的导航与无障碍应用场景。