AI工具如何重塑通用设计以提升无障碍体验

摘要

1) 一句话总结

Google Research 推出了原生自适应界面（NAI）框架，通过嵌入多模态AI智能体并与残障社区联合设计，将静态UI转化为能根据用户需求动态调整的无障碍体验。

2) 关键要点

核心框架（NAI）： 推出原生自适应界面（NAI），用动态的、由智能体驱动的模块取代“一刀切”的静态导航，实现基于上下文的UI自适应调整。
目标受众与数据： 旨在利用生成式AI的自适应能力，更好地服务全球约13亿（占总人口16%）的残障人士。
社区联合设计： 秉持“没有我们的参与，就不要做关于我们的决定”原则，与 RIT/NTID、The Arc、RNID 和 Team Gleason 等组织及残障人士从开发初期合作，并为该社区创造就业机会。
多智能体系统： 采用中央协调器（Orchestrator）管理上下文，并将任务分配给专业子智能体（如负责处理复杂文档的“摘要智能体”和动态调整UI的“设置智能体”）。
多模态技术应用： 利用 Gemini 模型同时处理语音、视觉和文本的能力，将实时视频转化为即时、交互式的音频描述，降低用户认知负荷。
原型验证 - StreetReaderAI： 为盲人和低视力（BLV）用户设计的虚拟向导，结合“AI描述器”和“AI聊天”，具备空间和上下文记忆能力以辅助物理导航。
原型验证 - MAVP： 多模态智能体视频播放器，利用离线密集索引和检索增强生成（RAG）技术，允许用户在视频播放时通过语音进行高准确度的交互式提问。
原型验证 - 语法实验室： 由 RIT/NTID 构建的双语（美国手语和英语）AI学习平台，为学生提供定制化的英语写作辅导和反馈。
路缘斜坡效应： 为极端限制条件（残障人士）设计的 NAI 功能最终使更广泛的群体受益，例如语音界面方便多任务处理者，合成工具帮助专业人士快速解析信息。

3) 风险与缺口（基于原文明确提及）

无障碍鸿沟（Accessibility Gap）： 传统开发中，新功能发布与为其创建辅助层之间存在延迟，这是实现数字公平的一个重大障碍。
物理空间导航障碍： 对于盲人和低视力（BLV）用户而言，在物理空间中导航是他们参与社会活动的重大现实障碍。
传统音频描述的局限性： 标准的音频描述（AD）通常是静态和被动的，无法满足用户在特定情境下交互式查询环境细节的需求。

正文

作者：Marian Croak（Google Research 工程副总裁）与 Sam Sepah（Google Research AI无障碍项目首席经理）日期：2026年2月5日

Google Research 提出的原生自适应界面（Natively Adaptive Interfaces, NAI）通过嵌入多模态AI工具，重塑了通用设计。这些工具与无障碍社区共同开发，能够根据用户的独特需求进行自适应调整。

在Google，我们致力于为所有人开发产品，无障碍环境（Accessibility）是其中的关键部分。我们的团队与残障人士社区合作，从开发初期就将无障碍理念融入其中。如今，生成式AI为我们提供了让工具变得更加个性化和自适应的机会。

全球有16%的人口（约13亿人）是残障人士。借助生成式AI的自适应能力，我们有机会通过采用“没有我们的参与，就不要做关于我们的决定（Nothing About Us Without Us）”的理念来更好地服务全球13亿人。我们相信，技术应该像使用它的人一样独一无二。我们正在创造一个世界，在这个世界里，每一个界面都能根据你的偏好进行调整，与你和谐共处。

在此，我们自豪地推出原生自适应界面（NAI）。这是一个通过多模态AI工具创建更具无障碍性应用程序的框架。借助NAI，UI设计可以超越“一刀切”的模式，转向基于上下文的决策。NAI用动态的、由智能体驱动的模块取代了静态导航，将数字架构从被动工具转变为主动的协作者。

经过严格的原型测试以验证该框架，我们开辟了一条通往通用设计的新路径。我们的目标是为残障人士创造本质上更具无障碍性的环境。

社区投资：没有我们的参与，就不要做关于我们的决定

基于“没有我们的参与，就不要做关于我们的决定”这一长期倡导原则，我们继续将社区主导的联合设计融入我们的开发生命周期中。

通过与残障社区的个人合作，并邀请他们从一开始就作为联合设计师参与，我们能够确保他们的生活经验和专业知识成为解决方案的核心。在 Google.org 的支持下，罗切斯特理工学院国家聋人技术学院（RIT/NTID）、The Arc、RNID 和 Team Gleason 等组织正在构建自适应AI工具，以解决其社区在现实世界中遇到的痛点。这些组织认识到，能够熟练运用人类多样化沟通方式的AI工具具有巨大的变革潜力。

此外，这种联合设计方法推动了经济赋权，并为残障社区创造了就业机会，确保为技术提供建议的人也能从其成功中获得回报。

研究方向：为无障碍而设计

在早期的研究中，我们发现实现数字公平的一个重大障碍是“无障碍鸿沟（accessibility gap）”，即新功能发布与为其创建辅助层之间的延迟。为了消除这一鸿沟，我们正从被动工具转向界面原生的智能体系统。

使用多系统智能体改善无障碍体验 多模态AI工具为构建无障碍界面提供了最有希望的路径之一。在特定的原型（如网络可读性项目）中，我们测试了一种模型，其中中央协调器（Orchestrator）充当战略阅读管理器。

用户不再需要在复杂的菜单迷宫中导航，协调器会维护共享的上下文——理解文档，并通过将任务委托给专家子智能体来使其更易于访问：

摘要智能体（The Summarization Agent）： 通过分解信息并将关键任务委托给专家子智能体来处理复杂文档，使最深奥的见解也变得清晰易懂。
设置智能体（The Settings agent）： 动态处理UI调整，例如缩放文本。

研究表明，通过测试这种模块化方法，用户可以更直观地与系统交互，确保专业任务始终由合适的专家处理，而无需用户去寻找“正确”的按钮。

迈向多模态流畅性 我们的研究还致力于超越基础的文本转语音，迈向多模态流畅性。通过利用Gemini同时处理语音、视觉和文本的能力，我们构建了能够将实时视频转化为即时、交互式音频描述的原型。

这不仅仅是描述一个场景，更是关于情境感知。在联合设计会议中，我们观察到，允许用户交互式地查询他们的环境（在视觉细节发生时询问特定信息）可以降低认知负荷，并将被动体验转化为主动的对话式探索。

经过验证的原型：人机交互的“顶点”

我们通过严格的原型设计验证了这一架构，旨在解决复杂的交互挑战并寻找改进机会。在这些“顶点（vertex）”时刻，我们的研究表明，多模态AI工具能够准确解释并响应用户细微、具体的需求。

StreetReaderAI： 这是一个为盲人和低视力（BLV）用户提供的虚拟向导。在物理空间中导航可能是他们参与社会活动的重大障碍。StreetReaderAI通过采用两个交互式AI子系统来解决这个问题：一个不断分析视觉和地理数据的“AI描述器”，以及一个回答特定问题的“AI聊天”。由于系统保持上下文，用户可以走过一个地标，稍后询问：“等等，那个公交站在哪里？”智能体会回忆起之前的视觉画面并提供精确的指导：“公交站在你身后，大约12米远。”
多模态智能体视频播放器（MAVP）： 被动收听的标准音频描述（AD）提供了视觉元素的旁白轨道，但它们通常是静态的。MAVP原型将视频转化为交互式的、由用户主导的对话。MAVP基于Gemini模型构建，允许用户在实时播放中口头调整描述细节，或暂停提问，例如“角色穿的是什么？”。该系统使用两阶段管道：首先在离线状态下生成视觉描述的“密集索引”，然后在播放期间使用检索增强生成（RAG）提供快速、高准确度的响应。
语法实验室（Grammar Laboratory）： 在 Google.org 的支持下，RIT/NTID 正在构建“语法实验室”，这是一个双语（美国手语和英语）的AI驱动学习平台，为学生的英语写作提供辅导和反馈。它通过多种无障碍格式提供语法教学，包括：用美国手语（ASL）讲解英语语法规则的视频、书面英语字幕、英语语音旁白和书面文字记录。学生与自适应AI工具交互，该工具会根据他们的互动创建定制内容并个性化他们的学习体验，确保用户能够以最适合其语言偏好和优势的格式参与内容学习。

路缘斜坡效应 (The curb-cut effect)

使用NAI框架的应用程序通常会产生强烈的“路缘斜坡效应”——即为极端限制条件设计的功能最终会使更广泛的群体受益。就像人行道斜坡最初是为轮椅用户设计的，但也改善了推婴儿车的父母和推行李的旅客的生活一样，使用NAI框架构建的AI工具也能为许多人创造卓越的体验。例如：

通用效用： 为盲人用户构建的语音界面，对于正在多任务处理的视力正常用户来说也非常有用。
合成工具： 旨在支持学习障碍者的工具，可以帮助忙碌的专业人士更快地解析信息。
个性化学习： 为聋人和听力障碍用户构建的AI导师，可以为所有学生创建定制的学习旅程。

结语：无障碍的黄金时代

我们正在进入一个AI无障碍应用可能性的“黄金时代”。借助多模态AI的自适应能力，我们有机会构建能够实时调整以适应人类各种能力的各种用户界面。

这个时代不仅仅是关于使用设备；它是关于直接与使用这些技术的社区合作。通过与残障社区共同开发技术，我们可以引发一个互助的良性循环，在创造可能性的同时不断拓展其边界。

致谢我们的工作得益于 Google.org 的慷慨支持，他们对我们愿景的承诺具有变革性意义。我们很荣幸能与来自 Google Research AI、Product For All (P4A)、BBCWorks、罗切斯特理工学院国家聋人技术学院 (RIT/NTID)、The Arc、RNID 和 Team Gleason 的专业团队并肩工作。

wsl-docs

探索