火星科技网您的位置:首页 >车科技 >

Microsoft如何使用AI来改善可访问性

导读 根据美国劳工统计局的数据,残疾人的失业率是没有失业率的两倍多。正如发人深省一样,据估计,只有十分之一的残疾人社区成员可以使用适合其

根据美国劳工统计局的数据,残疾人的失业率是没有失业率的两倍多。正如发人深省一样,据估计,只有十分之一的残疾人社区成员可以使用适合其需求的设备。

没有银弹。但如果你问微软,解决方案的种子就在于人工智能和机器学习。

微软高级可访问性架构师Mary Bellard在公司采访前告诉VentureBeat,“我们已经知道人工智能体验可以为残障人士提供大量信息,从而最终增强他们的独立性。”年度西雅图Build开发者大会。“[我们正在努力]确保我们不仅仅是为了技术而开发技术,[但是]致力于特定残疾人社区想要并且有兴趣与我们一起驾驶的技术。”

Bellard在可访问性方面工作了11年,于2014年加入微软,并在推出残疾人答案台方面发挥了关键作用,该支持热线客户可致电解决可访问性问题,获得可用性问题的答案,并了解辅助问题微软消费产品中的技术。在首席可访问性官员Jenny Lay-Flurrie的职权范围内,Bellard负责监督公司Windows,Office和Azure产品部门的可访问性工作,并且她和同事与为全球残疾人服务的非政府组织合作。

“我们非常关注社区的需求和需求,我们在各种不同的项目中与他们合作,”Bellard说。“人们和组织......正在寻找[微软]的平台和我们的工具并说'我想用它来解决我们的问题',这真是太神奇了。”

AI for Accessibility

根据Bellard的说法,强大的客户对辅助技术开发平台的需求推动了人工智能无人机的推出,这是微软第二个人工智能倡议。紧随其后 - 该模型主要模仿该公司的地球人工智能计划,该计划为寻求解决气候,水,农业和生物多样性相关问题的组织提供培训和资源。

“我们想知道类似的[方法]是否适用于残疾人社区以及为人们开发技术的创新社区,”Bellard说。

通过在2018年5月宣布的AI for Accessibility,微软在接下来的五年中承诺为大学,慈善组织和其他开发为残疾人服务的AI工具的2500万美元。该计划由Lay-Flurrie,Bellard和其他人监督,并奖励最有前途的候选人群,分为三个类别 - 工作,生活和人际关系 - 每个财政季度提供种子补助和后续融资。

Bellard说,除了他们的创新性和可扩展性之外,这些提案还是在滚动的基础上被接受,并且“根据他们的科学价值进行评估”。选定的申请人将以10,000美元,15,000美元或20,000美元的增量获得微软AzureAI平台的计算积分,具体取决于他们的项目范围和需求,以及用于支付与收集或标记数据,精炼模型或其他工程相关工作相关的成本的额外资金。他们还可以访问Microsoft工程师,他们与他们合作以加速开发并将他们的创新融入“平台级”合作伙伴服务。

贝拉德说,现在还处于早期阶段。但近一年来,AI for Accessibility已经取得了成果。

总部位于加利福尼亚的iTherapy是第一个获得赠款的人之一,它用于将聊天机器人和3D头像添加到其通信技能应用程序InnerVoice中。联合创始人Lois Brady和Matthew Guggemos都有语言病理学和辅助技术和自闭症专业的背景,他们表示,新实施的人工智能功能正在促进参与。

“动机是学习[沟通技巧]的最大因素之一,”古格莫斯说。“你必须非常积极地学习任何语言。所以创造一些有趣[和]激励的东西是一个巨大的优势。拥有AI聊天机器人[和]算法可以应用语言[到]内容[对于自闭症孩子[和]其他沟通挑战的孩子来说是一个重大的改变游戏规则。“

为此,InnerVoice将头像与书面文字,图片和视频相结合,创造了帮助学习者识别语音和语言之间联系的体验。它的视频抽象概念,而头像标记使用面部表情和情感语调发生的事情,用户练习与化身的对话 - 超级英雄,绘画或亲人的照片 - 并通过拍摄机器学习的图片来学习单词算法检测和标记。

InnerVoice正在一个18,000名学生的密苏里州学区接受非语言儿童的试点,最近的年终测试表明,定期使用它的人的语言技能有所提高。即将进行临床研究,但如果一切顺利,Brady认为InnerVoice可能成为估计有6-8百万经历某种形式语言障碍的美国人的宝贵工具。

“我认为,传统上,许多[语音病理学]设备和应用程序被推荐给人们被抛弃,”她说。“他们往往太难以使用,或者他们很麻烦。当你添加AI时,它们变得更容易使用 - 你几乎可以立即定制它们。

AI贯穿始终

当然,微软的AI可访问性工作超越了AI for Accessibility。

微软最近与罗切斯特理工学院合作,提供微软翻译工具Microsoft翻译工具,为1500多名耳聋和听力障碍的学生实时转录课堂讲座。该系统将语音转换为流利的,间断的文本,并通过微软自定义语音服务(CSS)提供的材料学习技术词汇。隐藏式字幕通过一个名为Presentation Translator的Microsoft PowerPoint插件投射到演讲厅屏幕上,学生可以通过笔记本电脑,手机或平板电脑访问它们,或者将它们翻译成60多种语言。

“这确实改变了这些大学生所拥有的包容性课堂体验,”Bellard说。“越来越多的组织,初创公司和研究人员都希望做到这一点。”

另一个微软的无障碍合作伙伴 - 位于法国图卢兹的Equadex公司 - 开发了一种工具,为自闭症儿童提供语言的视觉表现,促进他们与父母,教师和临床医生之间的社交互动。使用Microsoft的Cognitive Services和Azure工具,它可以实时将语音转换为句子并确定命令的意图,并从数据库中提供相关图像。

微软也通过公司范围的黑客马拉松来促进内部可访问性工作。Bellard是构建Seeing AI的团队的一员,这是一个移动应用程序,旨在帮助低视力和弱视用户浏览他们周围的世界。它利用计算机视觉和文本到语音系统来“读取”智能手机相机前面的句子,并在保留原始格式的同时对打印页面进行数字化,识别朋友和人(以及他们的情感),描述颜色,识别货币票据,并产生对应于环境亮度的可听音调。

2014年,参与该公司One Weekdev jam的Microsoft Enable团队开发了Eye Controlled Wheelchair,这是一种工具,使轮椅使用者可以单独使用眼球。他们的原型 - 受到来自前NFL球员史蒂夫格里森的电子邮件的启发,他患有神经退行性疾病肌萎缩侧索硬化症(ALS) - 赢得了微软3000个项目的最高奖项,并刺激了专门的眼睛的创造 - 跟踪公司Windows部门内的支持团队。

眼控是该团队的第一个产品。它是一个Windows 10功能,与兼容的眼动仪配合使用,让残疾人可以通过凝视操作鼠标和键盘,这是一个定制设计的任务栏,是屏幕键盘,鼠标仿真和新功能的扩展。滚动界面。

反过来,这项工作为微软的一项实验提供了信息,该实验涉及一套名为Sound Jam和Sound Machine的眼控音乐创作工具。Sound Jam - 基于循环录制的环境 - 具有适用于眼睛控制的商业音乐制作软件中的设计范例,而Sound Machine是一个16步声音音序器,支持输出到物理乐器以及舞台效果。

去年9月推出了微软的Soundscape,这是一款使用双耳音频的导航应用 - 用两个麦克风录制的声音,用于创建3D立体声音效 - 帮助视障用户构建心智地图,并在不熟悉的空间中选择个人路线。其算法通过从GPS数据,开源映射数据库OpenStreetMap和活动传感器中摄取数据来生成音频线索,这些数据指示自设音频信标何时在步行距离内。

最近,微软推出了Accessibility Checker,它可以分析内容并提供建议,以确保具有不同视觉,听觉,认知和移动性的人可以使用Word,Excel,PowerPoint,OneNote,Outlook和Visio。

数据短缺

AI模型“学习”通过摄取海量数据集来执行任务,其中一些数据集包含数百万个样本。半监督学习和转移学习等新兴技术有望减少对大型语料库的需求,但传统方法加剧了无障碍研究人员面临的挑战,他们往往被迫从残疾人社区收集的相对较小的数据集中获取培训数据。

“目前没有足够数据来自残障人士可用的数据集,当从残疾人那里收集数据时,往往是不够的。这往往导致它成为数据集中的边缘情况并最终在模型中,所以它并没有真正提供很大的价值。“巴拉德说。“我们认为,在非常实际的情况下,我们有一个独特的机会,可以为残障人士提供有价值,清洁和贴标签的数据。”

她给出了一个具体的例子:手语。它被美国大约200万人使用,他们无法理解正常的言论,其中大约有500,000人是聋人。但是,最大的开源手语数据集之一只包含31,000个样本,与Mozilla的Common Voice等语音语料库中的数十万个样本相比。

“如果你考虑传统的自然语言处理......你必须有某种语言模型。几乎在所有情况下,该语言模型都是建立在语言的文本表示之上的,“巴拉德说。“在聋人社区中,使用像手语这样的视觉语言是一种常见的体验,这些语言不是口语的手势表示,而是独特的语言语言。手语没有一致的书面表达。“

幸运的是,部分归功于微软的努力,其他可访问性领域的数据收集正在蓬勃发展。

微软研究人员去年与RIT的一位教授合作,建立了一种自定义语言模型,可以更好地识别语言受到耳聋影响的用户。1月份,爱荷华大学计算机科学助理教授Kyle Rector(以及另一位资助者)与纽约州立大学布罗克波特分校的科学家合作,创建了一个标记不同的户外步行和慢跑轨道的数据集。用于开发移动应用程序,以便在视觉障碍用户转向车道时提醒他们。

“[这些例子]确实说明了将残疾人纳入数据收集的重要性,”Bellard说。“残疾人在人工智能技术的未来发挥着非常关键的作用。”

标签:

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。