跨越数字鸿沟,小布助手帮助视障群体“听见”图像
当前,我国视障人群总数已经超过1800万,如何用技术手段改变他们的现实困境,是国内不少科技企业正在努力创新的方向。12月14日,在OPPO未来科技大会2021上,小布助手正式推出“无障碍图像功能”。
作为国内首个在智能手机落地的无障碍图像信息获取AI工具,“无障碍图像功能”借助AI科技解决了之前语音旁白无法识别图像的行业痛点,帮助视障用户精准获取图像信息,践行“科技为人,以善天下”的技术创新理念。
“助视”产品美中不足,小布助手首发无障碍图像功能
据世界卫生组织统计,目前中国存在视力障碍的人群约为总人口的1.2%左右,也就是说,每82个人中就有一名视障患者。这些视障患者虽然生活面临不同的困难,但也受惠于科技的进步,特别是在获取信息方面,涌现出不少的“助视”产品,以智能手机为例,就有安卓系统的TalkBack、iOS系统的旁白功能。然而,这些“助视”功能仍存在美中不足的地方,它们只能识别文字而无法识别图像内容。也就是说,在视障用户使用智能手机时,很容易听到文字转语音的精准播报,但若遇到图像,就只能接受一段“无能为力”的空白播报。
基于对障碍人群的长期关注,小布助手针对视障用户存在的上述痛点问题,进行了一系列“有AI无障碍”的能力建设。在对视障群体进行深入调查后,小布助手搭建了无障碍图像信息获取AI工具,通过识别与分析图像信息并进行语音播报,为视障用户提供从“视觉”到“听觉”的多模态交互方式,为视障用户填上了图像信息的“空白”。
采用大规模多模态预训练模型,打造最精准的图像AI技术
小布助手首发落地的“无障碍图像功能”,在技术上采用了当前业界最大的中文多模态通用预训练模型,实现了对深度学习、大数据、自然语言处理等前沿技术的应用突破。该模型具有基于视觉-语言弱相关的假设、多模态与对比学习算法结合、网络结构灵活且方便实际部署等特点,同时在基础架构上采用了更有优势的双塔结构,图文互检预训练任务上则使用了基于MoCo的多模态对比学习方法,使得对应的图文对在该特征空间下有一致的语义表示。
在实际的使用体验中,只要用户打开手机TalkBack功能,就会被默认为视障用户。当遇到图像内容时,用户可在TalkBack提示当前为图片信息时唤醒小布助手,发出类似“这是什么图”的指令,小布助手就会立马对当前图像内容进行解析,并生成自然语言描述播报给用户,真正地将人性化落实到每一个细节当中。
秉承科技为人理念,让创新更具人文关怀
在去年的OPPO未来科技大会上,OPPO首次对外阐释“科技为人,以善天下”的理念,而在今年OPPO未来科技大会上,OPPO则进一步提出了“致善 · 前行”的主题。
小布助手在不断对科技进行创新应用之时,秉承科技为人的理念,针对不同群体的真实需求,特别是当前科技高速发展下的老弱人士、障碍人群,通过推出小布助手关怀版来对手机体验进行适老化改造,并发布让视障人士“看见”图像的“无障碍图像功能”,将科技冰冷一面置于黑箱之中,在产品功能和服务形式上更加“人性化”,带来一次次令用户“怦然心动”的科技体验。
科技创新不能忽视“人”的需求,小布助手以AI技术为辅助工具,为视障者打开光明之窗,让他们“看见”世界。未来,小布助手将持续深耕技术研发和创新,不断为更广泛的障碍人群提供AI科技辅助工具与人文关怀,让每个人都能感受到世界的温暖与科技之美。