向善而生的AI助盲,让AI多一点,障碍少一点******
有人说,盲人与世界之间,相差的只是一个黎明。在浪潮信息研发人员的心中,失去视力的盲人不会陷入永夜,科技的进步正在力图给每一个人以光明未来。
AI助盲在人工智能赛道上一直是最热门的话题之一。以前,让失明者重见光明依靠的是医学的进步或“奇迹”。而随着以“机器视觉+自然语言理解”为代表的多模态智能技术的爆发式突破,更多的失明者正在借助AI提供的感知、理解与交互能力,以另一种方式重新“看见世界”。
新契机:多模态算法或将造福数以亿计失明者
科学实验表明,在人类获取的外界信息中,来自视觉的占比高达70%~80%,因此基于AI构建机器视觉系统,帮助视障患者拥有对外界环境的视觉感知与视觉理解能力,无疑是最直接有效的解决方案。
一个优秀的AI助盲技术,需要通过智能传感、智能用户意图推理和智能信息呈现的系统化发展,才能构建信息无障碍的交互界面。仅仅依靠“一枝独秀”超越人类水平的单模态人工智能比如计算机视觉技术还远远不够,以“机器视觉+自然语言理解”为代表的多模态算法的突破才是正确的新方向和新契机。
多个模态的交互可以提升AI的感知、理解与交互能力,也为AI理解并帮助残障人士带来了更多可能。浪潮信息研发人员介绍说,多模态算法在AI助盲领域的应用一旦成熟,将能够造福数以亿计的失明者。据世卫组织统计,全球至少22亿人视力受损或失明,而我国是世界上盲人最多的国家,占世界盲人总数的18%-20%,每年新增的盲人数量甚至高达45万。
大挑战:如何看到盲人“眼中”的千人千面
AI助盲看似简单,但多模态算法依然面临重大挑战。
多模态智能算法,营造的是沉浸式人机交互体验。在该领域,盲人视觉问答任务成为学术界研究AI助盲的起点和核心研究方向之一,这项研究已经吸引了全球数以万计的视障患者参与,这些患者们上传自己拍摄的图像数据和相匹配的文本问题,形成了最真实的模型训练数据集。
但是在现有技术条件下,盲人视觉问答任务的精度提升面临巨大挑战:一方面是盲人上传的问题类型很复杂,比如说分辨冰箱里的肉类、咨询药品的服用说明、挑选独特颜色的衬衣、介绍书籍内容等等。
另一方面,由于盲人的特殊性,很难提取面前物体的有效特征。比如盲人在拍照时,经常会产生虚焦的情况,可能上传的照片是模糊的或者没有拍全,或者没拍到关键信息,这就给AI推理增加了难度。
为推动相关研究,来自卡内基梅隆大学等机构的学者们共同构建了一个盲人视觉数据库“VizWiz”,并发起全球多模态视觉问答挑战赛。挑战赛是给定一张盲人拍摄的图片和问题,然后要求给出相应的答案,解决盲人的求助。
另外,盲人的视觉问答还会遭遇到噪声干扰的衍生问题。比如说,盲人逛超市,由于商品外观触感相似,很容易犯错,他可能会拿起一瓶醋却询问酱油的成分表,拿起酸奶却询问牛奶的保质期等等。这种噪声干扰往往会导致现有AI模型失效,没法给出有效信息。
最后,针对不同盲人患者的个性化交互服务以及算法自有的反馈闭环机制,同样也是现阶段的研发难点。
多解法:浪潮信息AI助盲靶向消灭痛点
AI助盲哪怕形式百变,无一例外都是消灭痛点,逐光而行。浪潮信息多模态算法研发团队正在推动多个领域的AI助盲研究,只为帮助盲人“看”到愈发精彩的世界。
在VizWiz官网上公布的2万份求助中,盲人最多的提问就是想知道他们面前的是什么东西,很多情况下这些物品没法靠触觉或嗅觉来做出判断,例如 “这本书书名是什么?”为此研发团队在双流多模态锚点对齐模型的基础上,提出了自监督旋转多模态模型,通过自动修正图像角度及字符语义增强,结合光学字符检测识别技术解决“是什么”的问题。
盲人所拍摄图片模糊、有效信息少?研发团队提出了答案驱动视觉定位与大模型图文匹配结合的算法,并提出多阶段交叉训练策略,具备更充分的常识能力,低质量图像、残缺的信息,依然能够精准的解答用户的求助。
目前浪潮信息研发团队在盲人视觉问答任务VizWiz-VQA上算法精度已领先人类表现9.5个百分点,在AI助盲领域斩获世界冠军两项、亚军两项。
真实场景中的盲人在口述时往往会有口误、歧义、修辞等噪声。为此,研发团队首次提出视觉定位文本去噪推理任务FREC,FREC提供3万图片和超过25万的文本标注,囊括了口误、歧义、主观偏差等多种噪声,还提供噪声纠错、含噪证据等可解释标签。同时,该团队还构建了首个可解释去噪视觉定位模型FCTR,噪声文本描述条件下精度较传统模型提升11个百分点。上述研究成果已发表于ACM Multimedia 2022会议,该会议为国际多媒体领域最顶级会议、也是该领域唯一CCF推荐A类国际会议。
在智能交互研究方面上,浪潮信息研发团队构建了可解释智能体视觉交互问答任务AI-VQA,同时给出首个智能体交互行为理解算法模型ARE。该研究成果已发表于ACM Multimedia 2022会议。该研究项目的底层技术未来可广泛应用于AI医疗诊断、故事续写、剧情推理、危情告警、智能政务等多模态交互推理场景。
眼球虽然对温度并不敏感,但浪潮信息的研发团队,却在努力让盲人能“看”到科技的温度,也希望吸引更多人一起推动人工智能技术在AI助盲、AI反诈、AI诊疗、AI灾情预警等更多场景中的落地。有AI无碍,跨越山海。科技的伟大之处不仅仅在于改变世界,更重要的是如何造福人类,让更多的不可能变成可能。当科技成为人的延伸,当AI充满人性光辉,我们终将在瞬息万变的科技浪潮中感受到更加细腻温柔的善意,见证着更加光明宏大的远方。
“乙类乙管”后是否会有第二轮感染?疫情信息如何统计?总台独家专访吴尊友******
1月8日起新冠病毒感染实施“乙类乙管”,对于疫情监测数据通报、病毒变异是否会引发新一轮感染,我国又将采取怎样的措施继续实施监控,总台央视记者独家专访中国疾控中心流行病学首席专家吴尊友,他就公众关心的问题进行了解答。
总台央视记者 史迎春:大家都在担心在国际上的奥密克戎BQ系列,然后包括XBB系列的变异株,它们在我们实行“乙类乙管”,出入境打开以后,进入国内会掀起第二轮的感染,这是大家普遍担心的一个问题,您认为这个问题应该怎么看。
中国疾控中心流行病学首席专家 吴尊友:我们也对国际社会的各个国家流行的新毒株的情况进行了解追踪,那么同时对国内发生的疫情也进行了毒株变异的监测,特别是从境外回国人员当中也检测到这些毒株。会不会造成新一轮的疫情,取决于变异的毒株和我们刚刚流行的这些毒株之间,在结构上面有多大的相似性,或者说它的变异差异有多大。从目前来看,因为它的变异也是奥密克戎亚型里面的分支的变异,马上造成新一轮传播的这种风险的话,应该说不会太大。
总台央视记者 史迎春:还有一种担心是认为中国人口基数比较大,感染的人口基数也大,会不会产生新的变种,从而影响整个世界的病毒序列,或者说整个世界的病毒的进程。
中国疾控中心流行病学首席专家 吴尊友:优化防控策略以后,本地传播的疫情病例数在有一定的水平和规模的情况下,确实存在着新的变异毒株的可能性,我们也密切关注。所以在“乙类甲管”调整为“乙类乙管”的疫情监测方案当中,就专门提到了新冠病毒变异毒株的监测,在现阶段,每天都在进行新的毒株的样本收集和测序,来对它的变化进行监测。从目前的结果来看,我们现在发现的所有的毒株,都是已经在国际共享平台上分享的毒株,也就是说在国外已经报告了,或者说主要是从境外流行以后传入中国,到目前为止还没有发现国内新出现的变异毒株。
为指导全国各地做好当前新型冠状病毒感染疫情监测工作,国务院联防联控机制印发了《新型冠状病毒感染“乙类乙管”疫情监测方案》,及时动态掌握人群感染发病水平和变化趋势,科学研判和预测疫情规模、强度和流行时间,动态分析病毒株变异情况,以及对传播力、致病力、免疫逃逸能力及检测试剂敏感性的影响,为疫情防控提供技术支撑。
总台央视记者 史迎春:对于之前疫情通报的数字和自己本身的感受,很多公众觉得差距比较大。我们国家一直的疫情统计和发布的疫情信息,是如何去监测和统计报告的?现在有没有相应的调整?
中国疾控中心流行病学首席专家 吴尊友:在武汉疫情控制以后,到我们优化防控方案这期间,是叫严格管控时期。每一起疫情的源头、造成感染的毒株,几乎每一个感染者都能够被诊断管理,所以我们采取的是一个计数统计。现阶段由于防控方案的调整,报告病例数和公众感觉的数字,存在着一定的差距。造成这种差距有两个方面的原因,一个是不再实行行政区的大规模核酸检测了,除了重点机构重点人群以外,采取的方法是愿检尽检的方法,这样的话检测的人数、报告的人数就有明显的下降。第二个方面,疫情的感染者主要以轻症为主,多数人还在家庭自我休息调整、进行抗原检测,这一部分也没有纳入到传染病报告,这就造成了这样的差距。为了更好地做好统计工作,联防联控机制制定下发了新冠病毒感染“乙类乙管”疫情监测方案,采取的是多种渠道的监测,包括住院病例的报告监测、核酸抗原检测的数字统计,还有重点机构像养老福利机构的监测,再有像学校学生的呼吸道症状的监测,以及对部分病人的检测。还有我们在全国设立500多个流感哨点监测。我们采用了多种统计方法综合运用,也能够相对准确评估疫情的发生发展趋势,能够对于疫情的发病,流行的强度,流行的趋势,流行的时间做出研判,对防控效果作出评价。在过去几年,欧美国家和全球其他的国家实际上也是采取这样一个统计方法,它主要就是通过抽样的方法来反映总体情况。(央视新闻客户端)
(文图:赵筱尘 巫邓炎)