社区编辑申请
注册/登录
帮视障人士“看见”图片 字节跳动最新视觉语言预训练模型入选ICML 2022
新闻
信息无障碍研究会发布的报告显示,超过90%的视障人士会使用智能手机了解外面的世界。

近日,字节跳动AI Lab Research 团队推出一项视觉语言预训练模型,支持多模态的理解和生成,例如将画面转化为准确、流畅的描述文字,帮助视障人士“看见”图片。这项技术成果已入选人工智能国际顶级会议ICML 2022,并应用于今日头条App、大力智能灯等业务场景。

据了解,这个名为X-VLM 的模型在业内首次提出学习多粒度的视觉和语言对齐,能为图片生成更为精准的描述,比如更正确地识别物体、描述物体间的关系。

信息无障碍研究会发布的报告显示,超过90%的视障人士会使用智能手机了解外面的世界。此前,手机系统自带的读屏软件已经实现把屏幕上的文字念出来,帮助视障人士“读”新闻、“看”文章。可遇到文章中的图片,读屏软件往往无法识别,只能播报“图片”二字。

采用了X-VLM 模型,今日头条App可以自动识别图片,还能将它们“翻译”成通顺流畅的语句,并通过语音播报出来,助力视障人士解决读图难题。

值得一提的是,X-VLM可在模型规模和预训练数据有限的情况下实现高效训练。数据显示:216M参数量的X-VLM模型就能在图像文本检索、基于图片的问答或推理、视觉定位、图片描述生成等广泛的多模态任务上获得十分优秀的表现。目前,X-VLM在字节跳动的真实应用场景上的表现已超过一些业界领先的最新模型。

近年来,人工智能在助推无障碍环境方面发挥了重要作用。利用技术持续改进无障碍与适老化体验是字节跳动在公益方面的重要方向。除了在抖音系产品中不断完善无障碍功能,字节跳动还通过面向企业用户的云服务平台火山引擎,以技术输出的方式,服务更广泛的社会群体。

论文:Multi-Grained Vision Language
Pre-Training: Aligning Texts with Visual Concepts(
https://arxiv.org/abs/2111.08276

代码:https://github.com/zengyan-97/X-VLM



责任编辑:黄显东

同话题下的热门内容

「芯片法案」下周签署!台积电沉默以对佩洛西,三星、SK海力士谨慎观望说实话,今年互联网人跳槽的逻辑变了再见!英特尔宣布将彻底关停这项业务历时1年,大型金融企业100%核心系统国产数据库迁移实践Github突遭大规模恶意攻击,大量加密密钥可能泄露!Kafka在美团数据平台的实践大意了!平常不重视慢SQL,搞得现在系统要重构……中科院打脸谷歌:普通电脑追上量子优越性,几小时搞定原本要一万年的计算

编辑推荐

斩获BAT技术专家Offer,他到底经历了什么?支付宝即将下线收款业务:2018年1月1日起正式执行,网友炸锅了!我活着从柬埔寨技术“魔窟”逃出来了…甲骨文云平台全面升级,助力客户稳步上云一文看懂Java收费 附可替换方案!
我收藏的内容
点赞
收藏

51CTO技术栈公众号