联系我们

扭曲的条形码,逃不过人工智能的火眼金睛

2021-04-17

先行示范区的这片沃土上,绿树成荫,清风拂面,一片生机盎然的景象。作为空气质量最好的一线城市,深圳蓝屡屡冲上热搜,这是大家都向往的深圳,我们的生活环境在变得越来越好,我们的生活方式在变得越来越智能。现如今,是“一物一码”的物联网时代。条形码、二维码就是物品的身份证、通行证,人机对话已不是科幻电影中的场景,万物互联“能码皆码”。 

我们的生活越来越智能便捷,我们的工作方式同样也是如此。现场大会越来越少,视频会议越来越多。办理证件已不用去市政大厅,直接在官网提交资料,等邮政上门送件即可。同样工作人员也无需再人工审核纸质材料,分门别类辨认真伪,直接通过系统审核即可,这样既缩短了核验时间,也避免了人为差错。

但问题也随之而来。如果这个物品条码打歪了,标签贴错了,出现张冠李戴,混淆视听的情况,或者出现更多不确定的问题怎么办呢?别担心,有了人工智能的加持,物品的“身份证”错不了,再扭曲也逃不过人工智能的“火眼金睛”。

为了更好地服务企业,国家超级计算深圳中心启动“智能服务与决策支持平台”项目,成功开发“物码智能识别系统”,能够“全天候”应对各种复杂的识别、验证问题,大幅提高了办件效率,也在信息真实性的核验上大有作为,具体应用场景见下文。

 

扭曲的条形码也能被人工智能“抓住”

原本企业申请科创委项目时,需要打印出填好的项目申请书,到现场提交,并等待工作人员核验各项信息。有了“物码智能识别系统”以后,企业申请项目时,只需要在系统中上传带签字、盖章的申请书扫描件,工作人员在系统中对申请书进行审核即可。

每份申请书上有一个专属的条形码,它相当于项目在系统中的“身份证”。万物皆可码,这一回我们将条形码技术带给了科创委业务申请系统,加上了专属条形码的申请书是这样的。


图1. 一份完美的申请书办件

这是一份完美的申请书,页面平整条码清晰,但在实际操作过程中,我们发现并不是每一份申请书都能按照规定格式上传。尽管线上上传申请书让申请流程方便快捷了许多,却带来了一些新的问题。

(一)传错文件,申请失败

当企业希望同时申请科创委的多个项目时,申请书会有多份,在上传过程中由于人员疏忽传错申请书,造成项目申请书与对应的项目编号不匹配。文不对题,A题目答上了B内容,B题目答成了C内容,C题目答为了A内容,造成文档交叉犯错,这样所有的申请书都白做了,最终一个项目都没申请成功。实践中存在大量类似问题。


图2. 现实中经常发生的不匹配错误,浪费申报人的时间,也给整个申报流程带来诸多不确定因素

(二)恶意上传,系统崩溃

如果说以上是粗心犯错,那这一种情况可能是“有心犯错”,或受黑客控制上传虚假文件“欺骗”系统,企图以假乱真,考验系统的“智商”。这种情况造成了大量的网络空间浪费,大量无效的文档资料占据了空间,有效的资料想上传却上传不了,系统拥挤网络崩溃,还大幅增添了后期审核的成本。


图3. 现实中存在的“恶意”上传破坏系统的情况,导致系统经常宕机;此问题也是“云”环境中的普遍存在的严重隐患

(三)文件扭曲、识别困难

大多数申请书采取手机拍照再上传的方式。但由于拍摄角度的不同、拍摄光线是否充足、图片的像素是否足够,等等,这些因素都会影响上传办件最后的质量。这样的扫描件可能会存在画面不够清晰、多噪点、扭曲变形等问题,从而给系统定位、识别条形码增加了难度;现实中此类文件的识别成功率仅为1%。


图4. 各种不确定的情况造成的文件扭曲,导致系统识别困难;纠错过程浪费大量人力物力

此外,由于企业上传提交的扫描件并非标准化、统一的,扫描件清晰度不一,条形码也可能存在扭曲的情况,各种人为错误和非人为因素错综复杂掺和在一起,给系统识别、认清条形码带来了很大的难度。

怎么解决这些问题呢?


成功率99.53%!多机器学习模型协作实现解码

办法总是有的,国家超级计算深圳中心提出用基于机器学习的条形码识别技术解决问题。通过使用FASTER-RCNN模型,快速定位条形码,提取得到条形码。参考人脸识别技术,使用自监督学习训练Triplet网络模型,最终判别提取的条形码与项目编号是否匹配。在实践中,企业在系统上传签字、盖章的扫描件后,系统将首先定位纸质扫描件上的条形码位置,提取出条形码,与正确的条形码库进行分析比对,从而核实该申请书与系统中留存的项目编号是否匹配。

条形码识别包括了定位和判断两个任务:定位是高精度的单目标检测问题,判断是无监督数据的二分类问题。本项目摒弃了常用的降噪、补全等图片修复技术,通过对FASTER-RCNN模型的调整实现了条形码在文件中的精确定位。Triplet网络模型通常用于目标跟踪、人脸识别等领域,本项目将其应用于物码识别领域。通过自监督学习挖掘出条形码特征,分析比对锚样本与正负样本间的距离,最终判断待检样本是否匹配,准确率达到99.53%。图5给我们展示整个系统的工作流程。


图5. “物码智能识别系统”的应用架构

在实践中,这项基于机器学习的条形码校验技术,定位并识别扫描件中条形码的成功率达到99.53%,接近100%。该方法简洁高效,部署成本低、使用门槛低、维护成本低、占用系统资源少。不仅如此,还节省了人力成本。据科创委数据统计,2020年,企业一共上传了近3万个扫描件,人工校验(速度为5分钟/件),需要310人工作1天,使用机器学习的校验技术,仅需要2人工作1天。


图6. 新系统大幅降低了各项成本,无论是申报者还是系统维护人员都会感觉轻松很多;本项目是人工智能技术一次“接地气”的实战

机器学习技术对于有噪点、拉伸和扭曲等低质量图片有很好的鲁棒性,可以避免出现企业反复扫描、上传占用空间、多次识别的问题,使得大规模使用“上传扫描件”替代“递交纸质件”成为可能,让企业“少跑腿”,让数据“多跑路”。

“物码智能识别系统”只是我们在“智能服务与决策支持平台”项目中迈出的一步,在此基础上我们将继续开发完善平台的其他功能,真正把高端技术下沉到实际应用中去“接地气”,为终端用户提供更好的交互体验,节省企业成本、提高办事效率。

科技向善,引领未来!未来已来,你准备好了吗?


国家超级计算深圳中心于2009年获国家科技部批准成立,是深圳建市以来规模最大的国家级重大科技创新基础设施,是深圳先行示范区的创新名片。超算中心坚持以技术为引领、以市场为导向、以品质为追求、以服务为根本,在科学计算、工程计算、生物医药、动漫渲染、海洋石油等领域支持国家科技创新,成果卓著。深圳超算是世界上最早布局云计算、大数据、人工智能的超算中心之一,建立之初,联合相关企事业单位,开展智慧城市等方面技术创新与服务。深圳公安云已经在为每一位市民保驾护航,深圳健康云正在努力削平医疗资源和服务的不均衡,深圳教育云将让中学生来揭示AI的奥秘。目前中心云计算、大数据和人工智能机构用户超过2万家,个人用户超过1200万人。

诚聘英才
友好链接
业务咨询及参观访问:0755-86576085    0755-86576086    地址:深圳市南山区笃学路9号
国家超级计算深圳中心(深圳云计算中心)  ©2014-2020  粤ICP备10220126号