阿里妈妈OCR一年屏蔽4600万恶意推广-卖家网

阿里妈妈OCR一年屏蔽4600万恶意推广

2016-06-01 14:55:17 1993浏览

日前，阿里妈妈图像团队的OCR（图中文字识别）技术刷新了ICDAR Robust Reading竞赛数据集的全球最好成绩，并大幅超越第二名。Robust Reading竞赛是当前OCR技术领域全球最具影响力的比赛。

日前，阿里妈妈图像团队的OCR（图中文字识别）技术刷新了ICDAR Robust Reading竞赛数据集的全球最好成绩，并大幅超越第二名。Robust Reading竞赛是当前OCR技术领域全球最具影响力的比赛。这也是继阿里巴巴图像搜索领军人物华先胜获得ACM（美国计算机协会）“杰出科学家”称号之后，阿里的图像识别技术再一次登上国际顶尖舞台。

图. ICDAR Robust Reading Challenge 1 end-to-end官方成绩

借助这一领先的OCR技术，阿里妈妈图像团队能够以95%的超高准确率识别图中违规文字信息，有效过滤商家恶意推广，维护消费者权益。2015年，阿里妈妈累计屏蔽了4600万条恶意推广。

与传统广告不同，互联网广告一般采用程序化投放（RTB），数量庞大，发布周期短，发布频次高，且推广内容通常是客户自行操作。这也意味着，单纯依靠人工进行广告质量的审核已经很难，通常都需要营销服务平台具备强大的技术实力对推广内容进行识别、过滤和处理。以阿里妈妈平台为例，平均每天有超过3亿件商品的推广展现，每天超过50亿的推广流量。数据量之大，可想而知。那么，阿里妈妈是如何发现恶意广告的呢？

“核心是大数据和机器学习，”阿里妈妈表示，实际业务诉求中，阿里妈妈的风险控制团队会根据产品类型、时间周期、风险类型通过大数据进行多维度的风险评估。结合机器的算法逻辑，通过系统抽样的方式，客观的量化风险，判断风险现状，预测并挖掘高危风险和潜在风险。通过这套完整的风险评估体系，系统将自动把恶意素材扼杀在推广上线之前。同时，配合人工排查的方式，捕捉漏网之鱼，予以处理。

“一旦发现违规违禁或者假货侵权信息出现在推广图片上，系统就会通过图像算法模型，以事先在样本库中录入图片或logo样本的方式，通过样本自动抓取线上投放且被样本命中的推广信息。”阿里妈妈表示，通过数据的不断积累和机器学习，这套模型会越来越智能和成熟，目前这套图像算法的召回准确率已达85%以上。

OCR是计算机视觉领域的经典问题，长久以来，一直受到学术界和工业界的持续关注。在工业界，Google、Microsoft、Amazon等大型互联网公司，以及商汤科技、旷视科技（拥有Face++、Image++）等计算机视觉技术创业公司，都在OCR技术上耕耘多年。随着技术不断成熟，OCR也开始在互联网及其他行业逐步上线使用。

据阿里妈妈定向算法技术负责人盖坤介绍，在阿里巴巴平台上营销创意、商品等均是以图片形式展示，图像技术是理解这些信息的重要手段。同时，也有不良商家在图片中内嵌一些违规的信息达到其恶意推广的目的，图片内文字违规是比例相当大的一类，而传统监控手段多以人工肉眼来审核，费时费力，尤其是随着图片数量越来越大，这几乎已成为不可完成的任务。针对这一强烈需求，从2014年开始，阿里妈妈图像团队开始重点攻坚OCR技术，通过机器视觉的方式从图片中识别出文字，从而鉴别出违规的文案信息。

对恶意推广的定义盖坤表示，一方面依据国家相关法律法规，对于违禁品、色情信息、封建迷信、假冒伪劣、减肥丰胸、夸大虚假等违规类型进行不同程度的处罚和管理，另一方面在法规之外平台有着更高要求，对损害消费者利益或进行不正当竞争的推广类型积极尝试进行管控。其中，与消费者关系最为密切的假冒伪劣单项违规类型，被阿里妈妈作为重点审查对象。

相对其他限定场景OCR应用相比，阿里妈妈要处理的创意图片和商品图片上的文字字体、色彩更加多样，文字布局更加灵活，背景包括各种商品、布景或自然场景，蕴含各种复杂纹理，给识别问题带来了更大的挑战。盖坤介绍，在技术路线上，相比于传统方法，抛弃了图像预处理、字符分割等流程，采用了多个深度神经网络和语言模型相结合的方法来组成完整的OCR系统。针对复杂的场景信息，将LSTM（长短时记忆）技术成功应用到建模中去，大大提高识别的准确率。

据悉，现在基于OCR文字识别实时审核已覆盖整个阿里妈妈业务，每天处理图片近千万张，自动反馈疑似违规图片准确率达95%以上；同时将图文审核风险发现时间从“天”降低到“秒”级。数据显示，2015年阿里妈妈累计屏蔽了4600万条恶意推广，有效净化了互联网营销环境。

除OCR过滤恶意推广以外，计算机视觉技术在阿里巴巴集团内部已经获得广泛使用，比如手淘的“拍立淘”产品，通过手机拍照即可搜索相似商品，2015年双11当天，千万消费者使用了“拍立淘”功能，创造了超过数千万元的销售额。另外，在商品图片版权保护、鉴黄等场景也都引入了计算机视觉技术。

图文推荐