“未阅先焚” 微信朋友圈图片过滤功能分析
时间:2018-08-18 来源: 作者:公民实验室 条评论
- 微信采用 了两种不同的算法过滤朋友圈中的敏感图片:一种是基于光学字符识别(Optical character Recognition)的文字检测方法,该方法用以过滤包含敏感词的图片;另一种是基于图像相似度的对比,该算法用以过滤与微信不良图片数据库中的图片 相似或吻合的图片。
- 我们发现微信采用的文字识别算法与大部分文字识别算法有所相通,即其对包含文字的图像进行灰度化(grayscale)和通过斑点合并(blob merging)来识别文字。
- 微信基于图片相似度的的图片过滤算法并没有使用机器学习来判别目标图片是否属于某个不良图片类别。
- 在研究这两种不同算法的同时,我们发现用以检测不良内容的技术同样可以被用来反审查。
- 通过分析了解文字识别算法和图片相似度检测算法,我们发现了这两种算法并非万无一失。算法的弱点让用户得以通过编辑图片,使经过编辑的图片与原敏感图片在能够被普通读者识别理解的同时欺骗机器算法,从而不被过滤。

