"未阅先焚"：微信聊天如何审查图片

标题:"未阅先焚"：微信聊天如何审查图片
作者:
日期:2019-07-20 21:39:44
内容:

微信每月活跃用户超过10亿，那么，如何实现实时自动审查巨量的聊天中所发送的图片呢？多伦多大学公民实验室发布了一份最新研究报告。

（德国之声中文网）题为"未阅先焚2：微信如何实现实时审查用户对话中的敏感图片"的报告于7月15日发表的报告。其核心发现是：

微信的审查包括识别图片中的敏感文字图形、以及与黑名单上画面相似的图片；
微信使用MD5哈希算法，以实现对话中图片的实时、自动审查；
朋友圈、群聊的审查力度大于一对一的对话；
微信图片审查的主题主要是政治内容以及与政府、社会抗争有关的主题，同时也对新闻事件作出反应。

根据中国法律，互联网平台对内容负责，因而要借助科技手段进行自我审查。

审查：从朋友圈到一对一聊天

多伦多大学公民实验室（Citizenlab）此前曾对微信朋友圈进行研究，发现：在图片发表后，微信会审查图片是否包含敏感关键字、以及图片是否与黑名单画面类似。如果是，图片会被屏蔽，但发图者以及海外账户仍可见该图片。

此次的研究则针对微信聊天。由于上述审查方式需要强大的计算能力，难以实现聊天中图片的实时审查，因此，微信使用MD5哈希算法，即审查图片的MD5值是否在过滤列表上。这样的好处是快，坏处是很不灵活：一旦MD5值有细微变化，尽管图片内容变化不大，仍会过关。

报告作者发现，微信公众号被屏蔽的文章中，图片也被列入黑名单

为应对这一局限，微信在MD5实时审查后，会再次使用非实时的过后审查。报告作者发现，经修改MD5值的敏感图片第一次发送会成功，但数秒之后再次发送，即会失败。

报告作者还发现，一对一聊天、群聊和朋友圈的审查范围不尽相同。后两者范围更大。

哪些图是敏感图？

报告的另一部分内容，则是对微信审查图片的主题进行分类。研究者首先建立了一个测试敏感图库，来源是香港大学的一个项目WeChatscope，该项目收集了微信公共账号被屏蔽的帖子。报告作者则把这些帖子中的图片集合起来。

由于微信测试账号大多难以获得身份验证，报告作者不得不诉诸审查相似的腾讯另一平台QQ空间，来进行敏感图的测试。

报告作者共发现212张会被过滤的敏感图，其中：与中国政府有关的图片为75张，内容不单有讽刺漫画，也有中性的政府政策、领导人图片。其中一幅被审查的图片是位于法国的欧洲电视台Euronews的一则新闻画面截图，显示的是中国国家主席习近平2019年3月访问意大利前夕，一位艺术家在意大利使用拖拉机在田野上创作出一幅习近平微笑的巨大头像。

在这212张被过滤的图片中，与新闻事件有关的有60张，内容涉及：文革、天安门事件、范冰冰逃税事件、最高法院卷宗丢失事件、华为孟晚舟事件、中美贸易战、2018美国中期选举、胚胎基因编辑事件等。

受到最多审查的图片：最高法卷宗丢失案

其中，最高法院卷宗丢失事件受到审查的图片数最多，为24张。其中绝大多数是一封据说为法官王林清指控最高法院院长周强指使他人盗走卷宗的信件图片。与华为孟晚舟事件相关的被审查图片则为10张。中美贸易战也有8张。

在212张被过滤的图片中，报告作者列入"社会抗争"类别的有25张。其中包括有崔永元的照片、已故诺贝尔和平奖得主刘晓波"空椅子"的照片等。此外，涉及裸体的图片无论主题如何也很有可能被屏蔽。不过，也有一些图片被审查的原因不明，如一张大猩猩研究者古道尔的图片。

报告作者发现，许多微信公众号被屏蔽的文章中的图片，无论其是否敏感，似乎都会受到过滤。作者因此提出假设：腾讯的图片审查黑名单是从被屏蔽的微信公众号帖子中收集而来的。
来自德国之声

多伦多大学报告揭秘微信如何过滤图片

多伦多大学公民实验室的研究发现，微信使用不同的黑名单来过滤多人聊天及一对一聊天。(Getty Images)

【大纪元2019年07月18日讯】（大纪元记者周行多伦多综合报导）有人可能认为，在微信上通过图片对话，可以避开审查，其实没这回事。多伦多大学的一项研究，揭示了微信如何实时、自动地审查聊天中所发送的范围广、数量巨大的图片。

多伦多大学公民实验室（Citizen Lab）在7月15日发表的这份最新研究报告名为“‘未阅先焚’2——微信如何实现实时审查用户对话中的敏感图片”。

按中共政府的规定，网络公司需要对自己平台上的内容进行审查。公民实验室去年发表的研究报告显示，微信通过巨量计算，审查在朋友圈（Moments）发送的图片。这次针对用户聊天中图片审查的研究发现，微信使用较便宜的哈希索引（Hash Index）过滤图片。

该研究对比了微信朋友圈、一对一聊天及群组聊天的图片审查比例，发现这3项功能的敏感图片库并不相同，朋友圈和群组聊天所审查的范围远大于一对一聊天。
不断扩展敏感图片库

公民实验室去年发现，微信审查朋友圈图片使用的是基于光学字符识别（OCR）方法，将图像中的文字与黑名单上的关键字进行比较；用基于视觉的方法将图片上的图像指纹与像黑名单上的图像指纹进行比较。

该实验室今年的报告称，基于光学字符识别的算法计算成本太高，无法应用于聊天的实时过滤。“我们发现，微信使用另一种称为哈希索引的办法，当用户发送的图片被微信服务器之一接到后，这服务器会计算其加密哈希值。如果哈希值在哈希索引（即黑名单）中，该图片就被过滤，即不会被发送给目标用户。”

这是一种可以迅速将一个文件中的数据与指纹（或哈希值）对比的技术，所以，这种计算法适用于实时过滤应用程序。但是，这方法非常不灵活，因为图像的微小变化就会从根本上改变其加密哈希值。

研究人员发现，为克服这些限制，微信在实时过滤通过后，采用计算成本较高的基于光学字符识别算法，来补充哈希索引的不足。研究人员将属于黑名单的图像做了小更改后发出，第一次都能通过审查，“当我们几秒钟后再次发送这张图片时，它就被过滤掉了。”

也就是说，这些图片因为做了小修改，其哈希值变了，所以通过了审查。但微信随即对其做基于光学字符识别算法的审查，发现其属于敏感图片后，把其哈希值加入了黑名单中。
群聊和一对一聊天有不同的黑名单

多伦多大学公民实验室的研究发现，微信使用不同的黑名单来过滤多人聊天及一对一聊天。尽管一对一和群聊都使用哈希索引过滤图片，但它们并不共享黑名单。

研究人员拿一张同时属于朋友圈、群聊和一对一聊天黑名单的图片做了修改，使其拥有新的加密哈希值，然后做了这样的试验：

1. 通过群聊发送一次该图片，不会导致该图片随后在一对一聊天中发送时被过滤。只有在一对一聊天中发送第二次时，该图片才被过滤掉。

2. 同样，通过一对一聊天发送一次该图片，不会导致该图片随后在群聊中发送时被过滤。只有在群聊中发送第二次时，该图片才被过滤掉。

3. 通过朋友圈发送一次这张图片，不会导致该图片随后在群聊或一对一聊天中发送时被过滤。

研究人员对3个不同黑名单的研究发现，朋友圈和群聊的图片黑名单，比一对一聊天的黑名单更长。去年11月15日，研究人员对黑名单中111张敏感图片做了分析，发现有36张敏感图片同属于一对一聊天、朋友圈和群聊的黑名单；另外71张敏感图片在朋友圈和群聊的黑名单中都有。朋友圈和群聊各有2张自己独有的敏感图片；一对一聊天完全没有自己独有的敏感图片。
哪些属于敏感图片？

报告的另一部分内容，是对微信审查图片的主题进行分类。在收集的超过200张被过滤的敏感图中，与中共政府有关的图片有75张，内容不单有讽刺漫画，也有中性的政府政策、领导人图片。比如有一张显示的是习近平2019年3月访问意大利前夕，一名艺术家在意大利使用拖拉机在田野上创作的习近平微笑的巨大头像。

与新闻事件有关的图片有60张，内容涉及文革、天安门事件、范冰冰逃税事件、最高法院卷宗丢失事件、华为孟晚舟事件、中美贸易战、2018美国中期选举、胚胎基因编辑事件，等等。

令人吃惊的是，这些在被过滤的图片中，有中共官媒《环球时报》发表过的5张图片，有些与华为有关，其中一张与持不同政见者郭宝胜有关。还有些被过滤的图片，是中共喉舌机构新华社发表的，其中一张与去年7月官方对疫苗丑闻的调查有关。

多伦多大学公民实验室去年和今年的研究都显示，微信的过滤政策不透明，外界很难推测其审查机制是如何运作的。比如在之前的研究中发现，有些被过滤的内容，只是用中国大陆电话号码注册的账号看不到了，使用国际电话号码注册的账号还可以看到。微信过滤帖子后，不会通知发帖人，发帖人还是可以看到自己贴的、被过滤掉的内容。

来自http://cn.epochtimes.com/gb/19/7/17/n11391198.htm