1月19日,在清华大学举办的网络安全研究国际学术论坛InForSec 2019年年会上,西北大学叶贵鑫 带来了《基于生成对抗网络的文本验证码识别方法研究》的精彩报告。
演讲主题:Yet Another Text Captcha Solver: A Generative Adversarial Network Based Approach(基于生成对抗网络的文本验证码识别方法研究)→PPT下载
内容摘要:验证码被广泛应用于网站的登录、注册等环节,用来进行身份验证以防止计算机自动程序暴力破解、刷票或垃圾评论等。其中文本验证码由于密码空间大、交互方式简单等特点目前仍被大多数主流网站使用。为了增大计算机程序对文本验证码自动识别的难度,一方面,当前文本验证码普遍使用了复杂混淆背景、字符扭曲、旋转和粘连等安全特征,导致基于分割-识别的方法失效。另一当面,有些网站也采用了防爬机制以限制验证码被恶意收集和自动爬取,并且频繁更换验证码方案,导致基于深度学习模型的识别方法由于不能及时获取大量训练数据而失效。本文提出了一种基于生成式对抗网络(GAN)的文本验证码解算器。该解算器通过合成大量与真实网站风格相似的验证码,然后利用合成验证码训练CNN识别模型,最后使用少量真实数据优化CNN识别模型来实现。我们使用33个主流网站(其中包括11个Alexa全球排名前50的网站)中所使用的验证码进行了评估,实验结果表明,我们的方法不仅由于其他识别方法,而且可以破解其他方法不能破解的验证码方案。