CNNIC作为国家域名的注册管理机构,积极开展域名不良应用检测工作,打击域名滥用行为,确保网民的隐私和财产安全,为构建互联网的可信环境贡献力量。
钓鱼检测方面
CNNIC反钓鱼技术研发的视角:利用资源优势,主动发现在互联网中活跃的针对中文品牌的钓鱼网站,区别于传统的被动反钓鱼机制。
CNNIC独特的资源优势:
• 国家顶级域名.CN和.中国的注册管理机构,同时提供顶级域名解析服务和递归域名解析服务,拥有丰富的网络数据资源。
• 承担中国反钓鱼联盟(APAC)秘书处的工作,可以获取APAC拥有的钓鱼举报数据,为研究提供数据支撑。
钓鱼检测技术:
对DNS递归解析的各TLD主机的大规模数据分析,结合钓鱼举报先验知识,快速准确发现钓鱼网页。 综合运用以下技术:域名相似性检测、DNS日志挖掘、钓鱼举报数据统计分析、钓鱼URL自动生成、IP反查技术等,开展多角度,细粒度判定钓鱼网站。
每日处理数据规模与流程:
每天对约4亿DNS递归解析数据的分析挖掘分析,其中独立主机量在千万数量级。从源数据推送、数据预处理到钓鱼页面判定、钓鱼证据留存完全由机器自动处理完成。 并有与中国反钓鱼联盟的快速处理通道,确保发现的钓鱼第一时间审核、处理。
涉黄检测方面
涉黄检测概述:CNNIC自主研发了具有自主知识产权的互联网色情信息主动发现和判定系统,该系统充分利用CNNIC自有庞大的国家域名注册和解析数据,每日快速准确的主动发现国家域名涉黄。确保涉黄网站仅被少数互联网用户访问,甚至没有被用户访问前,快速的被发现、被处理。维护国家域名的美誉度。
色情网页主动发现技术 :域名注册和DNS权威解析的大规模数据分析,活跃主机页面抓取、分析,快速准确发现国家域名涉黄。 系统涵盖了以下技术:大规模日志分析处理、快速Bayes检测、跳转作弊检测技术、隐藏作弊检测技术、页面共现词分析技术、自动证据抓图技术等。
数据规模:每天处理的原始数据在约16亿条左右,经去重后的独立主机数量每天大约2000万个,系统每日对这些主机进行页面分析、判定。