基于涉网犯罪的公安数据分析发展方向

江汉祥 陈 云

(福建省电子数据存取证重点实验室 福建厦门 361008)

涉网犯罪严重侵害财产甚至人身安全,是当前危害社会的主要犯罪形式.与“涉网犯罪”相似的概念还有“网络犯罪”和“新型网络犯罪”,在日常应用中经常容易混淆,先简要描述其内在联系与区别:

网络犯罪(狭义)指行为人运用计算机技术,借助于网络对其系统或信息进行攻击,破坏或利用网络进行其他犯罪的总称[1],如攻击、入侵、植入木马、传播病毒等.网络犯罪的本质特征是危害网络及其信息的安全与秩序[2].

涉网犯罪(狭义)指利用计算机及网络实施的其他犯罪.计算机信息系统及网络作为实施违法犯罪行为的工具,如网络诈骗、网络盗窃、网络传销、网络色情、网络赌博等,相比传统犯罪,其影响更广、社会危害性更大、隐蔽性更强[1-2].

新型网络犯罪是指利用通信及网络的新技术和新设备,借助网络犯罪细分产业链联合体,针对或利用网络所进行的各种非接触性犯罪的集合[3].

涉网犯罪和网络犯罪在广义上都包含针对网络的犯罪和网络扶持的犯罪,与新型网络犯罪意义相同.

以上几个概念总结为:新型网络犯罪=涉网犯罪(广义)=网络犯罪(广义)=网络犯罪(狭义)+涉网犯罪(狭义).本文后继出现的“涉网犯罪”就是其广义概念.

近10年来,我国随着互联网和移动终端的蓬勃发展,海量的结构化和非结构化数据指数级增长.各种异源异构数据的治理及应用分析也得到充分的发展,走在国际的前列.目前在军事、金融、警务方面最为著名的大数据分析工具是美国的Palantir.它拥有敏捷的大数据架构,易于扩展;
对全量数据进行融合治理,并开展多维关联分析,提供人机结合的大数据可视化技术与模型构建.其缺点就是专业化程度太高,对使用者自身的专业知识要求高,不易普及化应用.

我国公安大数据汇聚了海量的资源数据、流量数据、政务数据等多源异构数据,通过复杂的数据治理工作,并进行各种数据分析和应用模型,为传统案件侦办作出巨大贡献,特别是在信息虚实关联、快速落地查人、时空碰撞等方面极大地提高了工作效率.然而面对区别于传统接触型犯罪的涉网犯罪案件,公安大数据似乎不再灵验——虚实难以关联,信息难以扩展,模型难以见效.曾经“医治百病”的大数据为何失去药效了呢,这就需要梳理清楚以下几个问题:

1) 目前公安大数据的数据构成情况;

2) 传统案件对数据类型与数据分析方法的要求;

3) 涉网犯罪案件对数据类型与数据分析方法的要求.

为了解决以上问题,本文首先对公安网络数据进行分类,然后分析公安大数据的数据类型结构,再剖析传统案件与新型涉网案件对数据类型需求及数据分析方法的差异.

涉网犯罪的侦查主要依赖犯罪所依赖的网络数据,以及根据不同案件特性所开展的数据分析.不管是传统的小数据分析,还是当前的大数据分析,都离不开网络数据,所以对网络数据进行相关的剖析与科学分类是网络犯罪的数据分析基础.

图1 人员数据的分类

公安机关的网络数据主要是涉及人员或设备相关的数据.设备数据主要指与网络设备相关的设备属性数据(如设备类型、品牌、型号等)和设备行为数据(如连接行为、摄像行为、播放行为等).人员数据分为2类:属性数据和行为数据(如图1所示).属性数据是指代表人(物)所具备固有或虚拟的性质及关系的特征数据;
行为数据是指代表人物社交、出行、娱乐、学习、购物和交易等活动的日志型数据.行为数据主要因素有时间、地点和行为名称.

属性数据包括:

1) 固有属性.固有属性指数据属性相对不容易改变的属性数据,如:姓名、身份证号、学历、单位、住址等身份信息;
人脸、指纹、声纹、基因等生物识别信息[4];
父母、夫妻、儿女等家庭关系;
朋友、同事、同学、战友等社会关系.

2) 财产属性.财产属性指与人相关的金融资产类属性数据,如车辆、房产、手机等固定资产;
银行资金、股票、基金、虚拟货币等金融资产[4].

3) 网络属性.网络属性是指数据属性容易改变的网络账号与网络关系等方面数据,如:QQ、微信、邮箱、支付宝等网络身份标识信息;
登录密码、支付密码等身份鉴别信息;
网友、群友、网络服务等网络关系信息;
基站、GPS、地址等位置信息[4].

图2 数据分析示例

行为数据包括:

1) 交互行为.交互行为指发生在人与人之间交互关系的行为,如:通话、网络通话、视频聊天、网络聊天、收发邮件等网络交流;
网银转账、网络支付、网络红包等网络交易.

2) 消费行为.消费行为指发生在人与法人之间消费关系的行为,如:淘宝购物、天猫购物、京东购物等网络购物;
飞机票、动车票、汽车票等网络订票;
美团外卖、百度外卖、饿了么等网络订餐;
酒店、宾馆、民宿等住宿预订;
滴滴打车、曹操专车等网络打车.

3) 个体行为.个体行为是指个人自身的学习、娱乐和出行等操作行为,如:开车导航、步行导航等个人出行;
浏览、查询、点击、下载、评论等个人操作记录;
直播、收听、观看等影音娱乐;
下载、安装、登录等软件使用记录.

目前公安机关网络数据的构成主要针对人员来收集,并且主体是人的属性数据,只有部分行为数据,特别缺少交互行为数据和设备数据.所以数据分析方法主要是基于属性数据的属性分析,基于行为数据的行为分析则相对薄弱.

公安机关从社会治理和打击犯罪的角度开展数据分析,其数据分析分类和定义与商业及数据挖掘领域有所不同.公安机关在侦查方面的数据分析方法必须基于严密的逻辑性,强调人或事物的直接关系,或者线索必须有逻辑关联,证据必须可追溯.而在商业及数据挖掘领域一般不太关注逻辑性,更关注相关性,如典型的“啤酒与尿布”问题[5].

公安机关基于传统案件的数据分析方法主要有4类:属性分析、关联分析、关系分析和碰撞分析(如图2所示).

1) 属性分析是通过对主体对象各类特征进行标示,从而了解主体对象的属性或者属性交叉的分布结构,进而对主体对象进行多角度的结构分析.属性分析主要价值是丰富主体对象画像维度,细化洞察粒度.

2) 关联分析是指同一主体不同属性之间的连接,也就是通过其中一个属性拓展关联出另一个属性的分析.如从QQ号扩展出加入的QQ群、从微信号拓展出注册的手机号等.

3) 关系分析是指不同主体间属性的连接,包括静态的社会关系分析(如亲缘、业缘、地缘和趣缘等关系[6])和动态的行为关系分析(如通话、交易、网络聊天、通信等关系).如从2人的手机号中判断出2人有通话关系以及通话频率;
从2人的银行账号中判断出2人有交易关系以及交易频率和交易金额等.

4) 碰撞分析指不同数据集之间,以1种或多种数据项为条件产生数据交集的过程[7],包含交集、差集和补集等多种集合运算,主要有2种类型:一种是从简单的属性(如好友、通话对象、交易对象)碰撞出主体的关系对象等;
另一种是从时空重叠角度碰撞出伴随的另一主体属性(如手机、虚拟身份号码、车辆中的人员等),或串并出不同案件现场出场人员等.

大数据侦查中常用的实体画像(如人物、虚拟身份、车辆、房产等画像)就是利用属性分析,并通过关联分析和关系分析来拓展画像维度与深度.而碰撞分析是情报研判中经常使用的分析方法,在串并案分析、伴随分析、共同对象分析、新增消失对象分析等案件数据分析方法中不可或缺.

刑事案件就其侦办目标有2种类型:

1) “在哪”,即案件已知嫌疑人真实身份,只要查找定位嫌疑人位置即可;

2) “是谁”,即案件尚未查明嫌疑人,需要分析确认作案嫌疑人.

目前公安大数据在侦办“在哪”这种类型案件时尤为突出,因为只要发现一个人的属性,那么该属性一旦出现,自然也就知道“在哪”,从而找到目标.因此,公安大数据在“追逃”方面优势明显.对于“是谁”类型案件,目前公安大数据依然有所作为.因为传统案件基本都是接触性犯罪,案件发生时有时间和空间属性.这样就可以根据人员属性数据进行时空碰撞、排除、伴随等集合运算来分析可疑的人员属性,从而最终查到可疑的嫌疑人.

这样就从理论上解释了传统大数据在侦办传统案件时所发挥的强大作用根本原因所在,也就是其数据特性完全符合传统案件的侦办需要.

涉网犯罪的特殊性及公安大数据的数据构成导致目前公安大数据出现困境.涉网犯罪是非接触性犯罪,因而没有空间属性,甚至有些案件没有时间属性.网络行为只有IP地址来体现其活动地址,但是网络IP段是按地市分配的,区域太大难以应用模型;
同时很多嫌疑人会使用代理IP隐藏真实IP.案件一定有发生的时间,但是侦查需要案件过程中有价值的线索,但在涉网案件中这个线索的时间点可能无法确定,从而侦办意义上就没有时间属性.如娄底合成照片类诈骗案件(简称娄底诈骗案)基本无法判断嫌疑人查找受害人照片时间点、合作制作照片等作案时间点,从而侦查意义上它就没有时间属性.所以面对涉网犯罪案件使用传统属性分析、关系分析和碰撞分析法就不再奏效,属性数据无法满足其需要.

涉网犯罪案件中嫌疑人为了规避侦查,还可能利用特殊通信设备(如GOIP网关)规避手机通话被落地定位的风险[8];
利用各种代理IP隐藏真实IP;
利用各种加密通信APP或“阅后即焚”聊天工具规避流量分析和事后取证;
利用多级转账、第三方支付、第四方支付、虚拟货币、地下钱庄等多种支付方式流转来规避资金分析[9].这种情况下,公安机关往往难以收集到他们的相关数据.缺乏真实身份、设备数据以及行为数据决定了当前公安大数据在应对涉网犯罪时的局限性.可见面对涉网犯罪案件当前公安大数据从数据构成、数据治理及分析方法上都无法满足其需求.

为了有效说明涉网案件在数据分析上需要的数据类型,下面通过“娄底诈骗案”案例来简要描述.

“娄底诈骗案”是一类在2008—2014年间高发的诈骗案件,一般通过给相关领导一封快递,内含1张领导在色情或受贿场所的照片,并附1封信件,要求为了息事宁人给特定账户打款一定金额,否则会把不雅照寄给亲戚朋友或公开给纪委部门.由于受害群体及内容的敏感性,此类诈骗早期的成功率很高.

这类案件的传统侦查方法:由于案件的线索只有1封快递及1个银行账号,侦查时会从快递来源进行追踪,或者通过该银行账号的取款视频进行追踪.但由于取款马仔的掩饰装束等原因,往往很难取得突破.

这类案件一般是由湖南省娄底市的犯罪团伙进行大量合成照片制作,然后交由送件团伙到外地进行投递.因而作案情节割裂,何时开始制作照片、何时结束制作、在什么地点制作,完全不得而知.唯一知道的是最后一个环节,即信件是何时从何地寄出的.也就是说案件的时间属性与空间属性模糊,不可确定.因而传统的数据分析基本无从下手.即使利用强大的大数据系统也基本上没有分析的落脚点或参照物.

那么这类案件是否可以开展数据分析呢,案件中犯罪分子唯一需要获取的素材就是领导照片和邮寄地址,那么大量的照片一定是通过网络方式获取的.政府网站一般就是犯罪分子获取领导照片最直接和准确的途径.通过网站日志就能查找到所有浏览过领导照片的记录,再分离出湖南娄底的IP记录,最终通过嫌疑人浏览网站的心理过程——找到1张职位合适、神态合适的领导照片,很快就能锁定浏览照片的嫌疑人.案件从这个突破点可以再顺藤摸瓜地关联出照片制作团伙、邮件寄送团伙等.

可见,如果有了行为数据(网站日志),并结合嫌疑人作案的心理规律,完全可以将一起似乎与网络毫无关系的案件另辟蹊径地找到突破口.这也说明在应对涉网犯罪时行为数据的重要性,同时数据模型也不再是传统时间碰撞分析为主的方法,而是应用行为规律和心理规律的方法.

为了应对涉网犯罪给公安数据分析带来的种种挑战,公安数据来源建设应当加强流量分析能力建设,构建信息化生态体系等方面的工作,特别要解决涉网犯罪数据来源问题,拓展异常行为数据分析方法或模型,以适应时代需要,为打击涉网犯罪服务,为创造和谐稳定的社会治安环境作出贡献.

4.1 变革数据分析观念,适应涉网犯罪时代新要求

基于“案事件”,以属性分析、关系分析和碰撞分析为主导的传统数据分析已经无法满足当前涉网犯罪打击治理的需要.扩充设备数据以及行为数据来源是打击治理涉网犯罪的数据基础;
研究涉网犯罪整个黑灰产业链犯罪特点,构建异常行为特征知识库和犯罪行为规律模型则是其数据分析的发展方向,同时也是公安大数据建设的重要发展方向.基于新形势要求需要构建涉网犯罪防控治理体系,同时需要打造3种能力,以解决当前公安机关应对涉网犯罪面临的3个棘手问题:

1) 打造异常识别能力.这是解决涉网犯罪窝点“找不到”的问题.由于涉网犯罪缺乏时空属性,因而只能通过行为特征进行识别.这就要求公安机关必须具备涉网犯罪异常行为的识别能力,从活动时间规律、作案工具选择、网络通信特征、URL特征、关键词特征、话术特征、传输图像特征、利用网络设备特征等角度进行研究,把握其异常行为的特征,并从常规网络数据中过滤出形成情报原料,以备进一步研判分析.

2) 打造全景刻画能力.这是解决涉网犯罪生态和手法“摸不清”的问题.传统犯罪手段相对单一,团伙组织严密;
而涉网犯罪则情节割裂,分工细化,上下游合作交织复杂,结构松散,但业务衔接顺畅.基本上每个涉网犯罪都由众多的黑灰产来支撑运作,因而涉网黑灰产节点繁杂,涉及技术多样.公安机关必须对各类涉网犯罪及其产业链进行研究,掌握其共性与特性,建立起涉网犯罪黑灰产产业链图谱,并描述节点间的合作关系与行为特征.从而将传统只对单案进行刻画的作法转变为对各类涉网犯罪进行全景刻画,为构建涉网犯罪防控治理体系奠定理论基础.

3) 打造柔性制造能力.这是解决公安信息化建设“跟不上”涉网犯罪技术和手法变化的问题.涉网犯罪的技术与手法日新月异,不断迭代,公安机关不可能事先预测出各种犯罪手法与技术,提前进行固化模型设计,因而在数据分析建设上需要具备柔性制造能力——可视化建模能力,让普通侦查员能够根据思路进行可视化建模设计,得到情报结果.

4.2 丰富数据来源,着力行为数据汇聚

“巧妇难为无米之炊”,数据是数据分析的基础.当前公安大数据中数据的体量并不缺,但为应对涉网犯罪,缺乏的是设备与行为数据.为此需要从研究涉网犯罪设备、涉网犯罪APP,从而获取相关数据;
同时要思考如何从汇聚大量行为数据的互联网企业中输送有价值的行为数据.

4.2.1 加大对网络新型设备的解析能力

目前流量数据解析时基本上只对手机进行硬件特征解析.为了应对涉网犯罪,应当加强对作案设备及各种物联终端的硬件通信特征开展研究.作案设备有GOIP网关、卡池设备等.物联终端有摄像头、路由等智能家具设备,手表、手环等智能穿戴设备,还有智能汽车、无人机等各种涉网犯罪案件涉及的设备(如图3所示).

图3 与人相关的各种智能终端

设备的解析与识别会改变传统应用模型,如只要发现有卡池设备基本上就是嫌疑人的窝点;
只要有GOIP和摄像头同时出现在1个位置也基本能确定是嫌疑人的窝点;
只要有5个以上单路GOIP同时出现在1个位置也能确定是嫌疑人的窝点;
这些模型简单,大数据运算耗能小、效率高、成果好[3].

4.2.2 加大对涉案软件解析能力

除了要对传统的QQ、微信、滴滴、百度地图等应用软件进行解析外,更应该了解庞大黑灰产所涉及的应用软件,如陌陌、探探等交友类APP,shadowsocks、蓝灯等VPN类APP,还有各种涉案的贷款类、直播类、小众聊天类、虚拟货币类APP都是需要重点关注和研究的.目前很多APP应用https的通信加密方式,尽管无法解析其通信内容,但是依然可以解析出IP等有价值的信息,从而掌握谁在使用以及使用的频率,有时这些信息已经足够提供有价值的线索[3].

4.2.3 汇聚第三方数据的应用策略

很多第三方网络信息提供商的数据对公安机关侦查办案意义重大,如阿里、腾讯、滴滴的数据.因为网络信息提供商拥有大量行为数据,如购物、交易、出行、社交等数据.通过这些数据可以利用行为规律的分析模型进行线索挖掘与发现.但是如何有效利用这些数据呢,全部数据备份方案不现实,可以在网络信息提供商端前置异常数据模型,把需要的数据汇聚起来,然后再根据这些价值密度高的行为数据,结合相关精细化模型进一步分析研判.这些异常模型包括数量异常、金额异常、时间异常、特殊物品、特殊组合等.

4.3 建立异常行为感知引擎,创新异常行为数据分析方法

传统的数据分析都是案件发生后针对个案开展的数据分析,但是针对涉网犯罪的复杂度,应当把为打击服务的数据分析机制前置到为全警“打防管”全方位治网服务的数据分析机制(如图4所示).这就要求开展以下几个方面的工作:

1) 建立异常行为特征知识库.这些异常行为特征包括网络通信异常、文本内容关键词异常、域名URL异常、APP特征异常、图片特征异常、交易异常、轨迹异常、文件异常、通联异常、购物异常等.

2) 以知识库为引擎,感知全域数据,产生情报原料.随着数据种类和体量的不断增大,传统的全量数据分析方法已经不再适合,需要以异常行为特征知识库为引擎,过滤出价值密度较高的异常行为数据,为下一步数据分析提供数据基础.

图4 涉网犯罪异常行为感知与分析机制

3) 以犯罪行为规律为依据,创新应用模型,产生情报成品.掌握各种涉网犯罪生态链,研究生态链节点的犯罪行为规律,形成业务模型,从而把情报原料加工成准确度较高的情报成品.面对非接触性的涉网犯罪,数据分析的思路要有所突破,需要加强资金流分析与信息流分析的结合,注重特殊设备数据和特殊APP数据的应用,注重犯罪行为规律和犯罪心理分析研究应用,注重全生物特征比对,特别是声纹比对[3].

4) 以犯罪生态知识图谱为驱动,扩展犯罪产业链节点.在掌握各种涉网犯罪生态链基础上,针对各个节点建立点与点的“边”关系.这种“边”关系不仅有展示作用,更是模型引擎;
通过参数配置,能够在已知1个节点情况下,通过引擎运算扩展到“边”的另一端的节点,从而不断地扩展生态链上的节点,尽可能呈现出生态链的完整性.

5) 以警种业务职能为依托,充分发挥全警“打防管”治网能力,形成管理闭环.各个警种根据自身的业务开展上述业务模型工作,产生的情报成品要输送到对应的警种进行线下的治理工作,并将结果反馈,形成闭环.

打击涉网犯罪是公安机关重要任务,围绕“打防结合”的方针,做到事先精准预警、事中侦查审计、事后追踪取证.本文通过对公安网络数据进行分类,分析公安数据的数据类型结构,结合传统案件和涉网犯罪案件对数据需求进行剖析,总结2类案件对数据分析方法的要求.通过分析找出涉网犯罪案件对数据及数据分析方法的需求,提出转变当前案件侦办中的数据分析思维,提出涉网犯罪数据分析要着眼于异常行为数据,建立行为特征知识库,并以警种业务为基础,研究涉网犯罪行为规律,构建行为分析模型,从而得到有价值的情报成品,为全方位“打防管”治网服务.

猜你喜欢公安犯罪案件一起放火案件的调查:火灾案件中的“神秘来电”水上消防(2021年4期)2021-11-05“老公安”的敛财“利器”公民与法治(2020年17期)2020-10-27“左脚丢鞋”案件学生天地(2020年2期)2020-08-25Frequent attacks on health workers in China: social changes or historical origins?Traditional Medicine Research(2020年1期)2020-01-15Televisions学生导报·东方少年(2019年8期)2019-06-11环境犯罪的崛起中国慈善家(2017年6期)2017-07-29“10岁当公安”为何能畅通无阻领导决策信息(2017年16期)2017-06-21公安报道要有度新闻传播(2016年20期)2016-07-10HD Monitor在泉厦高速抛洒物案件中的应用中国交通信息化(2016年10期)2016-06-083起案件 引发罪与非罪之争中国卫生(2015年9期)2015-11-10

推荐访问:发展方向 犯罪 公安