【深度解析】自然搜索作弊稽查体系标准
2016-03-03 16:23:15 2228浏览
大家好,我是老单,最近有点忙,虽然由于团队的内部事务太多,现在已经很少写文章了,但是每天还是有很多人从全国各地赶来,向我讨教搜索玩法,首先很感谢大家对我的厚爱,其实老单并不是小二,只是一个搜索引擎研究的爱好者。

大家好,我是老单,最近有点忙,虽然由于团队的内部事务太多,现在已经很少写文章了,但是每天还是有很多人从全国各地赶来,向我讨教搜索玩法,首先很感谢大家对我的厚爱,其实老单并不是小二,只是一个搜索引擎研究的爱好者。

大多数时候根本用不到悟性,成功只是做了自己该做的事情!

记得第一次参加全省数学奥林匹克竞赛的时候,自我感觉我是所有选手中最笨的那个,老师说我很木讷,也就是比较呆,后来我夺得了第二名,其实我也感觉很诧异,一直以来我都感觉自己是个笨鸟,笨鸟就要先飞,所以什么事情都比别人多用心一点,但是结果往往因为态度端正了一点,努力多了一点,结局就好那么一点点,直到最后我才发现,我只是做了自己该做的事,但是每次做的过程中都感觉自己很多事情都没有完善,所以很多地方都不满意,或许是对自己的要求太高,极度变态的完美主义作祟罢了。

好了,今天想跟大家分享的主题是反作弊模型的工作原理和判定顺序,了解规则不是为了作弊,是为了更好的让引擎服务于你,而不是制约你!

         (注意转帖请着名出处,讲课的时候也请不要读我的帖子)

注意:这是一篇比较烧脑的技术型文章,之前发表过,看不懂的人太多,所以这次比较白话一点

一丶机审的两大系统:

为了节省人力,淘宝的稽查系统大部分工作由电脑完成,就是机审。

主判系统和旁判系统,

主判系统:每月不定期大规模排查2-3次,所以每次偶尔我们会听到又有一批刷单的商家被抓了,比如5月20号那次,很多商家都收到了虚假交易炒作的站内信,其实这个就是当时主判系统排查的过程中对考核标准做了调整,导致大规模误判。此次事件也同样正式了主判系统的威力,当多维度不达标,根本不通过人工审核,系统直接判定。

旁判系统:是常规型排查,我们可以把主判看做不定期大规模突击检查,旁判看做小规模定期检查,一般来讲,旁判系统有两个主要职责,一个是找出多维度排查中数据异常的单品,另一个是对单维度数据异常的宝贝进行重点监控。何为单维度数据异常和多维度数据异常,下面会重点讲解。

二丶机审的判定顺序

理论上而言,淘宝的每一笔完结订单都会被动接受一次完成的机审流程,注意是完成订单,如果你刷单未付款,或者付款未发货,或者发货未确定,都不算一次完整交易,所以,当你评价没产生的时候,是不会被判定刷单的,而且即使评价产生,你的订单没超过索引数据库的维度范围,也不会被机审判定。

机审的判定顺序为:

判断点击过滤(pmcots)>判断交易(ctu)>检索订单数据(数据检索>结果判定

简单的说,就是先根据电脑本身的物理信息判断是否刷流量或者刷单,再根据各个维度,判断订单是否在正常范围下去判定是否有刷单嫌疑。

三丶判定标准

我们重点介绍下机审的各个判定标准:

CTU(支付宝智能实时风险监控系统)

pmcots系统(防恶意点击系统)

特征索引数据库

数据检索系统

CTU:该系统是支付宝风险管理的一个核心系统,能通过数据分析丶数据挖掘进行规则自学习,自动更新完善风险监控策略。CTU系统基于用户行为来判断风险等级,集风险分析丶预警丶控制为一体。并配备风险稽核专家小组进行风险稽查及处置。这个系统可以实现7*24小时全天候风险监控,监控内容包括:账户风险监控丶交易风险监控丶反洗钱监控丶反盗卡监控丶反套现监控丶商户违规监控。

其中与我们最相关的就是账户风险控制和违规控制了,大家一定会问,怎么去规避这个系统呢?账户风险是购买ID,不可控因素过多,透露一点不要去加载他的主要可执行控件EXE,系统通过EXE获取你的底层信息那时轻而易举,什么是EXE?如果你在大量炒作过程经历了这个CTU,数据那是绝对有问题的。有朋友会说不安装控件有办法支付宝付款吗?答案是有的,只加载DLL吧。

pmcots系统:防恶意点击系统,目前也主要用于直通车的防作弊稽查体系,主要考核的是流量环节,其中包网络技术识别有:

1丶IP防止作弊。

2丶Netclean防止作弊,当你访问过一个页面时,Netclean会记录,当你下一次访问该页面时,会提交一个相同COOKIES参数,可以判断重复的参数。这个就是为什么刷单要清理缓存的原因了。

3丶点击率,这个大家也懂,重要是点击数据被收入了特征索引库。而且很多刷单并非出现在小号问题,而是出现在流量问题,比如说点击率过高,流量来源集中在某个关键词,这个特种索引数据库会根据这些问题找到数据异常。

4丶来源统计,在生意参谋的交易分析,商品分析,单品分析中就可以找到,系统会根据流量来源和流量构成做对比分析。

6丶唯一参数,这个需要调用很多参数,例如大家知道的MAC,硬盘序列号,浏览器版本,系统UI等。有一些唯一参数在WEB上很难做到获取,不是技术实现不了,因为这样太危险了,HTTP的协议权限要求太高,会造成整个PC数据暴露在外,就是有些朋友说的浏览个淘宝网页就能把我的系统安装时间,浏览器版本号什么读取出来?其实不是,是调用了系统的数据,如前面的CTU,知道关联什么了吧?

7丶点击时间时间顺差,打开一个页面,二次点击是否为瞬间?因为每个页面都由印象转变为关注,再转变成点击行动,当你打开一个前端页面,一定时间参数内立即关闭,也可以判断为无效点击。没错,淘宝就是根据这个特征识别是否为机器人或者故意点击的。至于菜鸟卖家,怎么检验?这个我们可以才量子记录浏览深度和直通车过滤里面检验数据。也就是大家互刷为什么要深度浏览这样了。这个大家都做淘宝大家都懂。

8丶鼠标值,显示屏幕上的每个点都具有一个坐标值,当你在某个点按下鼠标时,都会有一个坐标值,当采用机器人点击时,为同一个鼠标值,可以只记一次点击。每次点击都会产生鼠标的KEYUP和KEYDOWN的行为,如果未能捕获到这个值,可能是模拟数据提交。又有菜鸟卖家会问?啥?机器人点淘宝,不会吧??为避免误解,科普一下,我们把系统或者软件也可以比喻成机器人。例如大家知道的刷信誉软件。

特征索引数据库:收集到的信息进行整理丶分类丶索引以产生索引库。按照一定方式有序编排起来,以供检索的数据库。我们可以叫做此系统是不断收集和更新数据的学习型病毒积累系统,里面包含了大量数据,经过大量订单交易订单步骤轨迹数据的收集,分析比对,集合信息,就像我们日常配货一样先把货集合好,建立多个特征信息库。就是我们经常听到的数据纬度,里面有多少纬度就是商业机密,然后交给下面说的检索系统调用此数据库的数据纬度。我们每生成一个订单,就会生成各种数据进入这个系统供检索和分析。

数据检索系:引数据库或存储中查找和选取所需数据的过程。淘宝有千千万万个订单,每一个订单号都需要经过这个系统分析比对,其中调用了哪些数据我们估计在运营或者炒作过程中也得出了一些经验,没错,罪魁祸首就是他读取了你能想到的一些信息,我在这里举几个例子开发模型,大家可以举一反三:

1丶淘宝静默转化数据纬度比对

旺旺在线聊天:如系统设定无聊天为w,手机旺旺为WW,旺信为WWW,网页旺旺为WWWW检索系统则调用特征索引数据库数据分析交易数据的其中一个纬度比对:

例女装类目交易订单中此纬度正常百分比【特征索引数据库数据】:

WW>15%

www>0.15%

wwww>2%

淘宝商品ID123456交易订单1丶2丶3丶4丶5-100个订单【我们知道销量数100个订单中】ww<15%纬度异常,判定降权。反之亦然。

2丶购买旺旺信誉度纬度比对

设置购买旺旺信誉度0=w1心=ww2心=www。。。。如此类推

纬度判定指标为

订单中此纬度正常百分比【特征索引数据库数据】:

w<60%

ww<40%

www<30

淘宝商品ID123456交易订单1丶2丶3丶4丶5-100个订单【我们知道销量数100个订单中】ww>60%纬度异常,判定降权。反之亦然。

以上纬度为虚拟数据,别对号入座,是为举例说明,大家经过各种降权苦逼后应该都知道很多纬度,这个我们可以后期在探讨再分享。

四丶人工审核

前面讲的都是机审原则,当系统找出大量异常数据和异常订单都,对很多难以直接判断的订单进行人工排查,也就是最终判断:判定为单维度异常和多维度异常。

单一纬度异常:就是判定疑似虚假交易,可申诉,申诉后进入人工判定(淘宝为了节省人力,你不申诉就不人工了,默认系统判定)。

多个纬度异常:就是虚假交易,还是为了节省人力资源,自动关闭申诉接口。就是大家听到客服说的不允许申诉了。如果你恶意申诉,后果严重哦。

一般被判定为降权,收到系统的后台提醒订时,一般会有4次机会,两次订单申诉,两次订单清洗,但是如果大家没有使用订单申诉,系统自动默认放弃,就只剩下两次清洗的权限。

五丶常见问题

1丶为什么通过支付宝返款的订单会被系统判定为虚假交易?

通过支付宝账户关联判定,支付宝系统在安全方面的银行交易系统利用SSH框架做的https+数字证书,这个只记录硬件和加密数据传输,不存在账户关联,至少系统不会去检测,但是进入人工审核后,刷单返款,用其他支付宝返款之类,都会进入到稽查分为之列。

2丶为什么虚假快递单号会被判定为虚假交易?

淘宝其实有两个快递公司接口系统,一个是客户端物流显示系统,就是我们看到的前端物流信息,如果进入人工判定,还有一个是物流公司开放给淘宝的一个内部API接口,此物流信息和物流网点的内部系统显示的物流信息一致,比客户端的更及时,更详细。这个系统虽然把物流系统作了一个纬度判定,但是因为在技术上的原因,并不能以匹配物流指标的字符串是否相符合为系统自检测判定指标,因为访问量大,需要匹配的字符串太多,数据运算压力大。但是重复的物流单号和时间匹配是有存在的,淘宝今年更新了前端拦截技术,把重复使用过的物流单号拦截在前端提示,可是由于数据库的更新和传输延迟,有一定比例的拦截失败,到了物流判定,一般是人工检测是否恶意使用虚假单号了。

关于申诉,订单申诉的都是随机抽取,可能其中只有一个订单进入了判定异常,也可能这100单全是刷单,但是只抽取了其中的5个订单,大家不要纠结为什么是这5个。

3丶为什么很多人说刷一个新单品,很快就降权了,而同样方式刷的一个热卖单品,却不会降权

这就是热卖单品ID没有超过判定纬度的警戒值,没达到百分比,所以没进入判定。而新品交易订单量小,流量转化比一下子飙升,异常百分比一下就体现出来了。系统如果判定成立,是宁可杀错一千,不放一个。系统没人情的哦,因此,有些导致错误判定就有了申诉接口,如果这样,误判订单有点多,有意无意申诉的也有点多,而处理的人手不够多,所以系统只对那些违规严重的进行处理,也是很多小二警告,刷单不能太明显,太严重

4丶为什么今年刷单不能做了?

因为对方登录的ID前面导致的多订单降权无法申诉(多原因),因此硬件信息被系统提名为重点检测,也就是小黑号,在搜索引擎中,有几个概念叫做广度优先搜索,深度优先搜索,先进后出搜索,其实判定索引就更新了这个技术,因此这个PC和此旺旺小号ID生成的任意信息(包括COOKIE,客户端和控件获取的其他信息)都将优先进入判定分析,系统自动把此订单维度指标上升百分比(重点分析)。而且今年的小号打击力度很大,职业刷手的小号中1000个就有800个被封掉了,主要是根据索引数据库抓爬小号信息,另外200个即使没被抓也会被重点监控,就是系统会提升订单监控百分比值。

图文推荐
淘气值标签如何使用?
2020-10-10 15:24:00
淘宝淘气值怎么刷?
2020-10-10 15:23:00