从今年开始,爬虫行业竞争越发激烈。
一些公司开发出“骨骼清奇”的爬虫产品,开始抢夺市场。
最近,现金贷行业出现一种“同业爬虫”产品,可以直接将其他现金贷平台的放款额和风控数据爬出来。
“别人放多少,我就放多少,自己都不用做风控了”,某产品使用者称,这一“风控奇招”在圈内开始悄然盛行。
大数据行业激烈竞争,爬虫在其中越发势力微薄,他们只能靠这些剑走偏锋的产品突围了吗?
爬虫凶猛
“同业爬虫?!”
*次听到这个词,王浩一脸懵逼。
两个月前,王浩的公司转型现金贷,他在市面上四处寻找风控系统和数据源,此时,摩羯科技的商务人员,给他推荐了这个最新的“爬虫产品”。
“对方说,这是一款特别讨巧的产品,用了之后,你基本可以不用其他风控”,当王浩明白其背后的逻辑后,“不得不服”。
如何检验借款人是一个好用户?
最简单的办法,就是看这个用户在其他现金贷平台上的授信额度,“别人放款多少,我就放款多少”。
王浩称,这就相当于别的现金贷平台,帮你做了风控。
同业爬虫是一款专门爬取现金贷数据的产品,只需要你提供其他现金贷平台的用户名和密码,就可以爬取用户的所有信息。
“这个产品,最早是我们给玖富定制的,他们使用了一年,爬过100多家同业的数据”,摩羯科技的商务人员称,后来发现产品运行不错,所以决定变成产品大规模推广。
△ 可爬取数据的现金贷平台,目前产品介绍上显示为95家
具体怎么做到的?
摩羯科技的商务人员,用爬取某个现金贷平台举例:
而返回的结果,主要是以下信息:
如果条件允许,甚至会有更为细致的数据维度:
“也就是说,你在其他现金贷平台注册填写的所有信息,都可能被爬出来”,王浩称。
“只需用户授权账号和密码,成功率在85%以上”,魔蝎科技的商务对一本财经称。
而产品说明中,同业爬虫的优势被描述得极为诱人:相对于电商、社交等弱数据而言,同业数据本身属于金融范畴,最能反映个人近期的征信信息。
在没有足够能力做大数据风控的情况下,同业爬虫可借鉴多平台的风控经验。
“这个方式太野蛮了,直接把别人家的风控成果窃取”,王浩称,这和信用卡“以卡办卡”的道理很像,如果你有别的信用卡,我就给你发卡,“但是这个方式直接把同业数据全部掠夺,粗犷多了”。
产品一出现,不少准备做现金贷的平台就蜂拥而至。
在人人都做现金贷的时代,这个“剑走偏锋”的技术,确实省去风控环节,让项目得以快速上线。
而更多有趣的爬虫产品,在不断推向市场。
大家都知道支付宝的数据“金贵”,市面上开始出现一些专门爬取支付宝数据的产品。
摩羯科技的支付宝爬虫产品操作极为简单,只需要用支付宝扫描一下登录“二维码”,就可登录。
而后台的爬取结果无比细致:支付宝用户的真实姓名、手机号、收货地址、近一年的购物信息,甚至详细到每笔交易的金额。
“这个产品挺可怕的,我和商务在测试这个产品时,中间去小卖部买了包烟,回来就发现爬取了这次交易”,某业内人士称。
爬虫产品远远不止这些。
某大数据公司的业务员称,公司最近开发了新项目,可爬取旅行网站、外卖平台、地图、共享单车等平台的个人信息,甚至可以定制化抓取,“拿到*手鲜活原始数据”。
爬虫越发凶猛,而其背后的原因,要从爬虫行业的生产现状说起……
光明与黑暗
爬虫技术也并不神秘,无非分为三步:“爬”上网页、“铲”下数据,进行加工清洗。
爬虫有光明的一面。
类似百度谷歌这样的搜索引擎,其核心逻辑,也是爬虫——爬到用户要的关键词,再展现搜索结果。
“让有价值的东西,更好地呈现,这是爬虫*的功劳”,一爬虫公司的联合创始人金苑称。
爬虫也有黑暗的一面。
大数据时代,爬虫成为低成本获取数据的捷径,经常沦为“黑暗武器”。
2014年,互联网创业高潮中,爬虫技术迎来了一次小爆发。
“爬虫生态链里有这么一类公司,专门替人爬虫,增加APP的虚拟访问量”,金苑称,1万浏览量,报价10元。
“很多公司去竞争对手网站或APP上爬数据,然后拿过来自己用”,金苑称。
在2016年,有媒体曝出,大众点评网起诉百度,称百度未经许可,使用爬虫技术从“大众点评网”上大量获取用户点评信息,用于自家的百度地图及百度知道产品。
最终一审判决,要求百度停止不正当竞争行为,并赔偿323万。
光明与黑暗的交集中,爬虫行业在2016年,才迎来了真正爆发。
2016年,现金贷行业成为爬虫产品的*买家。
爬虫公司为其提供五花八门的服务:例如爬取淘宝、社交网络、网上银行等。
“不管是网站还是APP,只要有账号密码就可以爬,连央行的征信报告都能爬”,某数据负责人声称,“技术好,就没有爬不到的数据”。
这其中最火的产品,是通话记录(运营商数据)爬取。
在这一波浪潮中,崛起了众多爬虫公司,其中做得*的是“聚信立”。
“爬取通讯录,主要是用于用户失联后,可以找他们的亲朋好友催款”,某平台的风控负责人平元鑫称,但通讯录的伪造成本较低,“将联系人改一个号码就行”,有时候可能会失效。
而通话记录的数据,则可靠得多。
而爬取方式也很简单,只要用户提供手机号码和服务码,就可登陆各大运营商的系统爬取。
聚信立爬取数据后,提供给客户的“个人用户报告”极为细致:包括通话号码、次数、时长等信息。
“聚信立爬取一次的价格,是1到3块,但也成了现金贷公司的标配,聚信立赚了很多钱”,平元鑫称。
“你就算吧,每放款一个用户,就得支付聚信立1到3元,如果用户去其他平台借款,还要再收一次”,平元鑫认为,聚信立成了现金贷时代的最大赢家之一。
某种程度上,爬虫技术撑起了现金贷的黄金时代,为其提供大量的风控养料。
但爬虫行业的好日子,并没有持续太长时间。
在聚信立的领头下,大量的公司开始涌进——市场热闹起来。
“成立的公司越来越多,但大部分都是代理商,真正有爬虫技术的,也就30多家”,金苑称。
为了抢夺用户,行业开始打价格战,甚至免费。
“比如,融360和富数,都是你买他家产品,可能会免费附赠爬虫服务”,金苑称,很多公司卯足了劲,开始追赶聚信立,抢夺客户。
爬虫产品同质化严重,客户挑选的标准,自然变成“谁家便宜用谁”。
突然间,一门好生意,变得挣钱都难了,爬虫行业陷入艰难存活的旋涡中。
“尽管爬虫没有门槛,找几个技术就可以干,却是一个脏活累活”,从事爬虫工程师三年的韩苏称,几乎每天,爬虫和反爬之间都在战斗。
每天早上一坐到公司,打开电脑,韩苏就知道,今天的战争开始了。
“谁都不想把自己的数据免费贡献出来,为了反爬,他们也会动用一切手段”,韩苏称。
比如,对于单一IP和设备频繁登录,直接封掉;网站调整为动态的,只有正常用户行为,才能调取数据等等。
“比如以前一个移动商城只要一个短信验证码,后来升级了,验证码又加了一个,我们就得重新写爬虫代码”,韩苏称。
在爬虫公司,后台会有一套监控系统,可以实时看成功失败的比例。
而韩苏需要每个小时去查看一次,一旦失败率上升,就要马上找到原因,并处理。
近来机器学习、canvas指纹等新技术,也被频繁用到反爬软件里,爬取难度越来越大,数据越来越不稳定。
“爬虫开始变成一个重运营、重技术的活”,韩苏称,数据稳定性,成为爬虫公司*的宣传点。
“前有伏兵(反爬),后有追兵”,韩苏如此形容夹缝中的爬虫行业。
未来之路
今年6月1日,《网络安全法》开始实施,无比严苛:
未经授权爬取用户手机通讯录超过50条记录,公司法人最高可获刑3年;
未经授权读取用户公积金社保记录的超过5万条的,公司法人最高可获刑7年。
整个大数据行业面临生死劫,上万数据接口关停,大量数据源被生生切断,行业90%的公司面临淘汰。
而有意思的是,在这轮清洗中,爬虫技术却成了最后的救命稻草。
“安全法规定,获取用户的数据,必须授权,而爬虫就打了一个擦边球”,某大数据公司的CEO称。
“爬虫需要用户授权用户名和密码,只是大部分用户不知道,爬取的数据如此具体,将他所有数据翻遍”,该CEO称。
但激烈竞争依然存在,爬虫行业未来的命运又将如何?
很多爬虫公司为了存活,各种产品开始出现,如同业爬虫、支付宝爬虫、而摩羯科技的最新产品,是爬微信。
但多位业内人士称,这样的竞争方式,不是“康庄大道”,而是“羊肠小道”。
业内人士称,现金贷早期,客户资质都比较好,后期骗贷和欺诈的都来了,只靠简单的爬虫技术,很难挡住他们。
“爬虫公司要提供更多价值,比如,给对方的风控产品,定制化数据,或者自己也可以建立风控模型”,金苑称。
已有几家头部公司开始了转型的尝试,一家爬虫公司正准备将所有数据整合,做一整套的现金贷风控解决方案。
而老大哥“聚信立”,也有这方面的尝试。
“现在最关键的能力,不是建模能力,而是整合和清洗能力”,聚信立的CEO罗皓对一本财经称,因为数据维度越来越多,电商、支付等信息,可能都关系到“还款能力”,需要整合起来。
但这条路,也不是很好走,因为很多大数据公司和风控产品公司,都在这块领域抢肉吃,爬虫公司又如何和他们竞争?
部分从业者对于爬虫技术的未来命运不太乐观,在大数据行业,没有*数据源的公司,都难以存活,何况没什么门槛的爬虫技术?
“孤立无支的爬虫技术,竞争力越发微弱。被收购,成为大数据公司或者大公司的一个爬虫部门,也许也是一条出路”,金苑称。
“存在即是合理”,也有部分从业者比较乐观,现金贷的黄金时代,他们永不会缺业务。
在大数据的涅槃重生时代,爬虫行业也到了一个关键节点。
是深耕行业,还是剑走偏锋,他们可能会走向两条截然不同的路。
(应受访者要求,本文部分人名为化名)