1
自打人类进化中出现了商业的那一刻起,营销,就成为了人类钻研的核心。
交易的本质是价值交换,但世界上不存在永远对等的价值,所以交换中存在套利空间,这些套利空间,成就了商业的价值。
逐利是人的本性,这是刻在基因里的。
如何把一件产品附加上额外的价值,卖给自己的同类,换回更多的金钱,成了最打动人心的事情,比世界和平还要打动人。
毕竟和平是所有人的,而金钱是少数人的。
越少越珍贵。
纵观人类历史的每一个时代,最先进的技术往往都是最先应用于军事和贸易,而军事,很多时候也都是为贸易所服务的。
从古至今皆是如此,大数据年代也不例外。
在这个人人标签化的数字年代,广告业前所未有的深入到了我们生活的方方面面,影响了我们的各种决策。
你以为你做出的购买决策是基于自身的意愿,但现实并不一定如此。
作为一个整日与数据标签打交道的风控,反商业作弊也是我的日常工作,如果不懂商业广告的底层逻辑,那么是做不好风控的。
这篇文章将给大家科普大数据广告的精准推送原理,我想为大家展示一下数据在合理的策略里可以完成多么恐怖的事情,这是真正的改变世界,或者说是掌控世界。
这里面有谣言,也有真相,更多的是真相与谣言参半。
甚至有时候真相比谣言更加魔幻。
2
让人掏钱,不是一件简单的事情,哪怕是有技术的支持。
数据广告推送,本身是一个极为复杂的工程,这里面涉及数据采集,数据清洗,口径对齐,数据关联,模型训练,策略迭代,场景验证,流量分配,成本控制,渠道管理等一系列工作。
每家合格的数据驱动的营销公司,都会有一只数百到上千人的团队专门做相关的工作,数百个聪明的脑袋996只为做一件事。
让你在不知不觉中心甘情愿的掏钱。
靠一篇文章写全这些,既不太现实,也没必要,所以我决定围绕一个关于大数据广告非常经典的谣言,从辟谣开始,来一步步拆解数据广告推送的基础知识以及对我们生活的影响。
很多人在网上说自己的的手机被人监听了,原因是自己刚和别人讨论了某个话题,没过多久,手机上就出现了类似信息的广告。
例如自己口述了想喝奶茶,打开外卖软件就出现了奶茶推送。
自己说想去欧洲旅游,打开网页就出现了旅游广告。
自己谈到了某种商品,打开购物App就出现了类似商品的推送。
所以很多人觉得自己在被自己手上的App所监听,然后这些监听依据相关的关键词拆解讲话的意思,然后就推送给自己各种各样的广告,精准不精准不说,着实是吓人一跳。
有段时间,整个互联网都在盛传某某App拿录音权限就是为了实时监控用户,甚至某些App还在偷偷录像用户云云。
我得承认大家的想象力是很丰富的,在不懂网络广告推送机制的前提下,提出这些猜想某种程度上也是合理的,但这都是谣言。
互联网公司不会用这种方式来做所谓的精准推送。
不是他们良心发现,而是这么做没有性价比。
商人逐利。
3
为什么不用录音做推送?
从用户角度思考方案,可能只考虑这件事是否能实现,监听录音从技术上可以实现;
但是作为商业公司评估方案,除了需要考虑能不能实现这一点之外,还要综合考虑成本,效率以及风险,马虎不得。
商场如战场。
利用录音做信息收集,然后做广告推送,在当下,是一件成本极高,效率极低,风险极高的事情。
不仅要投入大量成本,连毛都赚不回来,还要面临侵犯用户隐私的指控,脑子没冒烟的公司都不会做这件事,即使是冒烟的公司,做到一半就会发现划不来,然后不做了。
录音牵涉的主要问题如下:
1. 录音功能会让App消耗海量手机资源。
当一个App在后台持续录音的时候,不仅是App本身运转会变得迟缓,更多的是会造成手机本身的耗电量和发热大幅增加,一来二去,用户直接就不使用了,因为一用你的App手机就不好,市场上可选择替代品又太多。
当年滴滴和快的大战的时候,滴滴在关键时刻胜出靠的就是腾讯支持的1000台服务器以及数百名顶尖工程师,比快的早半个月实现了用户体验的质的飞跃,后面的故事大家都知道了。
2.录音文件本身是占用手机存储空间的,并且占用极大。
大家可以自己录一段30分钟的录音看看,这个音频文件会有多大,一个App如果持续录音,在用户重度使用的情况下,可能几天就把手机彻底塞满了。
这会造成非常荒谬的后果。
3.录音录下来之后,无法及时处理这些录音数据。
如果把录音处理模型放在本地App里,那么一个是App安装包臃肿,一个是会被竞争对手反编译,商业机密直接透明,把核心能力包在App本地,是很愚蠢的事情,吃鸡为什么外挂屡禁不止,就是因为运算整体在本地文件,无法抵挡本地篡改,所以本地存储方案不靠谱;
如果走实时上传,那么传输过程中需要流量,这造成用户的流量损耗极为恐怖,并且很容易就被识别出来上传用户信息;
这些数据属于无用数据。
4.录音分析来的数据价值低,且不准确。
如果手机App监听录音,那么首先得保障他监听到的是你本人讲的话,因为推荐是要对你本人进行操作的,但是在现实生活中,录音没法保证只录某个人的声音,要录就是一起录音,这就导致录下来的声音也不知道是谁的。
想想看,我在你身边走过,冲着隔壁的人大喊一声“杜蕾斯”。
然后你打开手机给你推荐杜蕾斯,这种沙雕推荐是不是非常魔幻?
这就是无差别录音带来的问题。
5.语义分析在目前依然面临无法解决的语言本身的问题。
人类的语言是一门艺术,汉语更是高阶艺术,而机器尚未破解这一艺术。
如果大家试过录音转文字,或者语音输入法,就会发现,机器没有办法完整的识别有效的语言场景。
我们来做一个语义识别题:
领导:“你这是什么意思?” 小明:“没什么意思,意思意思。” 领导:“你这就不够意思了。” 小明:“小意思,小意思。” 领导:“你这人真有意思。” 小明:“其实也没有别的意思。” 领导:“那我就不好意思了。” 小明:“是我不好意思。”
这里面的每一个意思,都是什么意思?
机器根本做不到识别这些内容。
甚至很多时候你只要讲方言或者讲话一快,机器就根本不知道你在说什么了。
精准推送的前提是数据可靠且精准,录音绝不在这种数据中。
6.录音带来的风险,要远远超过收益。
录音这件事情,本身是非常敏感的,要是哪个App能被明确抓出来在偷偷录音(目前所有的质疑都只是质疑,没有明确的数据和代码证据),第一个搞他们的不是网民,而是工信部。
这种侵犯隐私的行为,正是抓紧去教育的好时机。
而公司只为求财,不想求进监狱里。
看到这里,我想很多人对于录音这种谣言已经足够了解了,但是还是有疑惑自己身上发生的神奇的事情,没关系,我们继续讲下去,看看真正的数据推送是怎么做的。
我们如何通过巧妙的技术把我们自己困在广告里。
4
数据推送是如何实现的?
一套最最基础解法是,X+N=Y,这是最简单的公式。
X是指的用户特征变量(用户画像),N是指变量应用(算法,策略),Y是指推送效果(用户是否购买)。
所有收集来的用户数据,经过标准化ETL(数据处理),再经过特征工程,形成有效的X。
有了X之后,N就是如何使用X,让最终结果更接近于Y。
这里可以利用算法,也可以使用策略包,目前的主流是使用策略包,因为算法的效果随机性比较大。
所谓的精准推送,本质上其实就是一个用X和N寻找接近Y的过程,所谓的训练模型,只不过是在已知X和Y的情况下,找寻可以让X更接近Y的算法,找出更好用的N。
单纯这么说比较抽象,我举一个例子大家就明白了。
半佛是一个18岁的美少年,曾经在淘宝上买了很多XX品牌的跑鞋,并且经常搜索大体重跑鞋。
从广告推送的角度,针对美少年半佛的推送会这么做。
首先拆解半佛身上的标签,做成X。
男性,18岁,XX省人,学历XX,跑鞋,大体重,常用购物平台,手机型号,App来源,手机入网时长,话费消费记录等等,这些标签都是X,来自于各种各样的数据源。
然后通过过去的购买记录,找到半佛曾经购买过的商品,就是各类跑鞋,做成Y。
一个简单的用户画像就出来了:年轻男性,热爱跑步,胖,乐意花钱,有品牌倾向性,喜欢在淘宝购物,多数购物来自于主动搜索。
那么这时候就可以通过一定的策略,给半佛推荐大量的符合他历史购买习惯的跑鞋(从品牌到型号到价格),如果成交了,就代表算法有效,进一步强化推送;
如果没有成交,就弱化部分特征,推送新一批跑鞋,只要成交,就依据成交结果修正算法。
最终半佛只是无聊刷淘宝,但是最终买了1000双跑鞋回家,然后又挂到了闲鱼上,创造了好几次GMV。
当然实际应用中会比这个公式要复杂很多,各种变量间的衍生变量,不同用户间的关系网络变量,同一个用户在不同场景中要匹配不同的Y,X作为Y,Y作为X,用户消费心理勾画,产品要素设计等等等等,广告推送可以说是互联网最复杂的应用,可能都没有之一。
因为人的购买欲是不稳定的。
上面举的例子仅仅是复杂度为1的情况,实际在应用中,数据和公式的复杂度基本是10086起。
考虑到本文是科普性质,所以我只拿最基本的东西来讲,大家了解这个数据推送的逻辑就可以了,算法本身不是重点。
真正的重点在于精准数据的获取,这才是对我们生活影响最大的。
数据时代的我们,一切都可以量化。
5
很多人所谓的自己偶尔说了什么,然后就收到了相关的广告,所以怀疑自己被录音。
我理解这种想法,但我要说实现这样的效果,根本不需要录音这么麻烦,有的是更精准的方法来获取你的X。
1.最基础的就是你的主动搜索记录。
包括你在搜索引擎上的搜索,你在购物网站的搜索,你在各种App(不一定要是购物)中的搜索,这些你主动搜索的信息,都是高权重的X。
如果是网页端的搜索,那么浏览器和搜索引擎都会留存你的cookie,即使你有定期清除浏览记录的习惯或者知道每次上完网清cookie也没用,现在云计算的发展已经可以做到实时上传,你清除也没用。
2.除开搜索记录和购物记录外,最精准的数据之一就是你的手机App List以及注册App列表。
就是你的手机曾经安装过哪些App,当前手机安装了什么什么App,以及每一个App的打开率,使用时长等等。
这个通过用户授权直接读取App列表以及通过短信验证码反推安装注册可以实现,即使是号称IOS,也可以通过App跳转撞库的方式来撞出至少48个App。
每一个App都是代表了一大串的X,毕竟每个App都有自己的属性和目标用户,这些特征都是很显著的。
你安装了拼多多,可能代表你是一个价格敏感型用户,可以给你推送便宜货;
你安装了Bilibili,可能代表你是一个喜欢二次元的用户,可以给你推荐动漫周边;
你每天大量时间沉迷在短视频,可能代表你是一个热衷于Kill Time的人,当然厂商还会用你浏览记录来更精细化的推荐各种二类电商产品;
你用什么App,某种程度上在机器眼中你就是什么人。
3.LBS地理位置是一个非常有用,但是很多人都会忽略的内容。
很多所谓的谈到奶茶后,打开外卖App会弹出奶茶店铺广告的案例,其实都是因为使用了LBS推送。
大家都知道App会实时获取用户的地理位置,生成与之相关的X,而外卖店铺,本身也有自己的业务辐射范围。
当你走入到这个外卖店铺的辐射圈子的地理位置时,就给你推送相关的信息,让你不得不看。
某著名网红插,就经常喜欢对自己门店2公里内的外卖App用户进行无差别推送,别管你喝不喝,来了就先看个广告吧。
获取LBS的途径有很多,很多时候通过WIFI的固定连接点,也可以识别你是不是在那幢楼办公或者生活,然后围绕这一变量给你进行推送。
你在哪里,你就是谁。
4.聊天记录读取,短信读取,这种东西都太寻常了,我要说的是,输入法。
只要你打字,你的输入法是知道你键入了什么内容的,这部分内容,都会被留存下来,然后作为你特征变量的一部分,这可比录音要好多了,因为百分百是你本人打的字,而且文字表达的含义也更加清晰。
某些输入法,就在做着这样的事情。
输入法既然可以监控你的录入,当然也可以直接读取你的剪贴板,看到你曾经读取过什么。
甚至技术厉害一点的,可以直接监控你的键盘轨迹,连你曾经打出来但是又删除掉的内容都拿到。
哦对了,关于录音,有一点是真的,就是当你用输入法的语音录入功能的时候,他们确实是知道你的录音的,只不过不是读声音,而是通过录音转录文字后的关键词,是读文字。
输入法对于用户隐私的监控与泄露,是非常严重的,而且大多数人都无从感知。
你忘记的,输入法都记得呢。
5.当然,手机本身,就是一个最大的隐私收集器,在系统厂商和硬件厂商眼中,大家其实都是裸奔的。
再讲一个恐怖故事,这些从各种App,各类输入法,各种手机中收集来的用户数据,都是可以交易的,各家公司都在利用这些数据。
随便举一个例子。
用户在头条App中用百度输入法输入【尿不湿】,百度和头条都知道用户在头条输入了这个【尿不湿】,他们有了这个数据,这个数据并且是直接关联用户手机号的,就是说,大家知道是谁,在什么时间,在哪个App里,输入了什么。
而这条精准的用户信息,是可以卖给淘宝或者京东的,淘宝获取了这个信息后,就可以对这个手机号关联的用户去进行相关的推送。
这个市场的体量和交易额远远超出所有人的想象,但是知道的人却寥寥无几。
6
如果要穷举各种App各种手机收集和利用用户隐私的案例,可能讲几天几夜也讲不完。
我来给大家讲一个基于数据采集的用户画像案例吧,看看我们的一生是如何被数据拆解的。
下面的文字部分为正常生活描述,括号内为获取这些数据的途径。
小明,在广告公司上班(通过短信读取公积金信息,或者支付宝绑定公积金)。
28岁,男性(身份证号拆解)。
本科学历(学信网接口通过身份证号调用),外地人(身份证号前6位对比工作所在地)。
租房(租房App或者代缴水电费账户名字与本人不同)。
贷款买了一辆小车(贷款App数据,支付宝绑定行驶证,每月短信还款提醒)。
平时的消费爱好是买书和拼多多(支付类App付款记录),以及打手游(游戏类App以及账号体系)。
经常去XX网吧通宵(外卖收货地址,网吧管理软件用户体系)。
住在XX小区(快递收货地址,手机LBS活跃圈,WIFI连接热点)。
偶尔也去旅游(车票酒店购买记录,异地网红店消费记录)。
甚至喜欢看点小电影(浏览器记录,购买付费记录,转发记录)。
朋友很多(好友数,日常活跃好友数,通话记录与通讯录的交集),朋友们的消费水平也一般般。
收入一般般(短信读取银行到账短信,手机话费余额消费账单)。
有一个女朋友小红(聊天记录,通讯录,通话详单),已经同居(购买大量女性生活用品)。
女朋友公司在XXX(基于小明除家里以外的收货地址,关联一些女性物品交易记录)。
快要结婚了(网上搜索大量与结婚有关的信息,下载了婚礼类App)。
最近可能要当父亲了(查看婴儿用品,网上搜索很多育儿经)。
最近手头有点紧(下载了很多借款App,读取短信可以知道有些下款了,外部可以采购到他的多头负债情况)。
等等等等等等等(10086个等等)。
如果你是广告商,你拿到了这些数据,你可以非常精准的在小明人生的每一个阶段,都恰恰好推送一些恰恰好的广告,很多人可能光看描述就已经在构思营销方案了。
而且,这还只是小明一个人的数据,如果再加上小红的数据,小明朋友的数据,小明父母的数据,最终就会成为一张关系网。
例如当小红在搜索孕妇装的时候,其实就可以给小明推荐奶粉和婴幼儿保险了。
例如小明在搜索各种片子的时候,其实就可以给小红推荐一些情趣用品了。
这种关联多如漫天繁星。
星空下是我们平凡的人生。
如戏一般的人生,剧本不在我们手中。
我们只是一颗棋子。
7
斯诺登的棱镜事件大家都还记得吧,美国政府在全世界范围搞监听。
但要我说,棱镜那个东西,在大数据多维交叉验证面前,只是上个世纪的玩具。
通过数据挖掘和收集,我知道你的爱好,知道你的活动范围,知道你的详细信息,知道你的社交圈,知道你可能要做的事情,知道你的一切。
我比你还要懂你。
为什么我国政府近几年特别重视个人隐私,对于各种滥用隐私行为都是严厉的打击,每年都有大量数据从业者被送进去?
因为当企业知道用户的一切的时候,某种程度上,就可以通过推送,来影响用户的一切。
这个影响可以是精准推送赚钱,也可以是做的更多。
还记得美国大选的时候,FaceBook直接倒卖用户数据来监控舆情,甚至通过精准推送来影响大选的结果?
这是一种超越国界的能力。
不仅仅是改变世界,甚至是掌控世界。
而回到我们自己。
我们的一切,在公司眼中,只是一个个数据标签,是达到他们目的的必要生产资料而已。
他们做的就是把我们做成数据,然后向我们灌输数据,从我们身上得到他们想要的东西。
我们一生的欢笑与泪水,开心与难过,认真的思考,谨慎的决策,最终都不过是一组数据,都是可以被拿来利用的。
他们甚至都不屑于支配我们,你会去冲着一堆数据使劲儿吗?
他们只需要调整参数就可以达到目的。
现在巨头们已经完成了数据的合围,然后通过交易来垄断这些数据。
我们的一切都透明了,再技术飞速进步的年代,钱和权力都无法阻止这一切发生,除了死亡外,人类在大数据面前也是平等的。
这一切都不是秘密,完全是公开的事情,甚至那些卖数据的公司都恨不得自己去打广告找到更多的买家来买,因为卖的人太多了,市场竞争过于激烈,数据量过于饱和。
这魔幻又现实。
数据像大白菜一样摆在那里交易,交易的是我们每个人的人生。
我们的一生的故事都在里面,爱也在,恨也在。
大数据的发展确实给生活增加了便利,这无可否认。
但如何掌握数据采集和数据应用的度?这是一个很大的问题。
更大的问题在于,这种被设计好的生活,真的是我们想要的吗?
我还没有答案,你呢?
|