Thursday, 29 November 2018

霹雳炮 | 没想到这一天来的这么快 大数据之下再无隐私

作者:肥肥猫

来源:肥肥猫的小酒馆(ID:zhihufeifeimao)

我最近发现个诡异的事情。

我前几天在淘宝和京东分别搜过一样特别小众的商品,小众到什么程度呢?小众到一般人根本不知道这类东西的存在。

结果我今天打开拼多多,拼多多居然在首页第一条就推荐了我这件东西。

这是怎么回事?

要知道我在拼多多上没有搜过任何东西,纯粹是因为好奇拼多多有多傻逼才下的,同时我也没有在任何搜索引擎搜过这个商品的名字。

也就是说,拼多多只可能从淘宝和京东那里拿到我的搜索记录。

但我想这两个大户显然不会和这样一个竞争对手共享这种大数据。

那问题来了,拼多多是怎样拿到我的偏好的呢?难道是淘宝有内鬼兜售?难道淘宝被拼多多的间谍攻破了数据库?难道是我的华为手机把我卖了?

难道说现在各种软硬件之间已经在互相利用及共享用户信息,但凡手里有数据的都会拿到台面上互通有无?

百思不得其解,细思极恐。

– 01 –

你也遇到过吗?

我把拼多多这个事情发在知乎里,想看看是不是有人和我一样有这种感受。结果好多人纷纷和我表示,我现在才发现这个实在是太迟钝了:

有人试过在B站搜一首歌听,结果第二天网易云音乐的每日推荐里就有这首歌。B站和网易云音乐有没有py交易?——我猜应该是有的。当然这尚可接受。

有人在小红书看到一个RC的鞋,然后就去淘宝上搜有没有代购,后来感觉不靠谱就放弃了,结果马上就在微博上就看见同款鞋的推广。微博和淘宝有没有py交易?我不知道。

有人只是去参加了一次北京婚博会,晚上回到家打开微博和微信,发现信息流广告全部变成了婚纱照、婚庆公司、婚礼礼服等。令他感到恐怖的是在此之前从未在手机进行过结婚相关的任何搜索。这一切发生改变的原因仅仅是因为他去了一次婚博会这个地方而已。

有人在知乎看到除甲醛的相关问题,只是百度了一下,结果连一个美食app都开始推荐除甲醛公司。在百度上打开某理财网站,不到半小时推销电话就打过来了。



有时候你在网上搜了一本小说,然后突然就会有很多假网站在百度上显示他们网站有这本小说可以下载,然后让百度把他推在首页,你打开链接一看其实里面没有,但是有其他东西的广告。

qq也是,推送的店铺广告会一直随着你的行程而变。你在武汉它就给你推武汉,你在苏州它就推苏州。

看完知友的倾诉,我觉得今天的互联网真是太可怕了。我知道大数据发展到最后一定会迎来这一天——我们自己被卖了都不知道怎么被卖的,

但我没想到这一天来的这么快。

我本来已经被忽悠的快相信大数据这个东西了。

我以前觉得,就像你去楼下馄饨店吃馄饨,由于你喜欢吃香菜,老板为了留住你,在你去过第一次后,每次都多给你加一些香菜来讨好你,这是好事情,所谓的大数据就应该这样改善我的生活。

但如果这个老板把我的喜好卖给方圆20里地所有出得起钱的人,也不问他们拿了这个信息要干嘛,这个事情就变得让我有点不安起来。何况,现在出售的可不仅仅是我爱吃香菜这点信息。



我有一个粉丝作为互联网从业人员告诉我,这些都是正常现象,让我去百度一下“阿里妈妈”就知道了,于是我真的去百度了。

你们能想象吗,“人群捕捞”这种用词居然能被当成公开的营销策略来叫卖。

我不是牲口,谁也别想“捕捞”我。

– 02 –

到底是谁出卖了你?

因为拼多多这个事情,我最近开始反思我的上网习惯。

除了这帮互联网公司可能在相互勾兑之外,我们身边还可能隐藏了哪些出卖我们的东西呢?

会不会是浏览器泄露了你的信息?

当年浏览器还是流量主入口的时候,多少奸商在浏览器上打主意。今天这个生态还在不在,有没有升级成新的手段?

会不会是输入法的锅?

要说嫌疑,输入法其实是最大的,因为各个软件之间就算没有数据共享,但输入法却是连接各个软件的东西。它掌握了你线上线下的中文输出内容,如果有心利用,这可是个巨大的财富池。



还有路由器这个东西,这个最容易被普通人忽略。

我记得过去银行搞互联网安全科普,一条重要的经验就是登陆网银的时候不要用公共场合的wifi,而是直接连移动联通的4G,因为你不知道公共wifi路由器是不是在中间截取了你的传输信息。

其实想想,家里的路由器就可靠吗?很多人现在都反应用手机连家里wifi搜个东西,然后在家用电脑会发现给你推荐类似手机搜过的东西。现在很多搞网贷区块链的公司甚至愿意免费送你路由器,能安什么好心?



中国的运营商也不值得信任。

虽然说移动联通搞你的网银密码可能性不大,但是卖你一点个人信息还是很有动力的。就算移动联通能管住自己,就一定能管住自己下面几十万员工吗?不要太乐观。

当然,这些都不是最狠的,最怕就是直接在手机硬件上打主意。以普通人的动手能力和数码水平,想在硬件层面上对抗那基本是完全无招架之力的。

为什么斯诺登常年保持把摄像头用胶布贴起来的习惯?他知道这里面水有多深,很多app监听着你的手机麦克风,刚和别人语音说过的东西马上就推荐给你绝对不是空穴来风。



目前的语音识别已经非常完善。哪怕带着很重的口音/使用方言,语音输入法都有极高的识别率。当然,当手机在口袋里时会出现很多干扰,这会降低识别率;但哪怕只能识别一些片段,也足够拿来完成很多分析了。

新加坡的一个团队甚至成功利用每个手机上都有的加速计、陀螺仪、磁力计、近距离传感器搞到了你输入的密码。

原理是这样的:当你伸手在屏幕上划来划去时,手机微不可察的细小位置变动会体现为加速度计、陀螺仪里面数值的极小变化,通过细微的力矩差异足以推断出你手指点在屏幕哪个角落。

这些传感器,过去并不认为它是敏感的、需要保护的,所以任何程序都可以读它。

怎么样,是不是毛骨悚然?



智能手机可能是至今发明的最私密的监控设备。它持续跟踪我们的位置,它知道我们居住在什么地方,在何处工作,在何地消遣。知道我们什么时候醒来什么时候睡觉,因为人人都有手机,因此它还能知道我们和谁一起睡觉。

– 03 –

所谓的【新零售】究竟是什么鬼?

我已经大概摸清了,所谓的新零售,其实就是用大数据杀熟。

一家酒店,如果有好多ip都在查询,别想了,价格肯定嗖嗖涨。如果你用同一个ip的不同设备反复查,一天查好几次,他还会故意无房。要是你第一次点了取消后,回头再来看,价格会陡然升高。因为他知道你现在的需求特别迫切了。

马未都讲过他掏古董的时候也有类似的经验:买古董如果当场看中当场买,往往价格会比较低,如果犹豫了一下,过两天再去,对方就知道你是有明确购买意向的,立马涨价。他管这叫做“买惊了”。

如果发现你住在“富人区”,卖给你的东西不贵个几成,对得起大数据吗,对得起互联网业界的努力吗?

以后那帮搞电商还能做到分辨每一个购买者的消费能力,同样买一双nike,根据你平时的消费,判定是高帅富的,有一定鉴别能力的,给发真货。一般穷人,就图个牌子的那种,直接发假货,美滋滋。



现在人类全基因组全测序完也才70个G的大小,包含你所有的信息,以后要是这个也被卖来卖去,保险公司一定会推荐你买你最不可能的病的保险,这样他们的赔付率会大幅降低。

大数据要是再和证券市场一结合那更是割韭菜的利器。在这种零和游戏里面,机构对散户的收割会变成单向的屠杀。

如果一定要总结出来那些台面上的商人学者饭复念叨的新零售究竟是什么,那么可以这么给他下一个定义:

通过综合一系列的分析,判断出


你是谁,

你现在要做什么,

愿意付出多少代价去做。

然后通过精准的用户画像,去对消费能力高、消费意愿强烈的用户展示更高的价格,赚取更多的利益。

更具体的说,他们会根据你以及你的朋友们使用搜索引擎搜索的词汇、时间、频率,判断你是“随便看看”还是“心里长草”甚至是“心急如焚”,从而给你以及你的整个社会关系圈调整报价。你会越来越被引导着去买那些对你来说非最佳、但对商家来说利润更高的东西。

不要觉得关于你的看似不起眼的信息泄露出去没什么。只要有心,从你身上多找点钱还是很容易的——而且你还发现不了。



所以你猜,为什么国产应用,总喜欢一口气要3、40项甚至更多授权,试图把你的通讯录你的短信你的摄像头你的麦克风你的SD卡等等等等,把所有的内容都一网打尽呢?

未来这帮大佬们的市值再增长个几千亿,就靠这个了。

– 04 –

更加可怕的未来就在前方

过去要洗一个人的脑是一件很麻烦的事情。

比如传销组织,要先把你骗去一个地方,安排壮汉把你关起来不让走,然后主持人每天说的口干舌燥,又唱又哭,还未必能洗成功。

未来?洗脑根本不需要那么麻烦,随着你交付出越来越多的个人信息,掌握在云端的数据日益庞大,比你自己更了解自己的利益集团和别有用心的人可以让你的大脑自己自动产生出他们需要的念头。

这些掌握了大量个人信息的网站,不仅仅有你的生辰八字,身份住址,关键他记录了你的行为,通过后台反复模拟计算,他可以以最短时间了解到你的需求,然后迅速满足你。

慢慢地,互联网的“好用”会逐渐绑架你的心智。



在庞大的数据面前,人类越来越像一个提供输入的变量角色,任何试图伪装和保护自己的举动,在无死角的数据监控下都显得徒劳。

那个垃圾头条和抖音就是一场预演,每天大量的运算被用来预测1亿用户的“真实”需求,1亿用户的“真实”需求是什么?没人说得清,算法告诉你。

说实话,只是通过爬到我输入的关键词来打广告这还不是最恐怖的,最恐怖的是,我只是在心里想,然后它也会推送这样东西的广告。

而且他推了以后,我居然觉得自己确实需要。

可见算法工程师的工资不是白拿的。



这个过程是怎样的呢?举个例子:

你有一天你心中突然想了解一下某个品牌笔记本电脑,结果一打开某个网站发现广告推荐已经给你把这个商品给推荐过来了。

你也许会心里疑问,我明明没在网上搜过这东西啊,也从来没和人谈起过这个品牌啊,怎么广告就知道了正好我现在就想了解一下呢?

其实很简单,你之所以会有想了解这个笔记本这个想法,并不是凭空产生的,有可能是你在浏览其他地方时,对笔记本相关的评测或推广的目光停留稍微长了几毫秒。



滚动慢了0.1秒那么一下,人再“奸”都发觉不了这个小动作;甚至连你自己都没注意到自己手指拨动慢了那么一丝丝;但电脑却可以轻松察觉到这个停顿——然后立即采取行动。

就这么几毫秒,这个动作马上被记录下来,说明你看中这个商品了。现在,只需要想办法“推”你一把,帮你更快下定决心。

算法就会在接下里的咨询中倾向于给你推荐更多和有关某个品牌创始人、游戏、硬件方面的信息。

积少成多,终于这些活动引起了你意识层面的念头——我需要买一个新的笔记本电脑,算法大功告成,这个时候可以正式给你推它的广告了。

算法还可以根据你周围的朋友,从他们的网上留下的信息里归结出最近这些朋友的高频词,也即他们最近所关心的话题。而你是他们的朋友,所以算法就认为你可能总会从朋友那听说这个话题,从而变得关心。

个体的行为不全部是随机产生的,在之前的所见所闻所搜索中已经蕴含了你下一步行动的信息。所以你会觉得计算机怎么这么厉害,都窥探到你心里想什么了。其实并不是猜到,而是你的意识是被引导了,只是你察觉不到。



最终,我们自己变成了移动数据库。

我们的每次搜索都会变成用户画像中的一个标签在互联网上的这些平台上转发,我们每打开一次网页或者app,我们就被挂起来卖了:

诶!瞧啊!这个人在这上网呢,谁要给他显示广告,价高者得!

大数据时代,你无处可遁。

百度的李彦宏曾经公开宣扬过,中国人愿意用隐私换取便利。

借一句知乎上的评论:古往今来,所有损害中国人民利益的人都会用这么一个借口——中国人不需要。而中国人需要什么,人民自己反而是无权定义的。

– 05 –

后记

我咨询了一个比较Geek硬核的朋友要怎么擦除互联网上留下的痕迹,他给我的建议是:

国产服务不要想删除数据的事了。想彻底抹去互联网上的痕迹是很赛博朋克的行为,不要自找苦吃。除非你像我一样,关闭掉一切非必须的定位许可、照片读取许可、通讯录读取许可,从来不在外面连wifi。所有app禁止读取通讯录,禁止读取应用列表,禁止读取信息。

我说,那还有啥软件能用啊?这不全歇菜了。

他说,所以我从来不用任何 大陆软件,能用开源软件一律用开源,任何 大陆产软件都放在 virtual machine或者 Sandbox里面用,多重代理加TOR。

我想了想,放弃了。



上次爆出来大数据杀熟还是上半年的事情,这事居然最后不了了之了,媒体集体闭嘴,关键词搜索消失,巨头的力量真是牛逼透顶。

我们唯一能做的,只有提高警惕。如果可能,转发这类文章给周围的人。我们的漠不关心,终将滋养出一批可怕的怪物。

from 中国数字时代 https://chinadigitaltimes.net/chinese/2018/11/%e9%9c%b9%e9%9b%b3%e7%82%ae-%e6%b2%a1%e6%83%b3%e5%88%b0%e8%bf%99%e4%b8%80%e5%a4%a9%e6%9d%a5%e7%9a%84%e8%bf%99%e4%b9%88%e5%bf%ab-%e5%a4%a7%e6%95%b0%e6%8d%ae%e4%b9%8b%e4%b8%8b%e5%86%8d%e6%97%a0/