您的位置 首页 其他新闻

基于某异性交友APP的小数据分析

前言:

我习惯在包里藏一瓶百无聊赖,打发人间的白云和苍狗,一日百无聊赖的我下载了某款异性交友APP,开始了我的异性交友之旅,尬聊了两天成功率为0的我略感苍白。感觉APP里的小姐姐太优秀了,这样尬聊下去注定要孤独一生,于是就在想是否对这些妹子进行大数据分析一波,分析出妹子的需求,才好对症下药。

一、数据抓取

1.1数据源获取

想法有了,数据该从哪里来呢,这个交友APP是采取匹配机制。无法无限爬取。限制如下:

1.非会员每个人一天只能匹配5次。只有匹配到了才能看对方资料。

2.对方匹配到你跟你发起聊天。

3.对方匹配到你的动态评论或者点赞,你才能看到对方的动态。

因为有以上三点限制,每天能爬取的数据就非常少,等爬完这些数据,我又要单身好几年,这是无法容忍的,于是乎我便对这款APP进行了友情测试,发现一个系统BUG,可以把自己匹配的权重调为最优,只要写成脚本,就可以让妹子无时无刻优先匹配对象为你。这样就可以做到人在家中坐,妹从天上来。

下图为跑脚本90分钟的数据量:

图1.抓取90分钟样本

于是乎跑了一个星期,共收到了5300+妹子的打招呼,12000+的访问量(本来想截图装逼的,可是手贱把状态值点没了)下面我们就开始爬取数据。

1.2数据选取

既然有了数据源,就到了选取数据的阶段,决定要爬取哪些数据。经过反复分析,我选定了三类数据,并录入数据库。

妹子跟我的聊天内容及时间。(也就是妹子打招呼的第一句话)。

妹子的动态信息。

妹子对我动态评论的信息(这个本文不分析)

二、数据除杂

在数据整理的时候发现这款APP有机器人和真人推广的存在,用于推广股票,贷款之类的产品。所以这一部分数据普遍是没有价值的。

推广1.jpg

图2人工推广
推广2.jpg

图3人工推广

通过分析这些机器人或者人工推广,他们的动态几乎是空的,所以这里把动态为空的认定为废数据,虽然可能会误杀新手用户,但也是没有办法的。我们把这些废数据从数据库内删除。

三、数据分析

3.1妹子在线频段分析

根据妹子打招呼及动态的时间进行分析,可以得出妹子们一般在哪个时间段出现。

一天折线分布.png

图4.平均一天折线分布图

可以从上图看出从4点开始,在线小姐姐人数呈直线上升并在10点达到峰值。这仅仅是打招呼的小姐姐们,按访问频率来换算,每2个匹配到的会点进来看,每3个就会有一个打招呼的话,人数应该再乘6。

周一到周日小姐姐分布图:

一周分布图.png

图5.一周每天人数分布图

可以看出周五周六周日为小姐姐们的频繁活动时间,让人意外的是周六没周五高???

3.2妹子对异性打招呼用语

因为本人没学过数据分析只会计数,所以只能计数分析,首先随机挑选样本数据进行分词。

分词之后计数统计:

你好 3000+
小哥哥 1000+
表情 1000+
Hello 1000+
1000+
Hi 900+
在干嘛 300+
小可爱 34
1

因为数字不太准确,所以用了模糊的数据,还有那个说呸的小姐姐真的很优秀。

3.3动态信息分析

看到好多小姐姐会在动态中写出对对象的要求,这里我们依旧用分词计数分析(其他的我真不会),分词的时候把要求无关的剔除可以得出下表。

高颜值/颜值控 1400+
幽默 1200+
大长腿 1000+
180 1000+
无不良嗜好 900+
不抽烟/不酗酒 900+
土著/本地 900+
110 700+
310 500+
25岁以上 200+
老实 100不到

看到这些要求我突然觉得电脑为何突然看上去这么眉清目秀?

不过这些要求让我想起了一张图,我简单画一下:

妹子的理想.png

图6.妹子理想图

免责声明:若文章为网络转载内容,则文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,文章版权归原作者所有。如本文内容影响到您的合法权益(内容、图片等),请及时联系本站,我们会及时删除处理。

为您推荐

谷歌浏览器默认为用户连接HTTPS网站而非HTTP网站

谷歌浏览器默认为用户连接HTTPS网站而非HTTP网站

基于安全考虑谷歌浏览器多年前开始就致力于推动整个互联网迁移到加密网络,即使用数字签名加密网络间流量。 目前全球大多数网站...
VRRP原理与配置 – 简述VRRP的作用及工作原理

VRRP原理与配置 – 简述VRRP的作用及工作原理

VRRP(虚拟路由冗余协议):通过把几台路由设备联合组成一台虚拟路由设备,将虚拟路由设备的ip地址作为用户的默认网关地址...
工信部等三部门发布《网络产品安全漏洞管理规定》 自9月1日起施行

工信部等三部门发布《网络产品安全漏洞管理规定》 自9月1日起施行

据工信部网站7月13日消息,工信部、国家网信办、公安部发布通知,将《网络产品安全漏洞管理规定》(以下简称《规定》)予以发...
CVE-2019-14287(Linux sudo漏洞)分析

CVE-2019-14287(Linux sudo漏洞)分析

sudo 被爆光一个漏洞,非授权的特权用户可以绕过限制获得特权。官方的修复公告请见:https://www.sudo.w...

F12sec安全团队招新

加入要求 对威胁情报、WEB安全、移动安全、IOT、二进制等任意一项有过经验且感兴趣在校大学生或网络安全从业者无黑灰产背...
返回顶部