欢迎访问生活随笔!

生活随笔

您现在的位置是:首页 > 形式科学 > 统计学 > 数据分析

数据分析

9块9就能找个女朋友,你还在等什么?

发布时间:2022-06-09数据分析 统计学
备受关注的第七次人口普查数据近日公布。数据显示,我国男性比女性人口多出3000余万,从性别构成年龄段来看,从20岁到40岁这一主要婚育年龄段来看,男性比女性多出1700多万人。

备受关注的第七次人口普查数据近日公布。数据显示,我国男性比女性人口多出3000余万,从性别构成年龄段来看,从20岁到40岁这一主要婚育年龄段来看,男性比女性多出1700多万人。听到这个数据,不知道大家慌不慌,反正我是不慌,毕竟现在的年轻人都追求自由,要什么对象(假装不稀罕)。不得不说,近年来,中国人结婚少了、结婚晚了、离婚多了,社会、经济、环境压的我们喘不过气,而高婚育成本更像一座大山,我们在山前徘徊,踌躇等待。

不管怎么说,社会是大家的,生活(对象)是自己的,没对象的争取不做那1/17000000,有对象的且过切珍惜。520来了,你是哪种过节姿势呢?

没对象的请查收这份孤单指南

1、做个wifi宅,只要还能连上网,你就不是孤独的,也别问宅着是不是孤单,你都问了,我能说什么。

2、做个剁手族,与其说爱上了网购,不如说爱上了孤单。单身狗都是独自快乐的,毕竟挣的钱都能自己花,嘻嘻。

3、做个高端玩家,一群单着的人,却想让大家都不孤单。你可以选择在朋友圈接受狗粮投喂,也可以组一个单身局互诉衷肠,毕竟,嘲笑也要一群人更刺激。

4、做个关灯人,为了不孤单,就要承受更多的孤单。做最后一个离开自习室的人,做最后一个下班的人,做最后一个散场的人。

有对象的请查收这份送礼指南

想知道大家都是怎么送礼的么?云朵君特意施展了python大法,在淘宝上爬取了最受欢迎的情人节礼物,看下大家都是怎么选礼物的。

数据爬取

本次数据爬取是采用使用selenium实现动态渲染页面的爬取。selenium是浏览器自动测试框架,模拟浏览器,驱动浏览器执行特定的动作,并可获取浏览器当前呈现的页面的源代码,可见即可爬。

爬虫中主要是获取商品数据,其主要代码如下:

  1. def get_products(): 
  2.     ''' 
  3.     提取商品数据 
  4.     :return: 
  5.     ''' 
  6.     # page_source获取网页源代码 
  7.     html = browser.page_source 
  8.     doc = pq(html) 
  9.     items = doc('#mainsrp-itemlist .items .item').items() 
  10.     for item in items: 
  11.         # 数据存入字典 
  12.         product = { 
  13.             'image': item.find('.pic .img').attr('data-src'), 
  14.             'price': item.find('.price').text(), 
  15.             'deal': item.find('.deal-cnt').text(), 
  16.             'title': item.find('.title').text(), 
  17.             'shop': item.find('.shop').text(), 
  18.             'location': item.find('.location').text(), 
  19.         } 
  20.         with open(f'./{text}.txt', 'a',encoding='utf-8') as fin: 
  21.             fin.write(f"{json.dumps(product, ensure_ascii=False)} ") 
  22.         print(product) 

获取到的原始数据是这样的

数据清洗

定义清洗函数

  1. def deal_deal(x): 
  2.     s = x.split('人付款')[0] 
  3.     if not s: 
  4.         return 0 
  5.     elif s.endswith('万+'): 
  6.         return int(float(x.split('万+人付款')[0])*10000) 
  7.     elif s.endswith('+'): 
  8.         return int(x.split('+人付款')[0]) 
  9.     else: 
  10.         return int(s) 

逐个处理每个列

  1. raw_data = pd.DataFrame(data_list) 
  2. data = raw_data.iloc[:,1:] 
  3. # 单位处理 
  4. data['price'] = data['price'].map(lambda x: float(x.split('¥')[1])) 
  5. data['deal']  = data['deal'].map(lambda x:deal_deal(x)) 
  6. data['province'] = data['location'].map(lambda x: x.split()[0]) 
  7. # 发货地拆分 
  8. data['city'] = data['location'].map(lambda x: x.split()[1] if len(x.split()) ==2 else x.split()[0]) 
  9. # 删除无用的列 
  10. data.drop(columns=['location'],inplace=True) 
  11. # 重命名 
  12. data.columns = ['价格','销量','商品名称','店铺名称','省份','城市'] 

数据清洗完如下:

数据分析

数据整体分布状态

销量和价格都呈现出很明显的右偏分布,价格越低,销量越高。看来情人节礼物普遍比较便宜嘛,这样低成本,高回报的事情,你还在等什么呢?

送礼你选几块钱的?

从各价格区间礼物销量可以看到,100块以内的礼物占比47.42%,100-200块的礼物占比24.66%,200-500块的礼物占比13.16%,说明还是有很多物廉价美的礼物。

按照价格筛选0-100元,并按照销量从高到低,看看大家都喜欢买些什么?

除了一些创意的定制礼物,更抢眼的是销量3万+的玫瑰花,只要九块九,你就能获得芳心!

当然送礼最重要的还是心意,心意与价格不是正相关的,礼轻情意重。

送鲜花,选云南

情人节礼物卖的最好的当属云南!而云南卖的最好的当属鲜花!众所周知,昆明斗南的鲜花占据国内70%的市场份额,是中国乃至亚洲最大的鲜切花交易市场,出口46个国家和地区,平均每十枝鲜花里面就有7枝产自斗南,是著名的“花都”和花卉价格的“晴雨表”。

云南才是名副其实的花海,不仅鲜花种类繁多,而且物美价廉啊!兄弟们,不用吝啬啊,赶紧行动起来!9.9能换个媳妇啊!

看看云南的店在卖什么?

除了玫瑰花,还有网红花束满天星,前两天母亲节的康乃馨,还有勿忘我、向日葵等等!

大家都在买什么?

从词云图中看到,除了玫瑰花等鲜花外,戒指、手链、项链等也是很多男性朋友的选择。挑一件礼物不容易,挑一件她喜欢的礼物更不容易。大家加油!