1880-2010年间全美婴儿姓名

Bonnie ·

更新时间:2024-11-13

· 591 次阅读

1880-2010年间全美婴儿姓名

!git clone https://github.com/wesm/pydata-book

0 导入相关库

# 基础
import numpy as np # 处理数组
import pandas as pd # 读取数据&&DataFrame
import matplotlib.pyplot as plt # 制图
import seaborn as sns
from matplotlib import rcParams # 定义参数
from matplotlib.cm import rainbow # 配置颜色
%matplotlib inline 
import warnings
warnings.filterwarnings('ignore') # 忽略警告信息
np.set_printoptions(precision=4) # 小数点后
pd.options.display.max_rows = 10 # 最大行数

1 读取文本文件（文件夹、TXT格式）

!ls pydata-book/datasets/babynames

在这里插入图片描述
!head -n 10 pydata-book/datasets/babynames/yob1880.txt

性别/名字组合的出生总数

names1880 = pd.read_csv('pydata-book/datasets/babynames/yob1880.txt',
                        names=['name', 'sex', 'births'])
names1880

在这里插入图片描述

names1880.groupby('sex').births.sum()

在这里插入图片描述

years = range(1880, 2011)
pieces = []
columns = ['name', 'sex', 'births']
for year in years:
    path = 'pydata-book/datasets/babynames/yob%d.txt' % year
    frame = pd.read_csv(path, names=columns)
    frame['year'] = year
    pieces.append(frame)
names = pd.concat(pieces, ignore_index=True)
names

在这里插入图片描述

2 数据预处理

pd.DataFrame.pivot_table

total_births = names.pivot_table('births', index='year',
                                 columns='sex', aggfunc=sum)
total_births

在这里插入图片描述

total_births.plot(title='Total births by sex and year')

在这里插入图片描述

def add_prop(group):
    group['prop'] = group.births / group.births.sum()
    return group
names = names.groupby(['year', 'sex']).apply(add_prop)
names

在这里插入图片描述

names.groupby(['year', 'sex']).prop.sum()

在这里插入图片描述

def get_top1000(group):
    return group.sort_values(by='births', ascending=False)[:1000]
grouped = names.groupby(['year', 'sex'])
top1000 = grouped.apply(get_top1000)
top1000

在这里插入图片描述

3 分析命名趋势

# 按性别分为两部分
boys = top1000[top1000.sex == 'M']
girls = top1000[top1000.sex == 'F']
# 按year name 统计的总出生透视表
total_births = top1000.pivot_table('births', index='year',
                                   columns='name',
                                   aggfunc=sum)
total_births.info()

在这里插入图片描述

total_births

在这里插入图片描述

subset = total_births[['John', 'Harry', 'Mary', 'Marilyn']]
subset.plot(subplots=True, figsize=(12, 10), grid=False,
            title="Number of births per year")

在这里插入图片描述
观察发现这几个名字目前已然日落西山

4 评估命名多样性的增长 父母越来越不愿意给小孩起常见的名字计算最流行的1000个名字所占的比例

按year & sex去和并绘图
pd.DataFrame.pivot_table
pd.DataFrame.plot
np.linspace

table = top1000.pivot_table('prop', index='year',
                            columns='sex', aggfunc=sum)
table.plot(title='Sum of table1000.prop by year and sex',
           yticks=np.linspace(0, 1.2, 13), xticks=range(1880, 2020, 10))

在这里插入图片描述
前1000项的比例降低 -> 名字的多样性增长

3.计算占总出生人数前50%的不同名字的数量
只考虑2010年男孩的名字

df2010 = boys[boys.year == 2010]
df2010

在这里插入图片描述

pd.DataFrame.sort_values
pd.DataFrame.cumsum # 累计和
pd.Series.searchsorted

prop_cumsum2010 = df2010.sort_values(by='prop', ascending=False).prop.cumsum()
prop_cumsum2010

在这里插入图片描述

prop_cumsum2010.values.searchsorted(0.5)

在这里插入图片描述
数组索引从0开始（即116+1）

df1900 = boys[boys.year == 1900]
prop_cumsum1900 = df1900
boys[boys.year == 1900].sort_values(by='prop', ascending=False).prop.cumsum().values.searchsorted(0.5) + 1

对所有year/sex组合执行计算
按year/sex字段进行groupby处理，然后用一个函数计算各分组的值

def get_quantile_count(group, q=0.5):
    group = group.sort_values(by='prop', ascending=False)
    return group.prop.cumsum().values.searchsorted(q) + 1
diversity = top1000.groupby(['year', 'sex']).apply(get_quantile_count)
diversity

在这里插入图片描述

pd.DataFrame.unstack

diversity.unstack('sex')

在这里插入图片描述

diversity.unstack('sex').plot(title='Number of popular names in top 50%')

在这里插入图片描述
观察图可发现女孩名字的多样性总比男孩高，而且越来越高

5 “最后一个字母”的变革

last_letters = names.name.map(lambda x: x[-1])
last_letters.name = 'last_letter'
table = names.pivot_table('births', index=last_letters, columns=['sex', 'year'], aggfunc=sum)
table

在这里插入图片描述

选出具有一定代表性的三年

subtable = table.reindex(columns=[1910, 1960, 2010], level='year')
subtable

在这里插入图片描述

规范化处理 -> 计算出各性别各末字母占总出生人数的比例

subtable.sum()

在这里插入图片描述

letter_prop = subtable / subtable.sum()
letter_prop

在这里插入图片描述

各年度各性别条形图
pd.DataFrame.plot

fig, axes = plt.subplots(2, 1, figsize=(10, 8))
letter_prop['M'].plot(kind='bar', rot=0, ax=axes[0], title='Male')
letter_prop['F'].plot(kind='bar', rot=0, ax=axes[1], title='FeMale', legend=False)

在这里插入图片描述

plt.tight_layout() # 最佳

在这里插入图片描述
观察图可知，20世纪60年代开始，以字母为’n’结尾的男孩名字出现了显著增长

按照年度和性别对table进行规范化处理，并在男孩名字中选取几个字母
进行转置后将各个列做成一个时间序列

letter_prop = table / table.sum()
letter_prop

在这里插入图片描述

letter_prop.loc[['d', 'n', 'y'], 'M']

在这里插入图片描述

letter_prop.loc[['d', 'n', 'y'], 'M'].T

在这里插入图片描述

letter_prop.loc[['d', 'n', 'y'], 'M'].T.plot()

在这里插入图片描述

6 变成女孩名字的男孩名字（以及相反的情况）

找出以’lesl’开头的名字
pd.Series.unique
str.contains

all_names = pd.Series(top1000.name.unique())
lesl_like = all_names[all_names.str.lower().str.contains('lesl')]
lesl_like

在这里插入图片描述

利用lesl_like过滤其他名字，并按名字分组计算出生数以查看相对频率
pd.Series.isin
pd.Series.sum

filtered = top1000[top1000.name.isin(lesl_like)]
filtered.groupby('name').births.sum()

在这里插入图片描述

按性别和年度进行聚合，并按年度进行规范化处理
pd.DataFrame.div
pd.DataFrame.sum

table = filtered.pivot_table('births', index='year', columns='sex', aggfunc='sum')
table = table.div(table.sum(1), axis=0)
table

在这里插入图片描述

table.plot(style={'M': 'k-', 'F': 'k--'})

在这里插入图片描述

作者：喝醉酒的小白

婴儿姓名

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

浏览器地址栏中显示自定义小图标

Elaine 2020-04-04

677

详解VirtualBox虚拟机网络环境解析和搭建-NAT、桥接、Host-Only、Internal、端口映射

Nissa 2020-12-19

981

Python简单生成随机姓名的方法示例

Jelena 2020-02-11

723

python中合并两个文本文件并按照姓名首字母排序的例子

Zarah 2020-10-29

546

JS代码随机生成姓名、手机号、身份证号、银行卡号

Nerissa 2020-05-23

708

js验证真实姓名与身份证号是否匹配

Kelli 2021-06-02

895

Python turtle画图库画姓名实例

Freda 2021-07-16

832

数据说明：姓名|网址|访问时间需求：分别计算每个用户在页面的停留时长。写入MySQL。结果数据：用户网址停留时长

Serepta 2020-03-05

617

学科、姓名、分数。分别计算每门学科分数最高的前三名，并显示名次。写入MySQL中。

Dagny 2021-01-31

728

1880-2010年间全美婴儿姓名

Bonnie 2020-04-03

591

java课堂作业：用二维数组存储五个学生姓名学号，并用正则表达式判断输入数据是否有误。输出按学号排序的学生。

Lassie 2021-03-24

697

动态链表用数组法与指针法求——有n个结构体变量，内含学生学号、姓名和3门课程的成绩。要求输出平均成绩最高的学生的信息(包括学号、姓名、3门课程成绩和平均成绩)。

Maeve 2020-12-11

981

php实现姓名根据首字母排序的类与方法(实例代码)

Odetta 2020-09-24

552

PHP基于自定义类随机生成姓名的方法示例

Willow 2020-04-10

735

php获取英文姓名首字母的方法

Rena 2020-10-03

623

JavaScript基于用户照片姓名生成海报

Fiona 2020-01-01

661

个性自定义财付通姓名自定义财付通为马化腾等任意名字图解

Feronia 2022-03-04

1697

Vue手机号正则匹配姓名加密展示功能的实现

Elita 2022-08-22

960

pythonPaddleSpeech实现婴儿啼哭识别

Frieda 2022-08-26

420

Vue 计算属性之姓名案例的三种实现方法

Liana 2022-10-11

1626

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座