我们可以投10000次骰子,每次都有6种可能的取值,我们可以将类别数设为6,然后我们就可以开始对每一类出现的次数进行计数了。我们可以画出上述结果的曲线,该曲线就是概率分布曲线。目标变量每个取值的可能性就由其概率分布决定。
一旦我们知道了变量的概率分布,我们就可以开始估计事件出现的概率了,我们甚至可以使用一些概率公式。至此,我们就可更好的理解变量的特性了。概率分布取决于样本的一些特征,例如平均值,标准偏差,偏度和峰度。
2. 正态分布意味着什么正态分布的这种统计特性使得问题变得异常简单,任何具有正态分布的变量,都可以进行高精度分预测。但是现实世界中发现的变量,大多近似服从正态分布。
2.1 中心极限定理那为何如此多的变量都大致服从正态分布?
这里就需要引入中心极限定理。
中心极限定理:
在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值, 这些平均值的分布接近正态分布。设从均值为μ、方差为σ**2(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值X的抽样分布近似服从均值为μ、方差为σ**2/n
的正态分布。
中心极限定理告诉我们,当样本量足够大时,样本均值的分布慢慢变成正态分布。
2.2 重要性 总体本身的分布不要求正态分布:A x B 是正态分布
A + B 是正态分布
因此,使用正态分布,预测变量并在一定范围内找到它的概率会变得非常简单。
3. 正态分布的变量有哪些正态分布只依赖于数据集的两个特征:样本的均值和方差。
均值,样本所有取值的平均 方差,该指标衡量了样本总体偏离均值的程度正态分布很容易解释,因为:
正态分布的均值,模和中位数是相等的。 我们只需要用均值和标准差就能解释整个分布。 4.python来检验数据的分布直接用pandas中的hist(),就能加载所有特征。
DataFrame.hist(bins=10)
5.特别注意
由于正态分布简单且易于理解,因此它也在预测研究中被过度使用。 假设变量服从正态分布会有一些显而易见的缺陷。
例如,我们不能假设股票价格服从正态分布,因为价格不能为负。
同时我们也知道股票收益可能为负数,因此收益可以假设服从正态分布。