第四部分 统计
第22章 统计与统计数据
考点一:统计学的两大分支及各自的内容 统计学的两大分支(描述统计和推断统计) 类型 主要考点 描述统计 研究数据收集、整理和描述的统计方法。其内容包括: 1、如何取得所需要的数据; 2、如何用图表或数学方法对数据进行整理和展示; 3、如何描述数据的一般特征。 推断统计 研究如何利用样本数据推断总体特征的统计方法。其内容包括: 1、 参数估计:利用样本信息推断总体特征; 2、 假设检验:利用样本信息判断对总体假设是否成立。 考点二:变量及数据 1、变量:变量是研究对象的属性或特征,它是相对于常数而言的。常数只有一个固定取值,变量可以有两个或更多个可能的取值。
分类 定量变量(数量变量) 变量的取值是数量。 如企业销售额、注册员工数 定性 分类变量 变量的取值是类别。如企业所属行业、员工性别 变量 顺序变量 变量的取值是类别且有顺序。如员工受教育水平 2、数据:数据是对变量进行测量、观测的结果。数据可以是数值、文字或者图像等形式。 定量数据 是对定量变量的观测结果,其取值表现为具体的数值。 (数值型数据) 如企业的销售额是1000万元。 分类数据 分类变量的观测结果,表现为类别,一般用文字来表述,也可用数字描述。如,用1表示男性,2表示女性。 顺序数据 顺序变量的观测结果,表现为类别,一般用文字描述,也可用数字描述。如用1表示硕士及以上,2表示本科,3表示大专及以下。 考点三:数据的来源 分类 类别 内容 按收集方法 观测数据 通过直接调查或测量而收集的数据。观测数据是在没有对事物施加任何人为控制因素的条件下得到的。几乎所有与社会经济现象有关的统计数据都是观测数据,如GDP、CPI、房价等。 实验数据 通过在实验中控制实验对象以及其所处的实验环境收集到的数据。如,一种新产品使用寿命的数据,一种新药疗效的数据。自然科学领域的数据大多都是实验数据。 按来源 一手数据 来源于直接的调查和科学实验的数据,对使用者来说这是数据的直接来源。其来源主要有:调查或观察;实验。 二手数据 来源于别人的调查或实验的数据。对使用者来说这是数据的间接来源。 考点四:统计调查 1:统计调查的种类 种类 具体内容 按调查对象的范围全面调查 全面统计报表和普查 不同 非全面调查 非全面统计报表、抽样调查、重点调 查和典型调查 按调查登记的 连续调查 如工厂的产品生产、原材料的投入、时间是否连续 能源的消耗、人口的出生、死亡等。 不连续调查 如生产设备拥有量、耕地面积等。 2.统计调查方式
在我国常用的统计调查方式有统计报表、普查、抽样调查、重点调查和典型调查。
调查 方式 含义 主要考点 1.普查通常是一次性的或者周期性的; 为某一特定目的而专门组织的一2.一般需要规定统一的标准调查时间,以普查 次性全面调查,主要用于收集处避免调查数据的重复或遗漏,保证普查结于某一时点状态上的社会经济现果的准确性。 象的基本全貌。 3.数据一般比较准确 4.使用范围比较窄 从调查对象的总体中随机抽取一1.经济性(最显著的优点) 2.时效性强 抽样 部分单位作为样本进行调查,并调查 根据样本调查结果来推断总体特3.适应面广 征的一种非全面调查 4.准确性高 (1)为了及时了解全国城市零售物价的变动趋势,就可以对全国的35个大中型城市从调查对象的总体中选择少数重的零售物价的变化进行调查就是重点调查。 重点 点单位进行调查。所选择的重点调查 单位就调查的标志值来说在总体(2)要及时了解全国工业企业的增加值和中占绝大比重 资产总额情况,只需对全国大中型工业企业进行重点调查即可。 (3)国家统计局的全国5000家工业企业联网直报制度属于重点调查。 典型 选择若干具有典型意义的或有代作用:弥补全面调查的不足;在一定条件下可以验证全面调查数据的真实性。 调查 表性的单位进行的调查。 【例题:多选题】与抽样调查相比,普查的特点有()。 A.时效性强 B.使用范围比较窄
C.通常是一次性或周期性的
D.规定统一的标准调查时间 E.经济性
【答案】BCD【解析】 第23章 描述统计 考点一:集中趋势的测度
集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。 测度值 计算 备注 均值 数据组中所有数值的总和(1)它是集中趋势中最主要的测度值; 除以该组数值的个数 (2)均值主要适用于数值型数据,但不适用于分类数据和顺序数据。 (3)均值易受极端值的影响 (4)能够充分利用数据的全部信息 中位数 一组数据按从小到大或从(1)适用于顺序数据,也适用于数值型数据,但不适大到小的顺序进行排列,用于分类数据 位置居中的数值。 (2)不受极端值的影响,抗干扰性强。 (3)没有充分利用数据的全部信息,稳定性差于均值但优于众数。 众数 一组数据中出现次数最多(1)适于描述分类数据和顺序数据; 的变量值。 (2)不受极端值的影响 (3)没有充分利用数据的全部信息,缺乏稳定性,而且可能不唯一(有些情况下可能出现双众数、多众数或者没有众数,难以描述数据的集中趋势) 【例题:单选题】2010年某省8个地市的财政支出(单位:万元)分别为:65602、59000、78000、50002、66450、78000、78000、132100这组数据的中位数和众数分别是()万元。 A.78000;78000
B.72225;78000 C.66450;132100 D.75894;132100
【答案】B【解析】本题先选择众数,可以排除CD。再确定中位数,先将数据由小到大排序50002、59000、65602、66450、78000、78000、78000、132100由于所给数据是8个,所以中位数的位置是第4个和第5个数据的平均数。 (66450+78000)/2=72225
【例题:多选题】适于测度顺序数据的指标有()。 A.离散系数 B.中位数 C.众数 D.均值 E.标准差
【答案】BC【解析】考核中位数、众数、均值的适用范围。 指标 适用数据类型 是否受极端值影响 众数 分类数据、顺序数据 不受 中位数 顺序数据、数值型数据 不受 均值 数值型数据 受 考点二:离散程度的测度值 方差 数据组中各数值与其方差越小,说明数据值与均值的平均距离越均值离差平方的平均小,均值的代表性越好。 数。 标准差 方差的平方根 不仅能度量数值与均值的平均距离,还与原始数值具有相同的计量单位。 标准差越小,说明数据值与均值的平均距离越小,均值的代表性越好。 离散系数标准差与均值的比值 离散系数消除了测度单位和观测值水平不(变异系同的影响,因而可以直接用来比较变量的离数,标准差散程度。 系数) 【例题:单选题】某学校学生的平均年龄为20岁,标准差为3岁;该校教师的平均年龄为38岁,标准差为3岁。比较该校学生年龄和教师年龄的离散程度,则( )。 A.学生年龄和教师年龄的离散程度相同 B.教师年龄的离散程度大一些
C.教师年龄的离散程度是学生年龄离散程度的1.9倍 D.学生年龄的离散程度大一些
【答案】D【解析】平均值不同的情况下,用离散系数比较离散程度。 学生年龄的离散系数=3/20*100%=15% 教师年龄的离散系数=3/38*100%=7.89%
离散系数大的说明数据的离散程度也就大,离散系数小的说明数据的离散程度也就小。
考点三:分布形态的测度
分布形态的测度指标包括偏态系数和标准分数。 一、偏态系数 项目 主要内容 偏态 测度数据分布偏度的统计量,取决于离差三次方的平均数与标准差系数 三次方的比值。 偏 等于0 数据的分布是对称的。 态 偏态系数>0: 分布为右偏。 系 1.取值在0和0.5之间,轻度右偏; 数 2.取值在0.5和1之间,中度右偏; 的 3.取值大于1,严重右偏; 取 偏态系数<0 分布为左偏。 值 1.取值在0和-0.5之间,轻度左偏; 2.取值在-0.5和-1之间,中度左偏; 3.取值小于-1,严重左偏; 偏态系数的绝对值越大 数据分布的偏斜程度越大; 【例题:多选题】下列关于偏态系数的表述错误的是()。 A偏态系数取决于离差平方的平均数与标准差平方的比值 B偏态系数等于0,说明数据的分布是对称的 C偏态系数大于0,说明数据分布为左偏
D偏态系数绝对值越大,说明数据分布的偏斜程度越小 E偏态系数为0.8,说明数据分布为中度右偏
【答案】ACD【解析】通过本题掌握偏态系数不同取值的含义。 二.标准分数(也称为“Z”分数) 项目 主要内容 适用 在统计上,均值和标准差不同时,来自不同分布的变量值不可比,但是每个数值在变量分布中相对于均值的相对位置是可比的,因此可以通过计算标准分数来比较不同变量的取值。 标准分数给出了数值距离均值的相对位置。 计算 (原始分数Xi-平均分数X)÷标准差s 实际 当数据服从对称的钟形分布时,可以运用经验法则来判断与均值的应用 距离在特定倍数标准差之内的数据项所占比例。 约有68%的数据与平均数的距离在1个标准差之内,标准分数在【-1,1】范围内; 约有95%的数据与平均数的距离在2个标准差之内;标准分数在【-2,2】范围内; 约有99%的数据与平均数的距离在3个标准差之内;标准分数在【-3,3】范围内; 【例题:单选题】某企业对员工进行了两项考核,在考核A中员工的平均得分为70分,标准差为20分;在考核B中员工平均得分为60分,标准差为5分,甲在考核A中得80分,在考核B中得70分,则说明()。 A甲在考核B中的相对排名高于在考核A中的相对排名
B甲在考核A中的相对排名高于在考核B中的相对排名 C两项考核中甲的相对排名一致 D无法判断
【答案】A【解析】由于是两项不同的考核且均值、标准差都不同,所以应使用标准分数来比较。
甲在考核A中的标准分数=(80-70)/20=0.5 甲在考核B中的标准分数=(70-60)/5=2
由于甲在考核B中的标准分数高,说明甲在考核B中的相对排名高于在考核A中的相对排名。
考点四:变量间的相关分析
一.相关关系的类别 分类标准 类别 内含 相关的程完全 一个变量的取值变化完全由另一个变量的取值变化度 相关 所确定。称这两个变量完全相关。 不完全相关 大部分相关现象均属于不完全相关。 不相关 两个变量的取值变化彼此互不影响。 相关的方正相关 一个变量的取值由小变大,另一个变量的取值也相应向 的由小变大。(两个变量同方向变化)。 负相关 一个变量的取值由小变大,另一个变量的取值由大变小(两个变量反方向变化) 相关的形线性相关 pearson相关系数只适用线性相关关系。 式 非线性相关 两个相关变量之间的关系近似于某种曲线方程的关系。 【注】两变量之间的关系可以用散点图来展示 二.相关系数的取值
相关系数是度量两个变量之间相关关系的统计量。最常用的相关系数是pearson(皮尔逊)相关系数。相关系数的取值范围在【-1,1】之间。 r的取值 两变量之间的关系 0 【答案】B【解析】通过本题掌握利用相关系数的取值判断两变量的相关程度。相关系数的绝对值越大,相关程度越高。 第24章 抽样调查 考点一:抽样调查的基本概念 【例题】在研究某城市居民的家庭消费支出时,在全部50万户家庭中随机抽取3000户进行入户调查,这项抽样调查中的样本单位是指该城市中()。 A.抽取出来的3000户家庭B.50万户家庭 C.每一户家庭D.抽取出来的每一户家庭 【答案】D【解析】通过本题掌握抽样调查的基本概念。 概念 含义 本题中 总体 调查对象的全体 50万户家庭 总体单元 组成总体的各个个体 每一户家庭 样本 总体的一部分,由从总体中按一定原则或抽取出来的300程序抽出的部分个体所组成。样本也是一0户家庭 个集合。 样本单位 每个被抽中进入样本的单位称为入样单抽取出来的每一户位。 家庭 样本量 样本中包含的入样单位的个数称为样本3000户 量。 抽样框 供抽样所用的所有抽样单元的名单,是抽全部50万户家庭样总体的具体表现。常见的抽样框有名录消费信息的载体。 框,如企业名录、电话簿、人员名册。 总体参数 即总体指标值,它是未知的常数,是根据50万户家庭的平均总体中所有单位的数值计算的,是通过调消费支出 查想要了解的,不受样本的抽选结果影响。常用的总体参数有总体总量、总体均值、总体比例、总体方差。 样本统计是根据样本中各单位的数值计算的,是对抽取出来的3000户量(估计总体参数的估计,也称估计量。它是一个家庭的平均消费支量) 随机变量,取决于样本设计和正好被选入出。 样本的单元特定组合。常用的样本统计量有样本均值、样本比例、样本方差。 考点二:概率抽样与非概率抽样 抽样 特点 具体方式 方法 概率 1.按一定概率以随机原则抽取样本。 1.简单随机抽样; 抽样 2.总体中每个单元被抽中的概率是已知的或2.分层抽样 者是可以计算出来 3.系统抽样; 3.当采用样本对总体参数进行估计时,要考4.整群抽样