admin 管理员组

文章数量: 1087649


2023年12月21日发(作者:switchlite和普通版的区别)

第1章 统计学研究什么?

主要术语

1.

2.

3.

4.

5.

6.

7.

8.

9.

10.

11.

12.

13.

14.

统计学(statistics):收集、处理、分析、解释数据并从数据中得出结论的科学。

描述统计(descriptive statistics):研究数据收集、处理和描述的统计学方法。

推断统计(inferential statistics):研究如何利用样本数据来推断总体特征的统计学方法。

变量(variable):每次观察都会得到不同结果的某种特征。

分类变量(categorical variable):又称无序分类变量,观测结果表现为某种类别的变量。

顺序变量(rank variable):又称有序分类变量,观测结果表现为某种有序类别的变量。

数值变量(metric variable):又称定量变量,观测结果表现为数字的变量。

分类数据(categorical data):只能归于某一类别的非数字型数据。

顺序数据(rank data):只能归于某一有序类别的非数字型数据。

数值型数据(metric data):按数字尺度测量的数据。

总体(population):包含所研究的全部个体(数据)的集合。

样本(sample):从总体中抽取的一部分元素的集合。

样本量(sample size):构成样本的元素的数目。

简单随机抽样(simple random sampling):从含有N个元素的总体中,抽取n个元素组成一个样本,使得总体中的每一个元素都有相同的机会(概率)被抽中。

15. 分层抽样(stratified sampling):也称分类抽样,在抽样之前先将总体的元素划分为若干层(类),然后从各个层中抽取一定数量的元素组成一个样本。

16. 系统抽样(systematic sampling):也称等距抽样,先将总体各元素按某种顺序排列,并按某种规则确定一个随机起点,然后每隔一定的间隔抽取一个元素,直至抽取n个元素组成一个样本。

17. 整群抽样(cluster sampling):先将总体划分成若干群,然后以群作为抽样单元从中抽取部分群组成一个样本,再对抽中的每个群中包含的所有元素进行观察。

第2章 用图表看数据

主要术语

18.

19.

20.

21.

频数(frequency):落在某一特定类别的数据个数。

频数分布(frequency distribution):各个类别及其相应的频数形成的分布。

比例(proportion):一个样本(或总体)中类别的频数占全部频数的比值。

比率(ratio):一个样本(或总体)中各不同类别频数之间的比值。

第3章 用统计量描述数据

主要术语

22. 平均数(mean):又称均值,是全部数据的算术平均值。

23. 中位数(median):一组数据排序后处于中间位置上的数值,用Me表示。

24. 四分位数(quartile):一组数据排序后处在25%和75%位置上的数值。

25. 众数(mode):一组数据中出现频数最多的数值,用Mo表示。

26.

27.

28.

29.

30.

极差(range):也称全距,一组数据的最大值与最小值之差。

四分位差(quartile deviation):75%位置上的四分位数与25%位置上的四分位数之差。

方差(variance):各数据与其平均数离差平方的平均数。

标准差(standard deviation):方差的平方根。

标准分数(standard score):也称标准化值或z分数,某个数据与其平均数的离差除以标准差后的值。

31. 离散系数(coefficient of variation):一组数据的标准差与其平均数之比。

第4章 用概率分布描述随机变量

主要术语

32. 概率(probability):对事件发生的可能性大小的度量值。

33. 随机变量(random variable):事先不能确定其取值的变量。

34. 离散型随机变量(discrete random variable):只能取有限个值的随机变量。

35. 连续型随机变量(continuous random variable):可以取一个或多个区间中任何值的随机变量。

36. 期望值(expected value):随机变量的平均取值。

37. 随机变量的方差(variance):随机变量的每一取值与期望值的离差平方的期望值。

38. 参数(parameter):对总体特征的某个概括性度量。

39. 统计量(statistic):对样本特征的某个概括性度量,是样本的函数。

40. 抽样分布(sampling distribution):样本统计量的概率分布,是由样本统计量的所有可能取值形成的相对频数分布。

41. 标准误差(standard error):样本统计量分布的标准差,用于衡量样本统计量的离散程度。

第5章 用样本推断总体

主要术语

ˆ表示。

 估计量(estimator):用来估计总体参数的统计量的名称,用 估计值(estimated value):估计总体参数时计算出来的估计量的具体数值。

ˆ的取值直接作为总体参数的估计值。

 点估计(point estimate):用样本估计量 区间估计(interval estimate):在点估计的基础上,给出总体参数估计的一个估计区间,该区间通常由样本统计量加减估计误差组成。

 置信区间(confidence interval):由样本统计量构造出的总体参数在一定置信水平下的估计区间。

 置信水平(confidence level):也称为置信度或置信系数(confidence coefficient),在重复构造的总体参数的多个置信区间中包含总体参数真值的次数所占的比例。

 无偏性(unbiasedness):估计量抽样分布的期望值等于被估计的总体参数。

 有效性(efficiency):对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。

 一致性(consistency):随着样本量的增大,估计量的值越来越接近总体参数。

 独立样本(independent sample):一个样本中的元素与另一个样本中的元素相互独立。

 配对样本(paired sample):一个样本中的数据与另一个样本中的数据相对应。

 假设(hypothesis):对总体参数的具体数值所作的陈述。

 假设检验(hypothesis test):利用样本提供的信息判断假设是否成立的统计方法。

 原假设(null hypothesis):又称零假设,研究者想收集证据予以推翻的假设,用H0表示,它所表达的是参数没有变化或变量之间没有关系。

 备择假设(alternative hypothesis):研究者想收集证据予以支持的假设,用H1或Ha表示,它所表达的是总体参数发生了变化或变量之间存在某种关系。

 第Ι类错误(type Ⅰ error):原假设正确时拒绝原假设所犯的错误,犯第Ι类错误的概率记为。

 第Ⅱ类错误(type Ⅱ error):原假设错误时没有拒绝原假设所犯的错误,犯第Ⅱ类错误的概率记为。

显著性水平(level of significance):犯第Ι类错误的概率,记为。

拒绝域(rejection region):由显著性水平和相应的临界值围成的拒绝原假设的区域。

检验统计量(test statistic):根据样本观测结果计算的对原假设做出决策的某个统计量。

P值(P-value):犯第Ⅰ类错误的真实概率,也称为观察到的显著性水平(observed

significance level)。它是指原假设H0是正确的,所得到的样本结果会像实际观测结果那么极端或更极端的概率。

第6章 分类变量的推断

主要术语

42.

拟合优度检验(goodness of fit test):利用统计量来判断某个分类变量各类别的观察频数与某一理论频数或期望频数是否一致的检验方法。

43. 列联表(contingency table):由两个或两个以上分类变量交叉分类的频数分布表。

44.

独立性检验(test of independence:利用统计量来判断两个分类变量是否独立的检验方法。

45.

2222系数( coefficient):测度两个分类变量之间相关程度的统计量,主要用于22列联表。

46. Cramer’s V系数(Cramer’s V coefficient):测度两个分类变量之间相关程度的统计量,可用于rc的列联表。

47. 列联系数(contingency coefficient):测度两个分类变量之间相关程度的统计量,主要用于大于的22列联表。

第7章 分类变量对数值变量的影响

主要术语

48. 方差分析(analysis of variance):缩写为ANOVA,分析分类自变量对数值因变量影响的一种统计方法。

49. 单因素方差分析(one-way analysis of variance):研究一个分类自变量对数值因变量影响的方差分析。

50. 双因素方差分析(two-way analysis of variance):研究两个分类自变量对数值因变量影响的方差分析。它分为只考虑主效应的双因素方差分析和考虑交互效应的双因素方差分析。

51. 因素(factor):检验的对象,分类自变量的另一种称谓。

52. 处理(treatment):也称水平,因素的不同取值。

53. 处理误差(treatment error):因素的不同处理造成的观测数据的误差。

54. 随机误差(random error):简称为误差(error),由于随机因素造成的观测数据的误差。

55. 总平方和(sum of squares for total):反映全部观测数据误差大小的平方和,记为SST。

56. 处理平方和(treatment sum of squares):反映处理误差大小的平方和,记为SSA。

57. 误差平方和(sum of squares of error):反映随机误差大小的平方和,记为SSE。

58. 均方(mean square):也称方差(variance),平方和除以相应的自由度的结果,记为MS。

59. 主效应(main effect):因素对因变量的单独影响。

60. 交互效应(interaction):一个因素和另一个因素联合产生的对因变量的附加效应。

第8章 用变量间的关系进行预测

主要术语

61. 相关关系(correlation):两个变量之间存在的一种不确定的数量关系,一个变量的取值不能由另一个变量唯一确定。

62. 相关系数(correlation coefficient):也称为Pearson相关系数(Pearson’ s correlation

coefficient),度量两个变量之间线性关系强度的统计量,记为r。

63. 因变量(dependent variable):被预测或被解释的变量,用y表示。

64. 自变量(independent variable):用来预测因变量的一个或多个变量,用x表示。

65. 回归模型(regression model):描述因变量y如何依赖于自变量x和误差项的方程。一元线性回归模型表示为y01x。

66. 估计的回归方程(estimated regression equation):根据样本数据求出的回归方程的估计。ˆˆx。

ˆ一元线性回归的估计方程为y0167. 判定系数(coefficient of determination):也称决定系数,回归平方和占总平方和的比例,用R表示,是对回归方程拟合优度的度量。

68. 估计标准误差(standard error of estimate):残差均方(MSE)的平方根,用se表示,它是误差项的标准差的估计。

69. 平均值的置信区间(confidence interval):对于自变量的一个给定值x0,求出的因变量2y的平均值的估计区间。

70. 个别值的预测区间(prediction interval):对于自变量的一个给定值x0,求出的因变量y的一个个别值的估计区间。

ˆi之差,用71. 残差(residual):因变量的观测值yi与根据估计的回归方程求出的预测值ye表示。

72. 标准化残差(standardized residual):残差除以它的标准差后的结果。

73. 多元线性回归模型(multiple linear regression model):描述因变量y如何依赖于自变量x1,x2,,xk和误差项的方程。一般形式为:y01x12x2kxk。

74. 估计的多元线性回归方程(estimated multiple linear regression equation):根据样本数据求ˆˆxˆxˆx。

ˆ出的多元回归方程的估计。一般形式为:y01122kk

75. 多重判定系数(multiple coefficient of determination):多元线性回归中回归平方和占总平方和的比例,反映因变量y取值的变差中能被估计的多元回归方程所解释的比例。

76. 调整的多重判定系数(adjusted multiple coefficient of determination):用样本量n和自变量的个数k进行调整的判定系数,记为Ra。

77. 多重共线性(multicollinearity):回归模型中两个或两个以上的自变量彼此相关。

2第9章 用过去的模式预测未来

主要术语

78. 时间序列(times series):按时间顺序记录的一组数据。

79. 趋势(trend):时间序列在一段较长时期内呈现出来的持续向上或持续向下的变动。

80. 季节变动(seasonal fluctuation):时间序列呈现出的以年为周期长度的固定变动模式,这种模式年复一年重复出现。

81. 循环波动(cyclical fluctuation):时间序列呈现出的非固定长度的周期性变动。

82. 不规则波动(irregular variations):时间序列中除去趋势、季节变动和周期波动之后的随机波动。

83. 平稳序列(stationary series):只含有随机波动的序列。

第10章 不依赖于分布的检验

主要术语

84. 非参数检验(nonparametric test):不依赖于总体的分布的统计检验方法。

85. 秩(rank):一组数据按照从小到大顺序排列后,每一个观测值所在的位置。

86. Wilcoxon符号秩检验(Wilcoxon Signed Ranks Test):检验两个配对总体是否相同的一种非参数检验方法。

87. Mann-Whitney检验(Mann-Whitney test):也称为Wilcoxon秩和检验,它是用于检验两个独立总体是否相同的一种非参数检验方法。

88. Kruskal-Wallis检验(Kruskal-Wallis test):检验多个独立总体是否相同的一种非参数检验方法。

89. Spearman 秩相关系数(Spearman's coefficient of rank correlation):也称等级相关系数,度量两个顺序变量之间相关程度的一个统计量,记为rs。

90. Kendall秩相关系数(Kendall's coefficient of rank correlation):度量两个顺序变量之间相关程度的一个统计量,记为。


本文标签: 变量 数据 总体 样本 统计