问题驱动的协方差与相关系数的概念构建
发布时间:2024/07/22 阅读数:
问题驱动的协方差与相关系数的概念构建
陶 红1, 徐耀坤2, 侯臣平1
1国防科技大学文理学院 湖南 长沙,410073
2国防科技大学电子科学学院 湖南 长沙,410073
[摘 要]数学概念对于课程知识体系理解具有重要作用。数学概念的教学重在让学生学会“构建新概念”,而不是“学新概念”。本文以概率论与数理统计中协方差与相关系数两个概念为例,遵循“以问题结构推进教学”的原理,通过国内生产总值与军费支出的关系分析这一实际案例提出随机变量关系描述的问题,采用逆向推理得到协方差的定义,在此基础上,进一步深化研究如何描述随机变量关系的强弱以及所研究的关系是何种关系,通过一系列层层递进、步步深入、具有内在逻辑联系的问题结构,逐步构建相关系数的定义与内涵。
[关键词]协方差;相关系数;问题驱动;概念教学
[基金项目] 2020年国家自然科学委青年基金项目,视图动态变化时的多视图学习方法与应用研究 【62006238】; 2020年国家自然科学委青年基金项目,计算时间域鬼成像目标信息获取能力研究 【62001484】
[作者简介]陶 红(1990-),女,湖南浏阳人,博士,国防科技大学文理学院讲师,研究方向为统计机器学习。
[中图分类号] O175.14;G642.0 [文献标识码]A
1、引言
概率论与数理统计是一门研究随机现象的统计规律的学科,研究描述不确定性的数学模型和理论方法,可以应用于科学研究、工程实践、经济管理和人文社科等各个领域,是各大高校理工科专业的数学基础课之一。作为随机数学这一数学分支中学生所接触到的第一门课,概率论与数理统计肩负着引导学生逐渐学会利用随机性思维解决问题的重任。不同于以往的确定性数学课程,学生真正掌握概率统计的概念与思想具有一定难度[1,2]。例如,很多学生难以完全理解条件概率、条件分布、协方差与相关系数等概念及其内涵。
数学概念反映了事物在数量关系、结构关系、空间形式等方面的本质属性。数学概念教学要让学生掌握概念的内涵和外延,理解概念间的逻辑关系。因此,数学概念教学应注重概念的构建过程,通过概念的构建过程,对学生进行思维训练。让学生在体会原理的过程中,不仅学会“新概念”,而且学会利用数学进行科学研究的思维方法。也就是说,数学概念教学不能够满足于让学生接受、记忆、模仿和练习,而是要教会学生自主探究,在自主探究的过程中发展智力、提高科学研究能力[3,4]。
问题驱动教学模式以学生为主体,教师设置一系列问题,引导学生根据问题寻找解决方案,在解决问题的过程中达到教学目标。采用问题驱动的教学模式,有助于帮助学生了解到数学概念的深刻内涵,培养数学思维方式,形成应用数学解决实践问题的能力。本文以协方差与相关系数为例,遵循问题驱动的教学原理,以“实例引入—提出问题—分析问题—解决问题”为主线,通过国内生产总值与军费支出的关系分析的实际案例提出随机变量关系描述的问题,并采用逆向推理得到协方差的定义,在此基础上,进一步深化研究如何描述随机变量关系的强弱以及所研究的关系是何种关系,逐步构建出协方差与相关系数的定义与内涵。
2、教学设计
2.1 提出问题
为了减少抽象感并激发学生的学习热情,在课程开始的时候通过“国内生产总值与军费支出的关系分析”这一实例提出问题:如何从数字特征的角度来描述两个随机变量之间的关系。具体地,我国2000年-2013年期间的国内生产总值(GDP)与军费支出数据如表1所示。GDP与军费支出均为随机变量,不妨分别记为和,则是二维随机变量,的几何意义是平面上的随机点。通过图1(a)所示散点图发现14个样本点散落在一条直线附近,随着GDP逐年增长,军费支出也逐年增长。可见,随机变量与之间存在同向变化趋势。从而结合本章的主题提出问题:如何从数字特征的角度来描述两个随机变量之间的关系?
表1 我国2000年-2013年期间GDP与军费数据 单位:亿元
年 度 |
2000 |
2001 |
2002 |
2003 |
2004 |
2005 |
2006 |
GDP |
99214 |
109655 |
120332 |
135822 |
159878 |
183084 |
210871 |
军 费 |
1207 |
1442 |
1708 |
1908 |
2200 |
2475 |
2979 |
年 度 |
2007 |
2008 |
2009 |
2010 |
2011 |
2012 |
2013 |
GDP |
246619 |
300670 |
335353 |
397983 |
471564 |
519332 |
568845 |
军 费 |
3554 |
4177 |
4806 |
5176 |
5829 |
6506 |
7201 |
图 1 GDP与军费支出散点图
2.2 协方差概念引入
提出问题后,让学生思考如何从数学形式上进行描述。通过分析,问题转变为找到一个依赖于的数字量满足:则表示之间有关系。应如何找到满足上述条件的数字量呢?通常学生难以从正面直接得到解决方案。于是基于逆向思维,引导学生从反面分析。如果存在一个数字量满足:当随机变量之间没有关系时必有,那么利用逆否命题则可以得到:当时,随机变量之间必有关系。由逆否命题的等价性,所要满足的条件转换为“当随机变量之间没有关系时必有”。所谓没有关系即相互独立,因此引导学生回顾已经学习过的数学期望与方差在随机变量相互独立时所具有的性质。当相互独立时,有
,.
如果令,,则与均满足我们所提的要求。应该选择哪一个呢?由于方差本质上是随机变量函数的数学期望,而且计算比数学期望更复杂,因此优先选择。
更进一步,为了使定义更简洁,如何将写成1项?如果写成1项,其形式上必定是的某个函数的数学期望,即需要把变形为的某个函数的数学期望。由于其中涉及到的交叉项的期望以及各自期望的乘积,启示我们变形为,进一步验证确实有
.
此时,询问学生是不是完全得到了协方差的定义。为什么要问这个问题呢?协方差是利用数学期望定义的,而数学期望的存在需要满足绝对收敛的条件,因此协方差存在的前提是。由Cauchy – Schwarz不等式知,当的方差都存在时,成立。
定义1(协方差) 如果随机变量的方差都存在,称为的协方差。
由协方差概念的导出过程,易知当相互独立时,;当时,之间必有关系。另一方面,从定义形式可以看出协方差还可以度量随机点到中心位置的平均偏差。具体而言,对于的一个容量为 的样本,从总体协方差的定义形式可以得到样本协方差为。如图1(b)所示,以为原点建立直角坐标系,则当随机点落入第一、三象限时,;当随机点落入第二、四象限时。因此,当多数随机点落入一、三象限时,样本协方差大于0;反之,协方差小于0。结合图形可以判断,协方差的正负可以从整体上反映的变化趋势是同向还是反向。
2.3 相关系数概念引入
当协方差的值非0时,则随机变量之间存在关系。按照由浅到深的思路,接下来探讨如何描述关系的强弱程度以及是什么关系。向学生提问协方差的大小能否用来度量关系的强弱程度?能够反映关系强弱的数字量应具有哪些特点?为辅助思考,以GDP与军费支出为例,让学生分别计算单位分别为亿元和亿万元时的样本协方差。通过计算学生将发现两种情况下的样本协方差之间相差倍,然而实质上GDP与军费支出之间的关系并不会因金额单位的变化而变化。由此得出结论:协方差不能用于度量关系的强弱程度。事实上,由协方差的定义可验证,对于常数,。显然,协方差是一个受量纲影响的数字量。
于是,能够反映关系强弱的数字量应具有不受量纲影响(条件1)的特点。除此之外,还应具有什么特点?提及强弱实质上是为了比较,因此数字量的取值应该是限定在一定范围内(条件2),而且取值随着关系的强弱单调变化(条件3)。
接下来的问题自然就是如何在协方差的基础上定义一个能够满足上述三个条件的数字量。从数学形式上看,所谓消除量纲的影响就是要找到一种方式来消除常数的影响。通常在这里教师都是直接就给出除以的方案。事实上,如果仅仅只要消除量纲的影响,还有另一种选择是除以。那为什么用前者而不用后者呢?原因是前者相对于后者在两个方面性质更优:一是数学变形后和都是均值为0、方差为1的随机变量,二是利用Cauchy – Schwarz不等式可以将的值限定在之间满足条件2,而不具备上述性质。
定义2(相关系数)如果,称为的相关系数。
易验证,即相关系数确实不受量纲影响。
2.4 相关系数的意义
从构建相关系数定义的过程可知不受量纲影响且取值在之间。但仍没有揭示的大小如何反映何种关系的强弱。为此以常见的二维均匀分布与二维正态分布为例,利用Matlab动画演示当上述两个总体的相关系数从增加到1时样本点散点图的变化趋势,以此来发现的大小与之间关系强弱的对应关系,并探索描述的是之间的何种关系。具体地,所采用的二维均匀分布与二维正态分布的概率密度函数分别为
和
,
相关系数分别为和。可以分别通过控制和的值来调节相关系数的值。通过动画演示让学生发现相关系数描述了随机变量之间线性关系的强弱。进一步,以均方误差为损失函数用随机变量(为待定常数)近似,有如下结论[5]:
.
由此可得到如下结论:①;②越大,则与之间的均方误差越小,即与之间的线性关系越强;反之,则与之间的线性关系越弱。并且,结合图形(图2)可知,当时,与整体上具有同向变化趋势;当时,与整体上具有反向变化趋势;当时,与之间没有线性关系,称为与不相关。
图 2 二维均匀分布和二维正态分布总体相关系数变化时样本点的散点图
3、小结
数学概念在数学课程中的基础,为于课程体系的理解具有非常重要的作用。本文以概率论与数理统计中协方差与相关系数概念为例,遵循“以问题结构推进教学”的原理,围绕随机变量之间关系描述这一主题,提出一系列层层递进、步步深入、具有内在逻辑联系的问题,形成“问题—解决—问题—解决……”的问题导向结构教学过程,建构出协方差与相关系数的概念。在此过程中,引导学生探索、深究,有助于学生形成自主探究的思维模式和提升发现问题、分析问题和解决问题的能力。
[参考文献]
[1] 赵阳.数学概念教学的创造性过程——以相关系数概念的教学为例[J].大学数学,2020,36(06):75-79.
[2]相林.概率论课程中“相关系数”概念的教学探讨[J].河西学院学报,2016, 32(05):116-120.
[3]涂荣豹.数学教学设计原理的构建——教学生学会思考[M].北京,科学出版社,2018年.
[4]李杰,李爽,舒广文.基于PBL模式的统计学课程教学设计——以“中心极限定理”为例[J].高教学刊,2018(05):106-108.
[5]吴翊,汪文浩,杨文强.概率论与数理统计[M].北京,高等教育出版社,2018年.
Problem-Driven Concept Construction for Covariance and Correlation
Tao Hong 1, Xu Yaokun 2, Hou Chenping 1
1 College of Liberal Arts and Sciences, National University of Defense Technology, Changsha, Hunan 410073
2 College of Electronic Science and Technology, National University of Defense Technology, Changsha, Hunan 410073
Abstract: Mathematical concepts play an important role in the understanding of curriculum knowledge system. The teaching of mathematical concepts should focus on making students learn to “construct new concepts” rather than “learn new concepts”. Based on the principle of problem-driven teaching, this paper presents the concept construction process of covariance and correlation. Concretely, via the case of analyzing the relationship between GDP and military spending, the question of describing the relationship between random variables is raised. Then the concept of covariance is obtained by inverse inference. On this basis, the problems of how to describe the relationship strength degree and what the relationship is are further explored. These problems form a progressive and logically connected problem structure, which helps to build the definition and connotation of covariance and correlation.
Key words: Covariance; Correlation; Problem-Driven Teaching; Concept Teaching