2.3 非线性回归分析方法介绍
一、可以化为线性回归的曲线回归方程
在实际问题中,很多回归模型的被解释变量y和解释变量x之间的关系都不是线性关系,其中一些回归模型可以通过对自变量或因变量的函数变换转化为线性关系,利用线性回归求解未知参数,并做出回归分析。如:
对于式(2-18),只需要令x′=ebx,原模型就转化为y=β0+β1x′+ε的线性形式了。
对于式(2-19),需要两边取自然对数:lny=lna+bx+ε,令y′=lny,a′=lna,原模型就转化为y′=a′+bx+ε的线性形式了。
对于式(2-20),需要令x′=ebx,y′=y-ε,原模型就转化为y=β0+β1x′+ε′的线性形式了。
对于式(2-21),需要令x1=x,x2=x2,…,xp=xp,原模型就转化为y=β0+β1x1+β2x2+…+βpxp+ε的线性形式了。
二、不进行回归方程的转化,借助软件直接进行拟合
现在借助计算机软件进行回归,可以很容易进行,有时甚至不需要将模型进行转化。不同的软件会提供常见的非线性模型的回归。
1. 利用SPSS软件回归模块的曲线估计功能进行估计
如SPSS软件针对表2-11给出的11种常见的可线性化曲线,可以直接进行回归。
表2-11 SPSS软件提供可以直接进行回归的非线性函数
例2.4 对国内生产总值GDP的拟合。
选取我国GDP指标为因变量,单位为亿元,拟合GDP关于时间t的趋势曲线。以1991年为基准年,取t=1,2017年t=27,数据见表2-12。
表2-12 我国1991—2017年GDP数据
首先画出散点图,如图2-6所示,观察两个变量之间的关系:
图2-6 我国GDP随时间变化的散点图
由图形2-6可知,我国GDP随时间变化大体呈指数趋势,采用SPSS软件的回归分析模块的曲线估计进行。
选择菜单“分析(Analyze)→回归(Regression)→曲线估计(Curvilinear Regression)”,选择GDP为因变量,时间t为自变量,如图2-7所示,进行曲线估计,并与线性估计进行比较,得到图2-8。
图2-7 GDP随时间变化的拟合曲线的操作
图2-8 我国GDP随时间变化的拟合曲线
由拟合的图2-8可知,采用复合拟合、指数拟合与Logistic(逻辑函数)拟合的是同一条曲线。再根据软件报告表2-17模型汇总和参数估计值可知,线性拟合的R2=0.877<0.987明显低于其他三种方式的拟合值。其他三种方式拟合的R2相等,只是各自的参数值不同。采用复合方式进行拟合的结果为:复合拟合方程为=25935.879×1.143x,指数拟合方程为=25935.879×e0.133x,因为ln1.1432=0.133,故两个方程的拟合结果是一致的。类似的可以验证Logistic拟合方程与复合拟合、指数拟合结果相同。
表2-13 模型汇总和参数估计值
注:自变量为t。
2. 利用SPSS软件回归模块的非线性功能进行估计
利用SPSS软件回归分析功能中的非线性模型,可以通过输入公式的方式进行非线性回归操作。
例2.5 牙膏的销售模型。
某大型牙膏制造企业为了更好地拓展产品市场,有效地管理库存,公司董事会要求销售部门根据市场调查,找出公司生产的牙膏销售量与销售价格、广告投入等之间的关系,从而预测出在不同价格和广告费用下的销售量。为此,销售部的研究人员收集了过去30个销售周期(每个销售周期为4周)公司生产的牙膏的销售量、销售价格、投入的广告费用,以及同期其他厂家生产的同类牙膏的市场平均销售价格,见表2-14。试根据这些数据建立一个数学模型,分析牙膏销售量与其他因素的关系,为制定价格策略和广告投入策略提供数量依据。该案例数据选自参考文献【23】
表2-14 牙膏销售量与销售价格、广告费用等数据
续表
实验分析:
1. 选取价格差代替商品价格和其他商品的均价
由于牙膏是百姓生活的必备品,是刚性需求,因此无论价格高低,大家都必然会选购,在选购的时候,更在意的是和牙膏品牌之间的比较。因此影响品牌销量的不是价格,而是和其他品牌的价格差。因此在进行实验的过程中,采用该品牌的牙膏与其他品牌牙膏的价格差作为自变量x1进行分析。
2. 分析价格差与销量之间的函数关系
通过经济学分析认为价格差与销售量之间应该是线性关系,也就是说,这种影响是比较直接的。做出价格差与销售量之间的散点图与拟合效果图,如图2-9所示,再由表2-15价格差与销售量的模型参数汇总可知,选择二次或者更高次曲线,模型R2的值提高很少,因此也证实了用线性进行拟合即可。
图2-9 价格差和销售量的散点图及曲线拟合
图2-10 广告费和销售量的散点图及曲线拟合
表2-15 模型汇总和参数估计值
注:自变量为价格差。
3. 分析广告费与销量之间的函数关系
广告投入是影响商品销售的重要因素。尤其是在资讯异常发达的时代,广告效应在商品的销售中占据了很重要的地位。如多年前某著名影视演员关于某品牌牙膏的广告语“身体倍儿棒,吃嘛嘛香!”就曾经对大众的消费产生了一定的影响。本案例中选取广告费用为变量x2,牙膏的销售量为因变量y进行回归分析。
在回归之前,通过相关经济学知识进行分析可知,做广告,可以使销售量增加,根据边际产量递减规律广告费投入到一定数量后,销售量达到最优;由于消费者的厌恶,继续增加广告费投入销售量不但不会增加,反而会减少。因此可以假设广告费用与销售量呈二次多项式函数关系,并做出广告费和销售量的散点图,如图2-11所示。此外,通过表2-16还可以看出,利用二次曲线进行拟合R2=0.838,比直线的拟合效果好,且模型以及参数均可以通过检验。
表2-16 模型汇总和参数估计值
注:自变量为广告费用。
4. 分析广告费、价格差交互作用对销量的影响
通过生活经验及分析猜想价格差与广告费用的交互作用会对销量产生影响。因此在模型中用两者的乘积来表示。
由上述4点分析及操作验证,以销售量为因变量y,价格差x1和广告费x2为自变量建立非线性回归模型:
利用SPSS软件,选择菜单“分析(Analyze)→回归(Regression)→非线性(Nonlinear)”,首先进行回归系数的设置,给定初始值,按照模型输入表达式,如图2-11所示。
图2-11 牙膏销售模型非线性回归的参数设置
运行软件得到迭代历史记录表2-17,参数估计值表2-18和方差分析表2-19的结果如下:
表2-17 迭代历史记录b
注:导数是通过数字计算的。
a. 主迭代数在小数左侧显示,次迭代数在小数右侧显示。
b. 由于连续残差平方和之间的相对减少量最多为SSCON=1.00E-008,因此在4模型评估和2导数评估之后,系统停止运行。
由表2-17可知,迭代运行到第二次残差和估计的各参数均稳定收敛。
由表2-18可知,回归的方程为
表2-18 参数估计值
各回归参数95%的置信区间均不包含0点,即参数的符号是确定的,含义明确。
由表2-19可知R2=0.921,比较满意。F值远大于临界值,模型可用。
表2-19 ANOVAa
注:因变量:y
a.R2=1-(残差平方和)/(已更正的平方和)=.921。