线性回归模型与最小二乘法-安徽艾约塔硅油

您的位置：网站首页 行业动态 线性回归模型与最小二乘法

线性回归模型与最小二乘法

阅读量：3757316 2019-10-24

线性回归1、基本概念线性回归假设因变量与自变量之间存在线性关系，因变量可通过自变量线性叠加而得到，即因变量和自变量之间可用如下方式表示。

式中

为自变量，

为权重系数，

为偏置。
线性回归就是要解决如何利用样本求取

拟合出上述表达式，获得最佳直线的问题。最常用的就是最小二乘法。
最小二乘法：最佳拟合线下，将已知样本的自变量代入拟合直线，得到的观测值与实际值之间的误差平方和最小。
2、一元线性回归为了好理解，先从简单的情况开始，即一元线性回归。
2.1、利用方程组来解系数假设因变量和自变量可用如下函数表示：

对于任意样本点

有误差

误差平方和

那什么样的a和b会使得误差平方和最小呢？
上面是求最值的问题，我们会想到导数和偏导数，这里在偏导数等于0的地方能取到极值，并且也是最值。
分别对a和b求偏导得到如下表达式：

通过对二元一次方程组

进行求解，可以得到如下解：

上面的数学过程用代码表示如下：
import numpy as np
import matplotlib.pyplot as plt
def calcAB(x,y):
n = len(x)
sumX, sumY, sumXY, sumXX = 0, 0, 0, 0
for i in range(0, n):
sumX += x[i]
sumY += y[i]
sumXX += x[i] * x[i]
sumXY += x[i] * y[i]
a = (n * sumXY - sumX * sumY) / (n * sumXX - sumX * sumX)
b = (sumXX * sumY - sumX * sumXY) / (n * sumXX - sumX * sumX)
return a, b
xi = [1,2,3,4,5,6,7,8,9,10]
yi = [10,11.5,12,13,14.5,15.5,16.8,17.3,18,18.7]
a,b=calcAB(xi,yi)
print("y = %10.5fx + %10.5f" %(a,b))
x = np.linspace(0,10)
y = a * x + b
plt.plot(x,y)
plt.scatter(xi,yi)
plt.show()
python数据散点和拟合的直线如下：

2.2、利用矩阵的方法来求解系数函数

也可以表示成如下的形式

式中

对于n个样本，此时损失函数（即误差平方和）为：

假如我们将样本表示成如下形式：

则

进一步，可以将损失函数表示如下形式：

L对W求导，可得到

令导数为0,则有

从而

进而可以求得

上面的数学过程用代码表示如下：
x = [1,2,3,4,5,6,7,8,9,10]
y = [10,11.5,12,13,14.5,15.5,16.8,17.3,18,18.7]
X = np.vstack([np.ones(len(x)),x]).T
Y = np.array(y).T
W=np.dot(np.matrix(np.dot(X.T,X))**-1,np.dot(X.T,Y))
yi=np.dot(X,W.T)#这里公式里是不需要转置的，但由于矩阵运算时W自动保存成一行多列的矩阵，所以多转置一下，配合原公式的计算。
print(X)
print(Y)
print(W)
print(yi)#拟合出的预测点
plt.plot(x,y,'o',label='data',markersize=10)
plt.plot(x,yi,'r',label='line')
plt.show()
结果如下：
X=
[[ 1. 1.]
[ 1. 2.]
[ 1. 3.]
[ 1. 4.]
[ 1. 5.]
[ 1. 6.]
[ 1. 7.]
[ 1. 8.]
[ 1. 9.]
[ 1. 10.]]
Y=
[ 10. 11.5 12. 13. 14.5 15.5 16.8 17.3 18. 18.7]
W=
[[ 9.30666667 0.98606061]]
yi=
[[ 10.29272727]
[ 11.27878788]
[ 12.26484848]
[ 13.25090909]
[ 14.2369697 ]
[ 15.2230303 ]
[ 16.20909091]
[ 17.19515152]
[ 18.18121212]
[ 19.16727273]]