Python 线性回归

线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w’x+e,e为误差服从均值为0的正态分布。 [1]
回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

书目:《线性回归分析基础》
链接: https://pan.baidu.com/s/15UXfS3IiEL30FRNWFkj91w 提取码: kaxq
更多:线性回归

1 线性回归模型简介

线性回归,就是能够用一个直线较为精确地描述数据之间的关系。这样当出现新的数据的时候,就能够预测出一个简单的值。线性回归中最常见的就是房价的问题。一直存在很多房屋面积和房价的数据,如下图所示:

在这种情况下,就可以利用线性回归构造出一条直线来近似地描述放假与房屋面积之间的关系,从而就可以根据房屋面积推测出房价。

2 线性回归的函数模型

通过线性回归构造出来的函数一般称之为了线性回归模型。线性回归模型的函数一般写作为:

3 线性回归模型的代价函数

通过线性回归算法,我们可能会得到很多的线性回归模型,但是不同的模型对于数据的拟合或者是描述能力是不一样的。我们的目的最终是需要找到一个能够最精确地描述数据之间关系的线性回归模型。这是就需要用到代价函数。代价函数就是用来描述线性回归模型与正式数据之前的差异。如果完全没有差异,则说明此线性回归模型完全描述数据之前的关系。如果需要找到最佳拟合的线性回归模型,就需要使得对应的代价函数最小,相关的公式描述如下:

Hypothesis,表示的就是线性回归模型Cost Function,代价函数Goal,就是要求对应的代价函数最小4 线性回归模型求解

假设在线性回归模型中仅仅只存在一个函数,就是斜率参数。即theta-0是0。如果存在如下的数据:

图中对应的3个点分别为(1,1),(2,2),(3,3)那么很明显,最佳线性回归模型就是h(x)=x。如果通过实验证明呢?我们画出在theta-1处于不同值的代价函数。

5 线性回归模型的特点:

建模速度快,不需要很复杂的计算,在数据量大的情况下依然运行速度很快。可以根据系数给出每个变量的理解和解释。对异常值很敏感。

python 线性回归示例

用python进行线性回归分析非常方便,有现成的库可以使用比如:numpy.linalog.lstsqscipy.stats.linregresspandas.ols等。

不过本文使用sklearn库的linear_model.LinearRegression支持任意维度,非常好用。

一、二维直线的例子

预备知识:线性方程y = a ∗ x + b表示平面一直线

下面的例子中,我们根据房屋面积、房屋价格的历史数据,建立线性回归模型。

然后,根据给出的房屋面积,来预测房屋价格。这里是数据来源

import pandas as pd
from io import StringIO

from sklearn import linear_model

import matplotlib.pyplot as plt



# 房屋面积与价格历史数据(csv文件)
csv_data = 'square_feet,price\n150,6450\n200,7450\n250,8450\n300,9450\n350,11450\n400,15450\n600,18450\n'

# 读入dataframe
df = pd.read_csv(StringIO(csv_data))
print(df)


# 建立线性回归模型
regr = linear_model.LinearRegression()

# 拟合
regr.fit(df['square_feet'].reshape(-1, 1), df['price']) # 注意此处.reshape(-1, 1),因为X是一维的!

# 不难得到直线的斜率、截距
a, b = regr.coef_, regr.intercept_

# 给出待预测面积
area = 238.5

# 方式1:根据直线方程计算的价格
print(a * area + b)

# 方式2:根据predict方法预测的价格
print(regr.predict(area))

# 画图
# 1.真实的点
plt.scatter(df['square_feet'], df['price'], color='blue')

# 2.拟合的直线
plt.plot(df['square_feet'], regr.predict(df['square_feet'].reshape(-1,1)), color='red', linewidth=4)

plt.show()

效果图

二、三维平面的例子

预备知识:线性方程z=a∗x+b∗y+c 表示空间一平面

由于找不到真实数据,只好自己虚拟一组数据。

import numpy as np

from sklearn import linear_model

from mpl_toolkits.mplot3d import Axes3D
import matplotlib.pyplot as plt


xx, yy = np.meshgrid(np.linspace(0,10,10), np.linspace(0,100,10))
zz = 1.0 * xx + 3.5 * yy + np.random.randint(0,100,(10,10))

# 构建成特征、值的形式
X, Z = np.column_stack((xx.flatten(),yy.flatten())), zz.flatten()

# 建立线性回归模型
regr = linear_model.LinearRegression()

# 拟合
regr.fit(X, Z)


# 不难得到平面的系数、截距
a, b = regr.coef_, regr.intercept_

# 给出待预测的一个特征
x = np.array([[5.8, 78.3]])

# 方式1:根据线性方程计算待预测的特征x对应的值z(注意:np.sum)
print(np.sum(a * x) + b)

# 方式2:根据predict方法预测的值z
print(regr.predict(x))


# 画图
fig = plt.figure()
ax = fig.gca(projection='3d')

# 1.画出真实的点
ax.scatter(xx, yy, zz)

# 2.画出拟合的平面
ax.plot_wireframe(xx, yy, regr.predict(X).reshape(10,10))
ax.plot_surface(xx, yy, regr.predict(X).reshape(10,10), alpha=0.3)


plt.show()

发表评论

电子邮件地址不会被公开。 必填项已用*标注