机器学习之理论篇—线性模型
线性模型是机器学习中的最基本模型,其形式简单、易于建模。线性回归模型虽然简单,但却非常的实用,许多非线性模型也都是建立在线性模型的基础之上的。
线性模型定义为由n个属性x=(x1,x2…xn),其中xi为x在第i个属性上的取值,线性模型通过这些属性的线性组合来建立预测函数:
f(x)=β0+β1X1+β2X2+…βnXn
写成向量形式为:f(x)=βX
因为估计我们想让f(x)尽可能的接近其真实值yi,所以求β向量的过程也就是求∑(f(xi)-yi)^2的最小值的过程,也就是最小二乘法。
在R中实现线性回归的函数有:
(1)model1<-lm(fromula, data, subset, weights, na.action,method="qr", model=TRUE, x=FALSE, y=FALSE, qr=TRUE,...)
说明: formula 是显示回归模型, data 是数据框, subset 是样本观察的子集, weights 是用于拟合的加权向量,na.action 显示数据是否包含缺失值,method 是指出用于拟合的方法, model, x,y, qr 是逻辑表达式,如果是TRUE,应返回其值, 除了第一个选项formula 是必选项,其他都是可选项。
(2)summary(model1)可以返回拟合的结果。
(3)step(model1)输出逐步回归结果/addl()/dropl()
(4)anova(model1)计算方差分析表
(5)coefficients(model1)取模型系数
(6)deviance(model1)计算残差平方和
(7)formula(model1)提取模型公式
(8)plot(model1)绘制模型诊断图
(9)predict(model1,newdata=data.frame)预测
(10)print(model1)显示模型拟合的结果,一般只输入对象名输出结果
(11)residuals(model1)计算残差
(12)updata(old-model,new-formula)在new-formula中,其相应的名字由“.”组成,例如fm1<-lm(y~x1+x2+x3+x4+x5,data=X);fm2<-updata(fm1,.~.+x6); fm3<-updata(fm2,sqrt(.)~.)
(13)rstandard()标准化残差
画标准化残差图:y.rst<- rstandard(model1); y.fit<-predict(model1);plot(y.rst~y.fit)
(14)diffits(model1)DIFFITS准则
(15)cooks.distance ( model1, infl=lm.influence (model1, do.coef=F), res =weighted. Residuals ( model1) ) cook统计量越大,越可能存在异常值
(16)kappa(model1)判断多重共线性
(17)eigen(X)计算相关矩阵的特征值和特征向量
(18)model2<-glm()广义线性回归