1、如何用机器学习挑选座驾?
文/Jongerden & Fu
买辆新车永远是令人兴奋的事情,尤其当这辆车还是你的第一辆车的时候。有研究显示,年轻人在挑选座驾时会更倾向选择父母曾拥有的品牌。这种趋势可能是出于品牌忠诚度,也或许是由于他们在这个品牌身上拥有美好回忆。但是,也可能仅仅是因为他们并不懂得如何在不同品牌之间做选择,于是只好选择自己熟悉的品牌。而且,哪怕是那些喜欢尝鲜,希望选购不同品牌车型的人,也会觉得现有购车网站并没太大帮助,因为它们往往会让你在搜索前就先选定品牌或型号。数据侠Steven Jongerden和Huanghaotian Fu为了弥补这一空缺,让人们能在做决定时掌握更多信息,用机器学习和数据分析打造了一个购车推荐平台。
爬数据,寻找相关性
为了更好地帮助人们选择自己的理想座驾,我们需要能够将个人需求与品牌及型号信息进行匹配的数据。
(图片说明:项目设计流程)
由于这种数据并不是公开可以获取的,只能从现有的汽车销售网站上提取。而这些网站上的数据,也代表着当今市场上正在交易的汽车的信息。我们使用Python的Beautifulsoup对一个非常流行的汽车网站进行爬取,获得了12000辆车、覆盖20种品牌和37个特征维度的数据集。我们之后搭建的推荐系统,推荐的车型也将来自上述范围。
我们首先用R语言、使用K近邻算法(K Nearest Neighbor)对缺失数据进行处理和补充。缺失最多的是油耗信息(8.6%缺失)和加速数据(6.9%缺失)。我们基于车价、汽车品牌和汽车类型,使用欧式几何距离法(Euclidean Distance)以及等于根号n的K值,通过K近邻算法进行了补充,并最终得到一个完整的数据集。由于K近邻算法是无监督机器学习算法,我们没法量化它的表现和准确度,尤其是在一个多维的解空间里(Multidimensional Solution Space)。
(图片说明:各变量的交叉相关性分析)
初步的数据分析显示出很有意思的相互关系。比如,车价和引擎型号有很强关联,高价位的汽车往往有更大的引擎。另外,数据显示,更贵的车往往更耗油。总的来看,不同维度的变量之间有很强的相关性,这让我们可以用各种机器学习算法来进行分析。
调试机器学习的算法模型
为了预测那些对潜在购车者来说很重要的特征,同时让我们的推荐平台能独立于外部数据源,我们使用机器学习算法对一些特定的特征进行了预测。
由于数据是通过特定方式收集(比如,设计相似的汽车会被放置在数据组的同一个类别下,因为在爬取时它们的数据收集是按照品牌顺序进行的),数据集中存在序列相关(Serial Correlation)现象。为了消除序列相关,我们在使用机器学习算法分析数据前,对数据组的次序进行随机排列。另外,为了验证效果,我们将数据组按照4比1的比例分成一个训练集和一个测试集。
首先,我们使用与车价高度相关的特征,搭建了一个多元线性回归模型。得出的R调整平方值(使用测试集计算得出)为0.899。在对预估模型进行Breusch-Godfrey测试后,观测到数据集是按照汽车产商和型号排列,检测到了序列相关性关系。为了解决这个问题,我们使用了开头提到的方法进行处理。另外,残差还发现存在异方差性,意味着残差中,对于不同车价来说,方差并不均等。尽管这不符合Gauss Markov假设中的一个最优线性无偏估计,但检查模型的残差图(Resial Plot)并未发现异方差性很高的残差,因此这个模型可以成立。
其次,我们使用了多元线性回归模型及前向逐步选择法(Forward Stepwise Selection)。这个算法将每个可能的模型与一个包含所有特征的模型进行比较,并选出贝叶斯信息量(Bayesian Information Criterion)最低的最佳组合。得出的R调整平方值(使用测试数据集计算得出)为0.914。
为了进一步提高线性模型的表现,我们使用一个预先设定的来代表车价,并对这个变量执行Box-Cox变换。Box-Cox变换是一种常见的数据变换,用于连续的响应变量不满足正态分布的情况,变换之后,可以一定程度上减小不可观测的误差和预测变量的相关性。经过Box-Cox变换,我们的数据更接近正态分布。这个模型得出的R调整平方值为0.9,与第一个手动调整的多元线性回归模型相比,并没有太多提升。
接下来,我们使用收缩方式,或称为正则化(Shrinkage/Regularization Method)来提高前面模型得到的数据。传统的收缩方式(Lasso回归和岭回归)在处理包含与因变量有强相关性的多元变量的数据集时,存在缺陷。假如使用Lasso回归,大多数系数会被减至0,但其实他们可能对结果有很强的解释力。而Elastic Net模型可以通过引入一个额外的超参数来平衡Lasso回归和岭回归,进而克服上面提到的问题。
此外,第二个引入的超参数则用于确定模型的均方差和复杂性之间的平衡。为了确定最佳的超参数,进而将均方差减小到最小,同时保证模型是最简单的,我使用了10折交叉验证。得出的R调整平方值为0.9218。
最后,为了进一步提升预测准确度,我使用了提升树模型(Gradient Tree Boosting Model)。它由7000个决策树组成,根据超参数的交叉验证所得的平均数,决策树的深度(Interaction Depth)等于4,收缩率(Shrinkage Factor)等于0.1。而它的R调整平方值十分惊艳,为0.9569,也就是说,我们测试的所有模型中,提升树模型拥有最强的预测能力。
不过即便提升树模型预测能力最强,人们依然更喜欢简单的模型。而鉴于简单的多元线性回归模型表现良好,简单的线性回归模型将会用于我们的推荐平台。
基于协同过滤的汽车系统
能够预测汽车价格和其他有趣的特征,可以在推荐汽车时为用户提供更多的信息。
我们的推荐基于一个基本假设:拥有相同偏好的用户做出的打分是相似的。这也意味着,如果一个人喜欢一辆特定的汽车的所有特征,那么他就在整体上喜欢这辆车。
为了找到符合某一名用户需求的车,首先需要找到与他拥有同样需求的其他用户,并将这些用户选择的对应的车型进行合并。在对这名用户与其他用户比较时,使用了K近邻算法,距离由皮尔逊相关系数或余弦相似性来确定。当这些相似用户被确定,他们对汽车的打分会被整合,并基于此为新用户做出推荐。这个过程被称为基于用户的协同过滤(User Based Collaborative Filtering)。
基于用户的协同过滤是一种半监督的机器学习技术,使用训练数据集的评分矩阵中的特定项来确定测试评分矩阵中的不确定的项。因此,我们可以评断推荐的准确度。我们使用一个7个值已确定的10折交叉验证,通过观察它的ROC和PR曲线(Precision/Recall Graphs)的平均值来评估推荐的表现情况。
ROC曲线显示了True Positive (真正,对应y轴)和False Positive (假正,对应x轴)的关系。ROC的结果显示,多数推荐是正确的,仅有一小部分的False Positives(也就是假的预测)。ROC曲线向左上角靠近,说明这个模型的预测比较准确。
(图片说明:ROC曲线)
而PR曲线则显示了准确率(搜索结果到底有多大帮助)以及召回率(结果有多完整)之间的关系。从图中可以看出,对于一小部分推荐,准确度很高;然而,随着召回率提高,准确率趋向于0。
我们可以得出结论,这个模型在靠近图形右上角(代表着完美的模型)的时候表现良好。另外,将召回率限制在最多10个推荐的时候,准确率的降低会得到遏制。
(图片说明:PR曲线)
基于这个模型以及用户对车的具体需求,我们的推荐平台给用户推荐了10个汽车品牌以及相应的型号。
通过将推荐模型和机器学习模型结合,我们搭建了一个交互界面,当用户输入信息,比如他期待的汽车引擎马力、汽车类型等,系统就可以做出推荐。这些用户输入信息可以通过下拉菜单以及勾选等方式手动控制。此外,你还可以用一句话描述你的理想座驾,而推荐模型则会基于此为你推荐10辆你可能喜欢的汽车,它们的车价、排气量、油耗以及图片等信息也会展示出来,供用户进行简单比较。
当用户勾选“喜欢”,界面会重新将用户带到可以进行购买的网页。另外,用于推荐的信息以及用户喜欢的车的信息将在app外部存储。
(图片说明:推荐系统的可视化界面截图)
总之,这个推荐应用使用了基于用户的协同过滤以及回归技术,以实现准确度地基于一些特定的汽车特征来为用户推荐汽车品牌和型号的功能。性能验证显示,推荐算法和回归模型都表现良好,成功组成了一个可靠的推荐平台。
注:本文翻译自《Recommending your car brand》。内容仅为作者观点,不代表DT财经立场。
题图视觉中国
关于DTNYCDSA
DTNYCDSA是DT财经与纽约数据科学学院合作专栏。纽约数据科学学院(NYC Data Science Academy)是由一批活跃在全球的数据科学、大数据专家和SupStat Inc.的成员共同组建的教育集团。
数据侠门派
数据侠Steven Jongerden毕业于代尔夫特理工大学,获得航空航天工程专业本科学位,政策分析和工程学硕士学位。他现在是荷兰凯捷管理顾问公司的一名数据科学咨询师。Steven在纽约数据科学学院进修,提升了自己机器学习和大数据分析的技能。
数据侠Huanghaotian Fu毕业于纽约大学,拥有数学和经济学硕士。目前在美国斯蒂文斯理工攻读金融分析硕士。他于2017年暑期完成纽约数据学院的培训。
加入数据侠
“数据侠计划”是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。了解数据侠计划详情请回复“数据侠计划”,投稿、合作请联系。
2、最小二乘法在汽车行业的应用
预测汽车销售量走势。最小二乘法的基本原理,并利用最小二乘法建立线性回归预测模型,选择合适的拟合曲线,对汽车销售量走势进行预测。
3、数据分析进阶必看干货!销售额下滑详细分析案例
公司发现汽车销售额自一年前开始逐渐减少,想让你帮忙找找汽车销量下滑的原因,最好能提出一些解决方案。
最近感冒了去了医院,和医生发生了下列对话:
医生:"感冒了多久了?"
我:"一个星期左右, 一直流鼻涕,嗓子疼"
医生观察了一下说:"这是风寒感冒哈。"
我:"什么原因风寒感冒呢?"
医生:"最近降温了,可能着凉了"
我:"那如何应对呢?"
医生:"我给你开点感冒药,注意多穿点衣服"
首先要将问题定义清楚,这是数据分析的第一步。
需要注意的两点:如果问题定义错了,后面的分析毫无意义。比如:老板告诉你:“可能是客单价高,最近利润下降了”,听到这番话,你将问题定位为“高客单价导致利润下滑了,怎么办”,这样错误的定义会缩小你的分析范围,导致最终结果出现偏差;另外一种情况,分析者根据自己过往的经验来定位问题,把思考限定在:“我觉得”,数据分析不是主观的臆断,而是一种客观的分析。
不要急于分析,首先要和相关人员确认"下滑",并有数据佐证。要保证数据本身是准确的,才能进行后面的步骤。在本案例中,可与相关人员沟通,了解清楚"销售额下滑"具体表现为哪些现象。
例如:通过分析业务数据,发现汽车销售额在这两年确实下降了15%左右。
目前要解决的问题是:销售额逐渐下降的原因是什么,怎么解决?
对于业务指标,首先要确定分析指标的含义。
在这个案例中,是用"销售额"这个关键指标,销售额这个指标是怎么定义的?
通过和业务部门沟通,明确了指标的定义:
销售额=销售量 * 平均单价
销售量=首次购买量 + 再次购买量
再次购买量=客户忠诚度 * 再次购买人数
影响销售额下降的原因有很多,如果把所有原因都分析一遍,那么这个工作量是非常大的。所以,在分析原因的过程中,要优先分析关键因素。
多维度拆解分为维度(角度)和拆解,实质上是做加法。比如用户下降了 = 新用户数量 + 老用户数量
拆解整体数据内部各个部分的构成差异进行细分
将一个复杂的问题拆分成可以逐渐解决的子问题
可以通过指标构成或者业务流程来拆解
对于本案例,我们是通过指标构成拆解,对问题进行拆解,将复杂问题细化成各个子问题。为了找到"哪里出了问题",可以对"销售额"这个指标进行拆解。至于拆解到什么程度,没有统一的标准,要根据对业务的理解和实际问题灵活把握,本案例拆解如图所示:
假设检验实质上是逻辑推理,使用数据来做决策的过程
可以分析出问题出现的原因,适用于归因分析场景,比如:分析产品DAU下降原因是什么?
根据业务流程,提出假设——收集证据——得出结论,在业务中这三步是不断重复的过程。不断重复这个过程,直到找到问题的根源。
接下来使用假设检验分析方法对多维度拆解后的每个业务流程提出假设,并加以验证。
得出结论:销售数量与销售总额一样,也减少了近 15%。由此可见,我们应该优先关注 销售数量 的数据, 假设成立 。
平均单价在 2 年期间比较稳定,基本在平均值(200 万元)上下 5%(190 万 ~ 210 万元)的范围内。至少在过去的一年里,没有出现过价格明显上升的情况,所以 假设不成立 。
得出结论:虽然两者在数量上没有太大差异,但首次购买量基本维持稳定,而再次购买量却在过去一年出现了减少。因此,可以确定, 再次购买量 应该是新车销售总额下滑的原因之一, 假设成立 。
得出结论:可以发现导致“再次购买量”减少的是 客户忠诚度 的下降所导致, 假设成立 。
至此,我们发现了导致销售额下降的关键因素是受到再次购买量以及用户忠诚度的影响。
分析到这儿,可能会有人觉得结束了!实际上并没有,现在的分析结果无法产生实际的意义。仅仅看到用户忠诚度下降还不能决定"接下来要采取哪些具体措施才能解决问题"。所以,接下来要分析为什么客户的忠诚度下降,有什么改进措施。
现在将忠诚度再进行拆解,并不断提出假设,作出验证。
得出结论:对销量的构成比例进行比较,发现车型 A 的比例明显小于其他车型,那么如果将问题锁定为车型 A,即使采取了有效的对策,对解决整体问题的影响仍然是有限的。因此 可以暂且降低车型 A 的优先顺序 。
按照不同车型,对客户忠诚度在 2 年期间的平均值进行比较,只有车型 A 的客户忠诚度显著偏低,其他车型之间没有太大差别。
接下来,暂且将车型 A 从比较对象中剔除,对其余 3 个车型进行比较忠诚度变化比较。
发现车型 B 和车型 C 的客户忠诚度从年前开始逐渐降低。可能选择了竞品公司。具体数字是 2 年期间从约 80%~90% 减至 50%~60%,降低了 30-40 个百分点。表明: 产品B、产品C的客户忠诚度出现了问题 , 假设成立 。
通过分析竞品公司推新情况,发现并没有新产品上市,假设不成立。但是,从客户的综合满意度趋势图看出明显下降了,那么说明综合满意度影响了客户忠诚度。
两者是否具有相关性,如何来验证两种数据的相关性,可以通过相关分析法。如果相关,那么忠诚度和综合满意度有多大程度上的相关,如何衡量。
相关性分析是研究两种或两种以上的变量之间有什么关系。如果变量间有关系,叫作有相关关系;如果没有关系,叫作没有相关关系。比如:学习时长和成绩有相关关系。
在研究变量间有什么关系或者判断某个事情是否受到其他事情影响时,不仅能帮助我们扩大思路,还能通过相关分析来衡量两个变量因素的相关密切程度。比如判断客户忠诚度和客户满意度这两个变量有多大程度的相关?
如何衡量两个变量的密切程度?通过"相关系数",它就是专门用来衡量两种变量的相关程度的,并且相关系数数值的正负可以反映两种数据的相关方向,也就是说两种变量在过程中是同方向变化还是反方向变化。
通常用字母 r 来表示 。可以用来快速锁定问题。
相关系数 r 介于[-1,1] 之间,相关系数的绝对值|r | 越大,表明变量间的相关程度越强。
如果 r = 1,数据点都在一条直线上,表示两个变量完全正相关(假设有a,b两种变量),a的值越大,b的值也会越大;如果 r = -1,数据点都在一条直线上,表示两个变量完全负相关,a的值越大,b的值反而会越小。
如果相关系数>0,说明两个变量是正相关,是同方向变化,也就是一个变量的值越大,另一个变量的值就越大;
如果相关系数<0,说明两个变量是负相关,是反方向变化,也就是一个变量的值越大,另一个变量的值反而越小;
如果相关系数=0,说明两个变量是不相关(无线性相关),有可能是其它方式相关,比如曲线方式。
业务中,如何计算具体的相关系数?现在excel 或 Python都有相应的功能或函数,我们只要知道怎么用,懂内部原理就够用了。以学习时长和成绩为例,利用Excel 计算相关系数。流程如下:
下面计算本案例中综合满意度(月份平均)与客户忠诚度的相关性系数,同样利用Excel的数据分析功能。计算结果如下:
得出结论:整体客户忠诚度与综合满意度之间的相关系数为 0.64,由此可知一般来说(不区分产品),两者之间存在相关关系。再看不同产品的客户忠诚度与综合满意度的相关性, B 和 C 与综合满意度的相关系数分别为 075、0.69,数值较高,可以确认为相关, 假设成立 。
再回到问题,只看综合满意度,还不能决定“应该釆取哪些措施”。这样的话仍然无法对实际业务产生意义,所以接下来还要再次应用相关分析来探讨“服务”、“产品”、“价格”不同维度与综合满意度之间的相关程度。定位产品B和C的综合满意度下降的根本原因是什么。
分别对两种产品的综合满意度和三种不同维度的相关性分析,结果如下:
对于B 来说,同类产品的价格比(相对而言是贵还是便宜)对综合满意度的影响较大。二者的相关系数为 -0.72,表示价格越高,顾客满意度就会越低。需要注意其变化趋势是相反的,也就是说, B 的用户对价格比较敏感。对于C,售后满意服务度对综合满意度的影响较大。二者相关系数为0.59,说明C的用户比较在意售后服务体验。
通过相关分析,发现跟销售总额相关度最高的因素是用户满意度,尤其是产品B,优先调整同类产品价格比;产品C提升售后服务水平,可以显著提升整体销售额。
现在复盘一下这个案例是如何分析的。分析流程如下:
前面我们根据多维度拆解、假设检验、相关分析方法最终定位到销量下滑的根本原因。接下来也就是根据找到的原因提出建议。那么在提出建议这一步经常用的分析方法之一是回归分析。比如本案例知道需要提升满意度,但是将满意度具体改善到什么程度,才能提升销售额。这时候就需要用回归分析来计算出某个原因能够对目标造成多大程度的影响。
回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
这个方程可以理解为:Y(利润) = 0.1445X(销售额)-31.938。前面说过期望的利润目标是5000万,也就是利润Y = 5000万,代入回归方程就可以算出具体销售额= 34,823.41万元。u额就是说,根据公司下半年想要实现5000万的目标,我们需要将销售额达到34823.41万元。
以上就是使用回归分析的整体流程。简单回顾下回归分析:回归方程里面有一种自变量的,这种回归叫一元线性回归;那么使用线性回归的前提是两个变量(因变量和自变量)要有相关关系,这样才能使用一元线性回归;线性回归实质上在帮助我们解决资源合理分配的问题。比如销售案例,知道了Y值,想知道X的值是多少。还有另外一种情况就是咱们的汽车销售额下滑的案例,例如Y是综合满意度,X是售后满意度,这样我们就知道售后满意度达到多少分时,综合满意度才能提升。当决策者有多种方案要选择的时候,就可以根据回归分析,知道把有限的资源投入到哪里才能发挥出最好的效果。
回到案例中:继续解决产品B 的价格满意度提升到多少;产品C的售后满意度提升到多少,才能提高综合满意度,进一步提升客户忠诚度。首先制定业务目标,也就是回归方程的Y值。那么我们可以追溯到客户忠诚度,会发现客户忠诚度75%才是一个正常趋势,所以我们确定过了要将产品B 和 C 的忠诚度提升到 75%。
通过回归方程,得出产品B 要想达到忠诚度到75%的目标,必须将综合满意度达到75以上。
接下来提升B产品客户忠诚度:综合满意度与同类产品价格比的关系
最后提升C产品客户忠诚度:客户忠诚度与售后服务满意度的关系
如何提高售后服务满意度?
到这里,分析结束。通过回归分析,最终得出可落地的建议如下:
影响销售额下滑的主要定位到B产品的同类价格比 、C 产品的售后满意度出现问题
1)产品B : 价格波动不要高于同类产品 2%
2)产品C : 要重点抓售后服务,尤其是服务态度要达到76分
以上是本次通过汽车销量下滑案例,映射一个完整的在工作中利用数据分析解决问题的过程。
4、计量经济学分析题。
1:ln(y)=3.73+0.39ln(x1)+0.57ln(x2)
2:根据回归结果(表2)p值可知两个自变量在5%显著水平上都是统计显著的,同时也是符合经济理论的,汽车产量和建筑业产值的增长率变化与机电行业销售额增长率变化成正向关系。
3。通过比较表1和表2,将选择双对数模型(常弹性模型),原因;1 使用对数形式通常比使用水平值更接近经典线性回归模型的假定。2取对数通常会缩小变量的取值范围,在某些情况下是相当可观的,这就使得估计值对因变量或自变量的一场观测不那么敏感,而且取对数形式,使得任何一个自变量系数具有百分点变化的解释
通过表2不难看出,措施b的效果更明显,建筑业产值每增加1个百分点,会使机电行业销售额提高57个百分点,而措施a 只有39个百分点
5、什么是线性回归模型?
线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析
在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。(这反过来又应当由多个相关的因变量预测的多元线性回归区别,】,而不是一个单一的标量变量。)
回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
在线性回归中,数据使用线性预测函数来建模,并且未知的模型参数也是通过数据来估计。这些模型被叫做线性模型。最常用的线性回归建模是给定X值的y的条件均值是X的仿射函数。不太一般的情况,线性回归模型可以是一个中位数或一些其他的给定X的条件下y的条件分布的分位数作为X的线性函数表示。像所有形式的回归分析一样,线性回归也把焦点放在给定X值的y的条件概率分布,而不是X和y的联合概率分布(多元分析领域)。
线性回归是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。这是因为线性依赖于其未知参数的模型比非线性依赖于其位置参数的模型更容易拟合,而且产生的估计的统计特性也更容易确定。
线性回归有很多实际用途。分为以下两大类:
如果目标是预测或者映射,线性回归可以用来对观测数据集的和X的值拟合出一个预测模型。当完成这样一个模型以后,对于一个新增的X值,在没有给定与它相配对的y的情况下,可以用这个拟合过的模型预测出一个y值。
给定一个变量y和一些变量X1,...,Xp,这些变量有可能与y相关,线性回归分析可以用来量化y与Xj之间相关性的强度,评估出与y不相关的Xj,并识别出哪些Xj的子集包含了关于y的冗余信息。
6、什么样的模型是线性回归
2经典线性回归模型
§2.1概念与记号
1.线性回归模型是用来描述一个特定变量y与其它一些变量x1,…,xp之间的关系。2.称特定变量y为因变量(dependentvariable)、被解释变量(explainedvariable)、
响应变量(responsevariable)、被预测变量(predictedvariable)、回归子(regressand)。3.称与特定变量相关的其它一些变量x1,…,xp为自变量(independentvariable)、解释变量(explanatoryvariable)、控制变量(controlvariable)、预测变量(predictorvariable)、回归量(regressor)、协变量(covariate)。
4.假定我们观测到上述这些变量的n组值:(yi,xi1,L,)xip(i=1,…,n)。称
这n组值为样本(sample)或数据(data)。
§2.2经典线性回归模型的假定
假定2.1(线性性(linearity))
yi=b0+b1xi1+L+bpxip+ei(i=1,…,n)。
(2.1)
称方程(2.1)为因变量y对自变量x1,…,xp的线性回归方程(linearregression
equation),其中bk(k=0,1,L,p)是待估的未知参数(unknownparameters),
ei(i=1,L,n)是满足一定限制条件的无法观测的误差项(unobservederrorterm)。称自
变量的函数b0+b1xi1+L+bpxip为回归函数(regressionfunction)或简称为回归
(regression)。称b0为回归的截距(ntercept),称bk(k=1,L,p)为自变量的回归系数
(regressioncoefficients)。某个自变量的回归系数表
7、线性回归是什么意思?
没有具体数据要求,一般来说,数据越多越好。
通过线性回归算法,我们可能会得到很多的线性回归模型,但是不同的模型对于数据的拟合或者是描述能力是不一样的。我们的目的最终是需要找到一个能够最精确地描述数据之间关系的线性回归模型。这是就需要用到代价函数。
代价函数就是用来描述线性回归模型与正式数据之前的差异。如果完全没有差异,则说明此线性回归模型完全描述数据之前的关系。
一条趋势线代表着时间序列数据的长期走势。它告诉我们一组特定数据(如GDP、石油价格和股票价格)是否在一段时期内增长或下降。虽然我们可以用肉眼观察数据点在坐标系的位置大体画出趋势线,更恰当的方法是利用线性回归计算出趋势线的位置和斜率。