天问

机器学习测试题(下)

人工智能一直助力着科技发展,新兴的机器学习正推动着各领域的进步。如今,机器学习的方法已经无处不在—从手机上的语音助手到商业网站的推荐系统,机器学习正以不容忽视的速度闯入我们的生活。以下测试题可以粗略的检测你对机器学习的了解和掌握程度。

本文接上篇《机器学习测试题(上)》,有对机器学习有兴趣的小伙伴可自行测试。

 

21.在一个包含5000个特征及超过一百万个观测值的数据集上建立一个机器学习的模型,下面哪种方法能更高效地训练模型?

A.从数据集中随机抽取样本来建立模型

B.使用在线学习算法 

C.使用主成分分析法(PCA)对数据降维 

D.B和C 

E.A和B 

F.以上全部

 

答案:F 

解析:以下是在有限内存机器上处理高维数据的方法:在数据集中随机抽样,创建一个较小的数据集进行计算(如:抽取1000个变量和300000行的数据);运用在线学习算法,如使用Vowpal Wabbit;运用主成分分析法(PCA)选取方差最大方向。

 

22.以下哪种方法可以减少数据集中的特征(选择一个最佳答案)?

   a.使用“前向”搜索

   b.使用“后向”搜索

   c.我们把模型中的所有特征都训练一次,得到测试中模型的精确性。每次取一个特征,对测试数据集的特征值进行清洗,并且对测试数据进行预测,然后评估模型。若模型的精确性提高,则移除次特征。

   d.根据相关表提出相关性高的特征 

A.a和b

B.b,c和d 

C.a,b和d 

D.以上全部

 

答案:D 

解析:“前向”搜索和“后向”搜索是特征选择的两种主要方法;使用前面两种方法失败时,第三种方法在一个大数据集中则非常有效;在特征选择中使用相关性进行选择还可以剔除存在多重共线性的特征。

 

23.下列关于随机森林和GradientBoosting说法正确的是?

   a.随机森林里的决策树不是相互独立的,而GradientBooting里的决策树是相互独立的。

   b.两者都使用特征的随机子集创造决策树。

   c.因为GrandientBoosting里的树是互相独立的,所以可以生成平行的树。

   d.对于任何数据,GradientBoosting总是优于随机森林。

 

A.b 

B.a和b 

C.a,c和d 

D.b和d

 

答案:A 

解析:随机森林基于bagging算法,GrandientBoosting基于boosting算法,boosting算法里的树不独立是因为下一颗树是基于前一颗树的结果的,而bagging算法里的树是相互独立的;在这两种算法中,我们都使用特征的随机自己创建决策树;因为随机森林里的决策树都是独立的,所以我们可以在此生成平行的树,而在GrandientBoosting里则是不可能的;这两种算法都是取决于数据的。

 

24.运用主成分分析法(PCA)降维,朴素贝叶斯分类器的属性条件独立性假设总是成立的,因为由各个主成分之间正交可推出它们不相关。这种说法正确吗?

 

A.正确 

B.不正确 

 

答案:B 

解析:不相关不等于独立;不相关也不是降维的必要条件。

 

25.下列关于主成分分析法(PCA)说法正确的是? 

   a.进行主成分分析之前要对数据进行中心化

   b.要选出方差最大的作为主成分

   c.要选出方差最小的作为主成分

   d.主成分分析法可用于低维数据的可视化处理

 

A.a,b和d 

B.b和d 

C.c和d 

D.a和c 

E.a,c和d

 

答案:A

 解析:主成分分析法对数据中变量的尺度较为敏感,因此要先对数据进行中心化处理,;若不进行中心化,如果变量单位从千米变成厘米(方差变大),变量很有可能从影响很小的成分变成第一个主成分。主成分分析法通常选择方差最大的作为主成分。通常,低维数据绘图是很有用的,我们可以用散点图来显示前两个主成分数据。

 

26.选出下图中最恰当的主成分个数?


A. 7 

B. 30 

C. 35 

D. 不确定

 

答案:B 

解析:由图可知,当主成分为30时,方差最大且主成分个数最小。

 

27.下列关于“集成学习”说法正确的是? 

A.个体学习器间相关性较高

B.个体学习器间相关性较低 

C.使用“加权平均”而不是“投票法”产生结果 

D.个体学习器由相同的学习算法生成

 

答案:B 

解析:集成学习的结果可通过投票法产生,也可由加权平均法产生;同质集成中的个体学习器由相同的学习算法生成,异质集成中的个体学习器由不同的学习算法生成。

 

28.如何在“无监督学习”中使用聚类算法? 

   a.先将样本划分为不同的簇,然后分别在不同的簇上使用无监督学习 

   b.在应用无监督学习前可将不同的簇看成不同的特征 

   c.在应用无监督学习之前不能将样本划分为不同的簇 

   d.在应用无监督学习之前不能将不同的簇看成不同的特征

 

A.b和d 

B.a和b 

C.c和d 

D.a和c

 

答案:B

 解析:我们可以根据不同的簇建立不同的机器学习模型且这能为boost提供精确的预测;将样本划分为不同的簇可以提高结果的精确性,因为这可以将数据进行汇总。

 

29.下列哪种说法是正确的? 

A.一个精度高的机器学习模型通常是一个好的分类器 

B.模型越复杂,测试错误越低 

C.模型越复杂,训练错误越低 

D.A和C

 

答案:C

 解析:在分类不均衡的数据集中,精度不是一个好的评价指标,而查准率和查全率更为适用于此类需求的性能度量;模型更复杂通常会导致过度拟合,此时训练错误减少而测试错误增加。

 

30.下列关于梯度树提升说法正确的是? 

   a.当分裂所需最小样本数增加时,模型拟合不足

   b.当分裂所需最小样本数增加时,模型拟合过度

   c.降低拟合个体学习器样本的分数可以降低方差

   d.降低拟合个体学习器样本的分数可以减少偏差

 

A.b和d 

B.b和c 

C.a和c 

D.a和d

 

答案:C 

解析:考虑分裂节点所需最小样本数是用于控制拟合过度的,分裂节点所需样本数太高容易导致拟合不足,此时可以借助sklearn.grid_search库中的GridSearchCV类进行调参;每一棵树的样本分数通过随机抽样所得,小于1的值可以通过降低方差使模型更加稳健,一般0.8左右的值比较正常,也还可以进行微调。

 

31.以下哪个图是K近邻(KNN)的决策边界?

A)              B)                    C)                      D)

 

A.B) 

B.A) 

C.D) 

D.C) 

E.不确定

 

答案:B

 解析:KNN工作机制:给定测试样本,基于某种距离度量找出训练集中于其最靠近的k个训练样本,然后基于这k个“邻居”的信息来进行预测,通常选择这k个样本中出现最多的类别标记作为预测结果,所以决策边界可能不是线性的。

 

32.如果一个训练模型在测试集上精度达到100%,那么在另一个测试集上精度能否也达到100%? 

A.能,因为模型可用于任意数据上 

B不能,因还有一些模型无法解决的问题,如噪声 

答案:B

 解析:实际的数据不可能都是无噪声的,所以不能达到100%的精度。

 

33.下列是常见的交叉验证法: 

   a.自助法(bootstrapping)

   b.留一法(Leave-One-Out)

  c.5折交叉验证

  d.2次5折交叉验证

 

   样本量为1000时,根据所需的执行时间排列上述四种方法: 

A.a>b>c>d 

B.b>d>c>a 

C.d>a>b>c 

D.b>c>d>a

 

答案:B

 解析:“自助法”主要以可重复采样为基础,因此只有1个验证集使用随机抽样;“留一法”所用时间最长,因为有n个样本就要训练n个模型,此处1000个样本要训练1000个模型;“5折交叉验证”要训练5个模型;“2次5折交叉验证”要训练10个模型。

 

34.无

 

35.在变量选择过程中,下列哪些方法可用于检查模型的性能? 

   a.多重变量用于同一个模型

   b.模型的可解释性

   c.特征的信息

   d.交叉验证

 

A.a和d 

B.a,b和c 

C.a,c和d 

D.以上全部

 

答案:C

 解析:多重变量用于同一个模型将会出现多重共线性;模型的性能与模型的可解释性无关;特征的信息可为模型提供有效信息;交叉验证可评估学习器的泛化性能。

 

36.在一个线性回归模型中增加新的变量,下列说法正确的是? 

  a.R^2和调整的R^2都增大

  b.R^2不变,调整的R^2增大

  c.R^2和调整的R^2都减小

  d.R^2减小,调整的R^2增大

 

A.a和b 

B.a和c 

C.b和d 

D.以上都不对

 

答案:D

 解析:模型中增加预测变量,R^2都会增加或者保持不变;总体上,调整的R^2可能增大也可能减小。

 

37.下列图形是在相同的训练数据上具有相同回归的三个不同的模型,从图形中你可得到什么信息?

   a.图1的训练错误最大

   b.图3的回归模型拟合得最好,因为它的训练错误最小

   c.图2拟合的模型最稳健,因为模型的估计较好

   d.图3的回归模型拟合过度了

   e.三个模型拟合完全相同,因为我们无法看到训练数据

 

A.a和c 

B.a和c 

C.a,c和d 

D.e

 

答案:C

 解析:图中的趋势看起来像是独立变量X的二次趋势,多项式可能在训练数量上会有一个很高的精度,但在测试集上却完全相反;左图的训练错误最大因为它对训练数据拟合过度了。

 

38.在进行线性回归分析时,我们应该遵循哪些假设? 

   a.检查异常值,因为回归对异常值比较敏感

   b.所有变量必须服从正态分布

   c.不存在或存在极少多重共线性

 

A.a和b 

B.b和c 

C.a,b和c 

D.以上都不是

 

答案:D 

解析:异常值是数据中有高度影响的点,可以改变回归线的斜率,所以回归中处理异常值非常重要;将高度偏态的自变量转换为正态分布可以提高模型的性能;当模型中包含多个彼此相关的特征时会出现多重共线性,因此回归假设在数据中应尽可能少或没有冗余。

 

39.在建立线性回归模型时,3对变量(Var1和Var2,Var2和Var3,Var3和Var1)之间的相关性分别为-0.98,0.45和1.23。我们可以从中推断出什么?

 

  a.Var1和Var2之间相关性较高

   b.由于Var1和Var2之间相关性较高,因此存在多重共线性,应该移除这两个变量

  c.Var3和Var1之间的相关系数为1.23是不可能的

 

A.a和c 

B.a和b 

C.a,b和c 

D.a

 

答案:C 

解析:Var1和Var2之间相关性较高,且是负相关,存在多重共线性,此时可去除其中一个变量;一般情况下,相关系数的绝对值大于0.7,则可认为特征间相关性较高;相关系数取值应该在负一到一之间(包括正负一)。

 

40.如果自变量和因变量之间高度非线性且关系复杂,那么运用树回归优于经典回归模型,这个说法正确吗?

 

A.正确 

B.错误 

答案:A

 解析:对复杂和非线性的数据,树回归相比经典回归能更好地拟合模型。

 

PPV课翻译小组作品,未经许可,严禁转载!

原文链接:https://www.analyticsvidhya.com/blog/2016/11/solution-for-skilltest-machine-learning-revealed/

博客地址:http://blog.yoqi.me/?p=2209
扫我捐助哦
喜欢 16

这篇文章还没有评论

发表评论