机器学习测试题(上)

发表于 ML 2017-01-01 12:12 阅读量: 5,303

人工智能一直助力着科技发展，新兴的机器学习正推动着各领域的进步。如今，机器学习的方法已经无处不在—从手机上的语音助手到商业网站的推荐系统，机器学习正以不容忽视的速度闯入我们的生活。以下测试题可以粗略的检测你对机器学习的了解和掌握程度。

1.以下哪一种方法最适合在n（n>1）维空间中做异常点检测。

A 正态分布图
B 盒图
C 马氏距离
D 散点图
答案：C
马氏距离是是一种有效的计算两个未知样本集的相似度的多元计量方法，以卡方分布为基础，表示数据的协方差距离。与欧氏距离不同的是它考虑到各种特性之间的联系(例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是关联的)。因此马氏距离常用于多元异常值检测。

2. 逻辑回归与多元回归分析有哪些不同？

A. 逻辑回归预测某事件发生的概率
B. 逻辑回归有较高的拟合效果
C. 逻辑回归回归系数的评估
D. 以上全选
答案：D
逻辑回归是用于分类问题，我们能计算出一个事件/样本的概率；一般来说，逻辑回归对测试数据有着较好的拟合效果；建立逻辑回归模型后，我们可以观察回归系数类标签(正类和负类)与独立变量的的关系。

3 bootstrap 数据的含义是：
A. 有放回的从整体M中抽样m个特征
B. 无放回的从整体M中抽样m个特征
C. 有放回的从整体N中抽样n个样本
D. 无放回的从整体N中抽样n个样本
答案：C
如果我们没有足够的数据来训练我们的算法，我们应该通过重复随机采样增加训练集合的大小

4."过拟合是有监督学习的挑战，而不是无监督学习"以上说法是否正确：
A. 正确
B. 错误
答案：B
我们可以评估无监督学习方法通过无监督学习的指标，如：我们可以评估聚类模型通过调整兰德系数

5.下列表述中，在k-fold交叉验证中关于选择K说法正确的是：
A. 较大的K并不总是好的，选择较大的K可能需要较长的时间来评估你的结果
B. 相对于期望误差来说，选择较大的K会导致低偏差（因为训练folds会变得与整个数据集相似）
C. 在交叉验证中通过最小化方差法来选择K值
D. 以上都正确
答案：D

较大的K意味着更小的偏差（因为训练folds的大小接近整个dataset）和更多的运行时间（极限情况是：留一交叉验证）。当选取K值的时候，我们需要考虑到k-folds 准确度的方差。

6. 一个回归模型存在多重共线问题。在不损失过多信息的情况下，你该怎么做：
A. 移除共线的两个变量
B. 移除共线的两个变量其中一个
C. 我们可以计算方差膨胀因子（variance inflation factor)来检查存在的多重共线性并采取相应的措施
D. 移除相关变量可能会导致信息的丢失，为了保留这些变量，我们可以使用岭回归(ridge)或lasso等回归方法对模型进行惩罚
答案：B C D
为了检查多重共线性，我们可以创建相关系数矩阵来辨别和移除相关系数大于75%的变量(阈值根据情况设定),除此之外，我们可以使用VIF方法来检查当前存在的共线变量。VIF<=4表明没有多种共线，VIF>=10表明有着严重的多重共线性。当然，我们也可以使用公差(tolerance)作为评估指标。
但是,移除相关变量可能导致信息的丢失，为了保留这些变量，我们可以使用带惩罚的回归方法。我们也可以在相关变量之间随机加入噪音，使得变量之间存在差异。但增加噪音可能影响准确度，因此这种方法应该小心使用。

7.评估模型之后，得出模型存在偏差，下列哪种方法可能解决这一问题：
A. 减少模型中特征的数量
B. 向模型中增加更多的特征
C. 增加更多的数据
D. B 和 C
E. 以上全是
答案：B
高偏差意味这模型不够复杂(欠拟合)，为了模型更加的强大，我们需要向特征空间中增加特征。增加样本能够降低方差

8. 在构建一个基于决策树模型时，使用信息增益information gain作为决策树节点属性选择的标准，以下图片中哪一个属性具信息增益最大：
A. Outlook
B. Humidity
C. Windy
D. Temperature
答案：A
信息增益是划分前样本数据集的不纯程度(熵)和划分后数据集的不纯程度(熵)的差值，计算各信息增益即可。

9. 在决策树中，用作分裂节点的information gain说法正确的是
A. 较小不纯度的节点需要更多的信息来区分总体
B. 信息增益可以使用熵得到
C. 信息增益更加倾向于选择有较多取值的属性
答案 B C
使用信息增益作为决策树节点属性选择的标准，由于信息增益在类别值多的属性上计算结果大于类别值少的属性上计算结果，这将导致决策树算法偏向选择具有较多分枝的属性。

10. 一个SVM存在欠拟合问题，下面怎么做能提高模型的性能:
A. 增大惩罚参数C
B. 减小惩罚参数C
C. 减小核函数系数(gamma值)
答案： A
C >0称为惩罚参数，是调和二者的系数，C值大时对误差分类的惩罚增大，C值小时对误差分类的惩罚减小。当C越大，趋近无穷的时候，表示不允许分类误差的存在，margin越小，容易过拟合；当C趋于0时，表示我们不再关注分类是否正确，只要求margin越大，容易欠拟合

11.支持向量机模型，选择RBF函数作为kernel后，对gamma（函数自带参数）画散点图，如果忘记在图上标记gamma值，以下哪一个选项可以解释下图的gamma值（图1,2,3从左向右，gamma值分别为g1、g2、g3）？

A. g1 > g2 > g3

B. g1 = g2 = g3

C. g1 < g2 < g3

D. g1 >= g2 >= g3

E. g1 <= g2 <= g3

答案: C

随着gamma的增大，存在对于测试集分类效果差而对训练分类效果好的情况，并且容易泛化误差出现过拟合，因此C选项正确。

12. 做一个二分类预测问题，先设定阈值为0.5，概率大于等于0.5的样本归入正例类（即1），小于0.5的样本归入反例类（即0）。然后，用阈值n（n>0.5）重新划分样本到正例类和反例类，下面哪一种说法正确是（）

1.增加阈值不会提高召回率
2..增加阈值会提高召回率
3..增加阈值不会降低查准率
4.增加阈值会降低查准率

A. 1

B. 2

C. 1 and 3

D. 2 and 4

E. None of the above

答案: C

	实际为“正”	实际为“反”
预测为“正”	TP	FP
预测为“反”	FN	TN

召回率=TP/TP+FN

查准率=TP/TP+FP

所以当概率阈值增加时，TP、FP减少或者持平， TP+FN不变，所以召回率不会增加，一般情况，用不同的阀值，统计出一组不同阀值下的精确率和召回率，如右图，所以答案选择C。

13.点击率的预测是一个数据比例不平衡问题（比如训练集中样本呈阴性的比例为99%，阳性的比例是1%），如果我们用这种数据建立模型并使得训练集的准确率高达99%。我们可以得出结论是：

A.模型的准确率非常高，我们不需要进一步探索

B.模型不好，我们应建一个更好的模型

C.无法评价模型

D.以上都不正确

答案: B

对于失衡数据，模型的准确率不能作为衡量模型效果的标准。因为我们需要探索的是少数1%的数据，为更好的评估模型效果，可以用灵敏度、特异度、F measure来判断，如果样本数少的类别表现非常弱，我们会采取更多措施。所以答案选B。

14. 图片是训练数据集（样本非常少）的快照（属性x、y分别用“+” 和 “o”表示），设定kNN的k=1，那么留一法交叉验证的误差是

A. 0%

B. 100%

C. 0 到 100%

D. 以上均不正确

答案: B

留一交叉验证法中，如果有N个样本数据。将每个样本单独作为测试集，其余N-1个样本作为训练集，这样得到了N个模型，用这N个模型的分类准确率的平均数作为此分类器的性能指标。因此每一个模型都是用几乎所有的样本来训练得到最接近样本，这样评估所得的结果没有随机因素，所以答案选择B

15. 下面哪一项用决策树法训练大量数据集最节约时间?

1. 增加树的深度
2. 增加学习率
3. 减少数的深度
4..减少树的个数

A. 2

B. 1 and 2

C. 3

D. 3 and 4

E. 2 and 3

F. 2, 3 and 4

答案: C

如果决策树的其他参数固定不变，那么：增加树的深度使得所有节点将延伸直到所有叶节点都是纯的，因此会消耗更多时间；学习率在此问题中不是有效参数；决策树模型只建立一个树

16. 下列有关神经网络的问题正确的有？

1..增加层数可能扩大测试误差
2. 减少层数一定缩小测试误差
3..增加层数一定减少训练误差

A. 1

B. 1 and 3

C. 1 and 2

D. 2

答案: A

一般情况增加层数能让模型在训练集和测试集中都表现出更好的效果，但有研究表明层数多的神经网络相对于层数较少的神经网络可能呈现更大的训练误差，所以问题不能下定论，答案应该选择A

17.解决线性不可分情况下的支持向量分类机的最优化模型问题时，以下可以保证结果模型线性可分的是

A. C = 1

B. C = 0

C. C 无限制

D.以上均不正确

答案: C

18. 训练一个支持向量机，除去不支持的向量后仍能分类

A. 真的

B. 假的

答案: A

只有支持向量会影响边界

19. 下列哪种算法可以用神经网络构建?

1. K-NN最近邻算法
2. 线性回归
3. 逻辑回归

A. 1 and 2

B. 2 and 3

C. 1, 2 and 3

D. None of the above

答案: B
1..KNN是关于距离的学习算法，没有任何参数，所以无法用神经网络构建
2. 神经网络实现最小二乘法
3. 逻辑回归相当于一层的神经网络

20. 下列可以用隐马尔可夫模型来分析的是？

A. 基因序列数据

B. 电影评论数据

C. 股价数据

D. 以上三种

答案: D

三种都是时间序列数据，可以应用隐马尔可夫模型

博客地址：http://blog.yoqi.me/?p=1783

喜欢 4

机器学习测试题(上)

这篇文章还没有评论

发表评论点击取消回复