<>哈工大2020秋机器学习期末试题
*
(1) 样本标签Y和属性A1之间的信息可以选择属性。给出互信息的定义。
(2) 决策树空间很大,用互信息(信息增益)选择属性的目的?这样做有什么好处?
(3) 如何避免决策树过拟合?
*
Y为类别(两类,Y=0和Y=1)随机变量,将真实类为1的样本判断为类0造成的损失为a,反之为b,如下表。那么期望损失最小意义下的分类准则?并用图例说明。
Y:真实 \ 预测01
00a
1b0
* (1) 结合图给出线性可分情况下的SVM的目标函数及约束条件
(2) 线性不可分的解决方案
(3) SVM分类函数中支持向量的意义
* (1) 本课程中的参数估计方法
(2) 它们的区别
(3) 它们得到一致结果的条件
* 给定训练集 D = { ( x i , y i ) } , i = 1 , . . . , N D=\{(x_i, y_i)\}, i=1,...,N
D={(xi,yi)},i=1,...,N 有两个类别,训练逻辑回归模型。
(1) 为什么目标函数用的是 log ( Y ∣ X ) \log (Y|X) log(Y∣X) 而不是 log ( X , Y ) \log
(X, Y)log(X,Y)
(2) 从逻辑回归模型推导出样本空间的分类决策面,给出推导
* (1) 从信号重建的角度推导PCA
(2) 用PCA实现信号压缩的方案
* (1) k-means算法流程
(2) k-means的优化目标函数
(3) k-means和EM算法的相似和不同
* 本课程实验一是单变量非线性的问题,如何处理成线性回归问题,给出方案