西瓜书
30 September 2020
Photo by Floh Maier
logistic回归
- logistic回归解决的是什么问题?
- 它的表达式是什么?
- 求导公式是什么?
logistic回归解决的是分类问题
表达式:$y=\sigma(f(\boldsymbol{x}))=\sigma\left(\boldsymbol{w}^{T} \boldsymbol{x}\right)=\frac{1}{1+e^{-\boldsymbol{w}^{T} \boldsymbol{x}}}$
推导公式:
决策树
- 常见决策树算法有哪些?
- 它们的划分准则分别是什么?
- 是否有缺陷?
- 决策树为什么要剪枝?
- 剪枝有几种方法?优缺点?
常见:ID3、C4.5、CART
划分准则:
- 信息增益 —
$\operatorname{Gain}(D, a)=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right)$
- 信息增益率 —
$\operatorname{Gain}_{\text {ratio}}(D, a)=\frac{\operatorname{Gain}(D, a)}{\operatorname{IV}(a)}$
- 基尼指数 —
$\operatorname{Gini}$_
$\operatorname{index}(D,a) = \sum_{v=1}^{V}\frac{|D^v|}{|D|}\operatorname{Gini}(D^v)$
缺陷:
- 信息增益:对可取值较多的属性有偏好。
- 信息增益率:对可取值较少的属性有偏好。
- 信息熵 ~
$\operatorname{Ent}(D)=-\sum_{k=1}^{|\mathcal{Y}|}p_k\log_{2}{p_k}$
- 增益率 ~
$\mathrm{IV}(a)=-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \log _{2} \frac{\left|D^{v}\right|}{|D|}$
- 基尼值 ~
$\operatorname{Gini}(D) =\sum_{k=1}^{|\mathcal{Y}|} \sum_{k^{\prime} \neq k} p_{k} p_{k^{\prime}}=1-\sum_{k=1}^{|\mathcal{Y}|} p_{k}^{2}$
Details