Eryck Zhou

A super simple BLOG for Artifical Intelligence.

西瓜书

30 September 2020

image

Photo by unsplash-logoFloh Maier

logistic回归

  1. logistic回归解决的是什么问题?
  2. 它的表达式是什么?
  3. 求导公式是什么?

logistic回归解决的是分类问题

表达式:$y=\sigma(f(\boldsymbol{x}))=\sigma\left(\boldsymbol{w}^{T} \boldsymbol{x}\right)=\frac{1}{1+e^{-\boldsymbol{w}^{T} \boldsymbol{x}}}$

推导公式:

决策树

  • 常见决策树算法有哪些?
  • 它们的划分准则分别是什么?
  • 是否有缺陷?
  • 决策树为什么要剪枝?
  • 剪枝有几种方法?优缺点?

常见:ID3、C4.5、CART

划分准则:

  • 信息增益 $\operatorname{Gain}(D, a)=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right)$
  • 信息增益率 $\operatorname{Gain}_{\text {ratio}}(D, a)=\frac{\operatorname{Gain}(D, a)}{\operatorname{IV}(a)}$
  • 基尼指数 $\operatorname{Gini}$_ $\operatorname{index}(D,a) = \sum_{v=1}^{V}\frac{|D^v|}{|D|}\operatorname{Gini}(D^v)$

缺陷:

  • 信息增益:对可取值较多的属性有偏好。
  • 信息增益率:对可取值较少的属性有偏好。

  • 信息熵 ~ $\operatorname{Ent}(D)=-\sum_{k=1}^{|\mathcal{Y}|}p_k\log_{2}{p_k}$
  • 增益率 ~ $\mathrm{IV}(a)=-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \log _{2} \frac{\left|D^{v}\right|}{|D|}$
  • 基尼值 ~ $\operatorname{Gini}(D) =\sum_{k=1}^{|\mathcal{Y}|} \sum_{k^{\prime} \neq k} p_{k} p_{k^{\prime}}=1-\sum_{k=1}^{|\mathcal{Y}|} p_{k}^{2}$

Details