AI 养成计划 part2

01-贝叶斯

获得先验概率(prior probability)
- 其实就是经验
- 先验概率：P(患血液病)=0.005；P(不患血液病)=0.995，
- 获得方法：①依靠经验，②频率估计概率。
似然函数(likelihood function)
- 似然函数与概率密度函数，指数与对数的关系，逆反
- 举个例子：设白细胞浓度为x,已知白细胞浓度和患血液病有关系。
- 如果我们设p(患病|x)，p(不患病|x)是概率密度函数，那么p(x|患病)，p(x|不患病)就是似然函数
- 参数估计：已知概率密度函数的形式（如正态分布、二项分布等），估计（如均值、方差等），估计方法：极大似然估计，贝叶斯估计
- 非参数估计：不用模型，而只利用训练数据本身对概率密度做估计，估计方法：K近邻分类器
求得后验概率(posterior probability)
- p(患血液病|x)，使用贝叶斯公式
另一个解释
- 采用概率论中的贝叶斯公式进行修正，修正前的概率称为先验概率，修正后的概率称为后验概率，利用后验概率再进行风险分析。

ID3:使用“信息增益” 选择属性,衡量属性对分类提供的信息的多少
步骤：
1. 计算决策属性的信息熵Entropy
2. 计算条件属性的信息熵Entropy，再得到信息增益
3. 选择节点，应该选取信息增益最大的那个属性，该属性作为根节点。已经可以描述的分支，添加叶节点。
4. 针对每个不是叶节点的分支，根据划入该分支的数据，继续重复上述计算。
ID3缺陷：属性必须是离散值，不能有缺失值，容易过拟合

步骤：读取数据------标准化----PCA后----再标准化------使用算法

本文章使用limfx的vscode插件快速发布