01-贝叶斯
-
获得先验概率(prior probability)
- 其实就是经验
- 先验概率:P(患血液病)=0.005;P(不患血液病)=0.995,
- 获得方法:①依靠经验,②频率估计概率。
-
似然函数(likelihood function)
- 似然函数与概率密度函数,指数与对数的关系,逆反
- 举个例子:设白细胞浓度为x,已知白细胞浓度和患血液病有关系。
- 如果我们设p(患病|x),p(不患病|x)是概率密度函数,那么p(x|患病),p(x|不患病)就是似然函数
- 参数估计:已知概率密度函数的形式(如正态分布、二项分布等),估计(如均值、方差等),估计方法:极大似然估计,贝叶斯估计
- 非参数估计:不用模型,而只利用训练数据本身对概率密度做估计,估计方法:K近邻分类器
-
求得后验概率(posterior probability)
-
另一个解释
- 采用概率论中的贝叶斯公式进行修正,修正前的概率称为先验概率,修正后的概率称为后验概率,利用后验概率再进行风险分析。
02-支持向量机
- 支持向量:是距离分类决策边界最近的样本。
- 软间隔:解决不能够完全线性可分的样本,允许个别样本点出现在间隔带里面,相对的,硬间隔就是不允许,解决大部分样本点的线性可分
- 核函数:解决完全不能够线性可分的样本,映射到更高维度
03-决策树
- ID3:使用“信息增益” 选择属性,衡量属性对分类提供的信息的多少
- 步骤:
- 计算决策属性的信息熵Entropy
- 计算条件属性的信息熵Entropy,再得到信息增益
- 选择节点,应该选取信息增益最大的那个属性,该属性作为根节点。已经可以描述的分支,添加叶节点。
- 针对每个不是叶节点的分支,根据划入该分支的数据,继续重复上述计算。
- ID3缺陷:属性必须是离散值,不能有缺失值,容易过拟合
04-KNN
- 在所有样本中找到与测试样本的K个最近邻者,K-近邻一般采用K为奇数,跟投票表决一样,避免因两种票数相等而难以决策 。
05-Code
步骤:读取数据------标准化----PCA后----再标准化------使用算法
- 图1:贝叶斯 两种朴素贝叶斯
- 图2:SVM
- 图3:决策树
- 图4:KNN

本文章使用limfx的vscode插件快速发布