决策树
决策树理解划分选择
算法分类
划分选择
公式
说明
ID3(Iterative Dichotomiser)
信息增益
Gain(D,a)=Ent(D)-Σ(|D^v|/|D|)*Ent(D^v)
信息增益越大,由属性a划分而来的集合D的纯度越高,则优先将属性a作为该结点的划分依据
C4.5
增益率
Gain_ratio(D,a)=Gain(D,a)/IV(a)
信息增益除以属性a的固有值,找出增益率最高的,属性a可取数目越多,固有值越大。需要注意的是,增益率准则对可取数目较少的属性有所偏好。
CART
基尼指数
Gini(D)=1-Σpk^2
Gini(D)反映了从数据集D种
2020-01-27
Machine Learning
NCCCU比赛
数据挖掘标准流程了解课题背景和目标→了解评估标准→认识数据→分析与预处理→特征工程→基于模型测试与优化(数据决定了上限)→ 是否达到预期效果(否的话回到特征工程)→记录模型和结果
预处理
如何处理缺失值与重复值
缺失值:删除,或填充
import pandas as pd
import numpy as np
df=pd.DateFrame([[1,np.nan,3],[4,5,np.nan],[7,8,9]])
df.dropna() #默认以行删除
df.dropna(axis=1,inplace=True) #注意inplace
特征缩放
min-max normaliz
2019-11-29
Machine Learning
SpringBoot
SpringBoot入门
SpringBoot入门→SpringBoot进阶→SpringBoot微信点餐系统→SpringCloud微服务实战
Spring Boot应用开发流程Spring应用开发流程:
配置环境 创建工程 构建目录结构 组件依赖管理 配置Web容器
设置组件参数 业务开发 测试与构建 手动部署 运维与监控
SpringBoot开发流程:
配置环境(只需要jdk)
Spring Initializr(一键生成Spring Boot 应用)
配置参数(可选)
业务开发
自动构建
自动部署
运维与监控
Maven构建Spri
2019-10-17
javaweb