数据挖掘标准流程
了解课题背景和目标→了解评估标准→认识数据→分析与预处理→特征工程→基于模型测试与优化(数据决定了上限)→ 是否达到预期效果(否的话回到特征工程)→记录模型和结果
预处理
- 如何处理缺失值与重复值
缺失值:删除,或填充
import pandas as pd
import numpy as np
df=pd.DateFrame([[1,np.nan,3],[4,5,np.nan],[7,8,9]])
df.dropna() #默认以行删除
df.dropna(axis=1,inplace=True) #注意inplace
- 特征缩放
min-max normalization
(x-min)/(max-min)
Mean normalization
x-average/max-min
Standardization
x-average/std(标准差)
from sklearn.preprocessing import StanderScaler
std=StanderScaler()
样本不均衡
某些品类不能被识别
本博客所有文章除特别声明外,均采用 CC BY-SA 3.0协议 。转载请注明出处!