数据挖掘标准流程

了解课题背景和目标→了解评估标准→认识数据→分析与预处理→特征工程→基于模型测试与优化（数据决定了上限）→ 是否达到预期效果（否的话回到特征工程）→记录模型和结果

预处理

如何处理缺失值与重复值

缺失值：删除，或填充

import pandas as pd
import numpy as np
df=pd.DateFrame([[1,np.nan,3],[4,5,np.nan],[7,8,9]])
df.dropna() #默认以行删除
df.dropna(axis=1,inplace=True) #注意inplace

特征缩放

min-max normalization
(x-min)/(max-min)
Mean normalization
x-average/max-min
Standardization
x-average/std(标准差)
from sklearn.preprocessing import StanderScaler
std=StanderScaler()

样本不均衡

某些品类不能被识别

Machine Learning

本博客所有文章除特别声明外，均采用 CC BY-SA 3.0协议。转载请注明出处！