数据集:
imodels/compas-recidivism
来自ProPublica的compas-recidivism数据集(GitHub编号 here )。请注意,该数据集存在严重的社会影响和偏见,请谨慎使用。
基本数据预处理由 imodels team 完成。
目标是二元结果is_recid。
加载数据:
from datasets import load_dataset
dataset = load_dataset("imodels/compas-recidivism")
df = pd.DataFrame(dataset['train'])
X = df.drop(columns=['is_recid'])
y = df['is_recid'].values
拟合模型:
import imodels import numpy as np m = imodels.FIGSClassifier(max_rules=5) m.fit(X, y) print(m)
评估:
df_test = pd.DataFrame(dataset['test'])
X_test = df.drop(columns=['is_recid'])
y_test = df['is_recid'].values
print('accuracy', np.mean(m.predict(X_test) == y_test))