default_data_checks#
一套可用于各种数据集的默认数据检查。
模块内容#
类摘要#
AutoML 默认使用的一系列基本数据检查。 |
内容#
- class evalml.data_checks.default_data_checks.DefaultDataChecks(problem_type, objective, n_splits=3, problem_configuration=None)[source]#
AutoML 默认使用的一系列基本数据检查。
包含
NullDataCheck
HighlyNullRowsDataCheck
IDColumnsDataCheck
TargetLeakageDataCheck
InvalidTargetDataCheck
NoVarianceDataCheck
ClassImbalanceDataCheck(适用于分类问题类型)
TargetDistributionDataCheck(适用于回归问题类型)
DateTimeFormatDataCheck(适用于时间序列问题类型)
‘TimeSeriesParametersDataCheck’(适用于时间序列问题类型)
TimeSeriesSplittingDataCheck(适用于时间序列分类问题类型)
- 参数
problem_type (str) – 正在验证的问题类型。可以是回归、二元分类或多类别分类。
objective (str or ObjectiveBase) – 目标类的名称或实例。
n_splits (int) – 由使用的数据分割器确定的分割数量。默认为 3。
problem_configuration (dict) – 时间序列问题类型必需。需要为 time_index 传入值,
gap –
forecast_horizon –
max_delay. (和) –
方法
对照数据检查器检查并验证输入数据,如果适用,返回警告和错误的列表。
- validate(self, X, y=None)#
对照数据检查器检查并验证输入数据,如果适用,返回警告和错误的列表。
- 参数
X (pd.DataFrame, np.ndarray) – 形状为 [n_samples, n_features] 的输入数据
y (pd.Series, np.ndarray) – 长度为 [n_samples] 的目标数据
- 返回
包含 DataCheckMessage 对象的字典
- 返回类型
dict