default_data_checks#

一套可用于各种数据集的默认数据检查。

模块内容#

类摘要#

DefaultDataChecks

AutoML 默认使用的一系列基本数据检查。

内容#

class evalml.data_checks.default_data_checks.DefaultDataChecks(problem_type, objective, n_splits=3, problem_configuration=None)[source]#

AutoML 默认使用的一系列基本数据检查。

包含

  • NullDataCheck

  • HighlyNullRowsDataCheck

  • IDColumnsDataCheck

  • TargetLeakageDataCheck

  • InvalidTargetDataCheck

  • NoVarianceDataCheck

  • ClassImbalanceDataCheck(适用于分类问题类型)

  • TargetDistributionDataCheck(适用于回归问题类型)

  • DateTimeFormatDataCheck(适用于时间序列问题类型)

  • ‘TimeSeriesParametersDataCheck’(适用于时间序列问题类型)

  • TimeSeriesSplittingDataCheck(适用于时间序列分类问题类型)

参数
  • problem_type (str) – 正在验证的问题类型。可以是回归、二元分类或多类别分类。

  • objective (str or ObjectiveBase) – 目标类的名称或实例。

  • n_splits (int) – 由使用的数据分割器确定的分割数量。默认为 3。

  • problem_configuration (dict) – 时间序列问题类型必需。需要为 time_index 传入值,

  • gap

  • forecast_horizon

  • max_delay. () –

方法

validate

对照数据检查器检查并验证输入数据,如果适用,返回警告和错误的列表。

validate(self, X, y=None)#

对照数据检查器检查并验证输入数据,如果适用,返回警告和错误的列表。

参数
  • X (pd.DataFrame, np.ndarray) – 形状为 [n_samples, n_features] 的输入数据

  • y (pd.Series, np.ndarray) – 长度为 [n_samples] 的目标数据

返回

包含 DataCheckMessage 对象的字典

返回类型

dict