sk_splitters#

SKLearn 数据分割器包装类。

模块内容#

类摘要#

KFold

sklearn KFold 分割器的包装类。

StratifiedKFold

sklearn Stratified KFold 分割器的包装类。

内容#

class evalml.preprocessing.data_splitters.sk_splitters.KFold(n_splits=5, *, shuffle=False, random_state=None)[source]#

sklearn KFold 分割器的包装类。

方法

get_metadata_routing

获取此对象的元数据路由。

get_n_splits

返回交叉验证器中的分割迭代次数。

is_cv

返回数据分割器是否为交叉验证数据分割器。

split

生成将数据分割为训练集和测试集的索引。

get_metadata_routing(self)#

获取此对象的元数据路由。

请查看 用户指南 了解路由机制的工作原理。

返回值

routing – 一个 MetadataRequest 对象,包含路由信息。

返回类型

MetadataRequest

get_n_splits(self, X=None, y=None, groups=None)#

返回交叉验证器中的分割迭代次数。

参数
  • X (object) – 始终忽略,仅为兼容性保留。

  • y (object) – 始终忽略,仅为兼容性保留。

  • groups (object) – 始终忽略,仅为兼容性保留。

返回值

n_splits – 返回交叉验证器中的分割迭代次数。

返回类型

int

property is_cv(self)#

返回数据分割器是否为交叉验证数据分割器。

返回值

如果分割器是交叉验证数据分割器

返回类型

bool

split(self, X, y=None, groups=None)#

生成将数据分割为训练集和测试集的索引。

参数
  • X (array-like,形状为 (n_samples, n_features)) – 训练数据,其中 n_samples 是样本数量,n_features 是特征数量。

  • y (array-like,形状为 (n_samples,),默认值为 None) – 用于监督学习问题的目标变量。

  • groups (array-like,形状为 (n_samples,),默认值为 None) – 用于在将数据集分割为训练集/测试集时使用的样本的分组标签。

生成
  • train (ndarray) – 该分割的训练集索引。

  • test (ndarray) – 该分割的测试集索引。

class evalml.preprocessing.data_splitters.sk_splitters.StratifiedKFold(n_splits=5, *, shuffle=False, random_state=None)[source]#

sklearn Stratified KFold 分割器的包装类。

方法

get_metadata_routing

获取此对象的元数据路由。

get_n_splits

返回交叉验证器中的分割迭代次数。

is_cv

返回数据分割器是否为交叉验证数据分割器。

split

生成将数据分割为训练集和测试集的索引。

get_metadata_routing(self)#

获取此对象的元数据路由。

请查看 用户指南 了解路由机制的工作原理。

返回值

routing – 一个 MetadataRequest 对象,包含路由信息。

返回类型

MetadataRequest

get_n_splits(self, X=None, y=None, groups=None)#

返回交叉验证器中的分割迭代次数。

参数
  • X (object) – 始终忽略,仅为兼容性保留。

  • y (object) – 始终忽略,仅为兼容性保留。

  • groups (object) – 始终忽略,仅为兼容性保留。

返回值

n_splits – 返回交叉验证器中的分割迭代次数。

返回类型

int

property is_cv(self)#

返回数据分割器是否为交叉验证数据分割器。

返回值

如果分割器是交叉验证数据分割器

返回类型

bool

split(self, X, y, groups=None)[source]#

生成将数据分割为训练集和测试集的索引。

参数
  • X (array-like,形状为 (n_samples, n_features)) –

    训练数据,其中 n_samples 是样本数量,n_features 是特征数量。

    请注意,提供 y 足以生成分割,因此可以使用 np.zeros(n_samples) 作为 X 的占位符,而不是实际的训练数据。

  • y (array-like,形状为 (n_samples,)) – 用于监督学习问题的目标变量。分层是基于 y 标签进行的。

  • groups (object) – 始终忽略,仅为兼容性保留。

生成
  • train (ndarray) – 该分割的训练集索引。

  • test (ndarray) – 该分割的测试集索引。

注意

随机化的 CV 分割器每次调用 split 方法可能会返回不同的结果。可以通过将 random_state 设置为整数来使结果相同。