sk_splitters#

SKLearn 数据分割器包装类。

模块内容#

类摘要#

`KFold`	sklearn KFold 分割器的包装类。
`StratifiedKFold`	sklearn Stratified KFold 分割器的包装类。

内容#

class evalml.preprocessing.data_splitters.sk_splitters.KFold(n_splits=5, *, shuffle=False, random_state=None)[source]#

sklearn KFold 分割器的包装类。

方法

`get_metadata_routing`	获取此对象的元数据路由。
`get_n_splits`	返回交叉验证器中的分割迭代次数。
`is_cv`	返回数据分割器是否为交叉验证数据分割器。
`split`	生成将数据分割为训练集和测试集的索引。

get_metadata_routing(self)#

获取此对象的元数据路由。

请查看用户指南了解路由机制的工作原理。

返回值: routing – 一个 MetadataRequest 对象，包含路由信息。
返回类型: MetadataRequest

get_n_splits(self, X=None, y=None, groups=None)#

返回交叉验证器中的分割迭代次数。

参数

X (object) – 始终忽略，仅为兼容性保留。
y (object) – 始终忽略，仅为兼容性保留。
groups (object) – 始终忽略，仅为兼容性保留。

返回值

n_splits – 返回交叉验证器中的分割迭代次数。

返回类型

int

property is_cv(self)#

返回数据分割器是否为交叉验证数据分割器。

返回值: 如果分割器是交叉验证数据分割器
返回类型: bool

split(self, X, y=None, groups=None)#

生成将数据分割为训练集和测试集的索引。

参数

X (array-like，形状为 (n_samples, n_features)) – 训练数据，其中 n_samples 是样本数量，n_features 是特征数量。
y (array-like，形状为 (n_samples,)，默认值为 None) – 用于监督学习问题的目标变量。
groups (array-like，形状为 (n_samples,)，默认值为 None) – 用于在将数据集分割为训练集/测试集时使用的样本的分组标签。

生成

train (ndarray) – 该分割的训练集索引。
test (ndarray) – 该分割的测试集索引。

class evalml.preprocessing.data_splitters.sk_splitters.StratifiedKFold(n_splits=5, *, shuffle=False, random_state=None)[source]#

sklearn Stratified KFold 分割器的包装类。

方法

`get_metadata_routing`	获取此对象的元数据路由。
`get_n_splits`	返回交叉验证器中的分割迭代次数。
`is_cv`	返回数据分割器是否为交叉验证数据分割器。
`split`	生成将数据分割为训练集和测试集的索引。

get_metadata_routing(self)#

获取此对象的元数据路由。

请查看用户指南了解路由机制的工作原理。

返回值: routing – 一个 MetadataRequest 对象，包含路由信息。
返回类型: MetadataRequest

get_n_splits(self, X=None, y=None, groups=None)#

返回交叉验证器中的分割迭代次数。

参数

X (object) – 始终忽略，仅为兼容性保留。
y (object) – 始终忽略，仅为兼容性保留。
groups (object) – 始终忽略，仅为兼容性保留。

返回值

n_splits – 返回交叉验证器中的分割迭代次数。

返回类型

int

property is_cv(self)#

返回数据分割器是否为交叉验证数据分割器。

返回值: 如果分割器是交叉验证数据分割器
返回类型: bool

split(self, X, y, groups=None)[source]#

生成将数据分割为训练集和测试集的索引。

参数

X (array-like，形状为 (n_samples, n_features)) –
训练数据，其中 n_samples 是样本数量，n_features 是特征数量。

请注意，提供 y 足以生成分割，因此可以使用 np.zeros(n_samples) 作为 X 的占位符，而不是实际的训练数据。
y (array-like，形状为 (n_samples,)) – 用于监督学习问题的目标变量。分层是基于 y 标签进行的。
groups (object) – 始终忽略，仅为兼容性保留。

生成

train (ndarray) – 该分割的训练集索引。
test (ndarray) – 该分割的测试集索引。

注意

随机化的 CV 分割器每次调用 split 方法可能会返回不同的结果。可以通过将 random_state 设置为整数来使结果相同。