sk_splitters#
SKLearn 数据分割器包装类。
模块内容#
类摘要#
sklearn KFold 分割器的包装类。 |
|
sklearn Stratified KFold 分割器的包装类。 |
内容#
- class evalml.preprocessing.data_splitters.sk_splitters.KFold(n_splits=5, *, shuffle=False, random_state=None)[source]#
sklearn KFold 分割器的包装类。
方法
获取此对象的元数据路由。
返回交叉验证器中的分割迭代次数。
返回数据分割器是否为交叉验证数据分割器。
生成将数据分割为训练集和测试集的索引。
- get_metadata_routing(self)#
获取此对象的元数据路由。
请查看 用户指南 了解路由机制的工作原理。
- 返回值
routing – 一个
MetadataRequest
对象,包含路由信息。- 返回类型
MetadataRequest
- get_n_splits(self, X=None, y=None, groups=None)#
返回交叉验证器中的分割迭代次数。
- 参数
X (object) – 始终忽略,仅为兼容性保留。
y (object) – 始终忽略,仅为兼容性保留。
groups (object) – 始终忽略,仅为兼容性保留。
- 返回值
n_splits – 返回交叉验证器中的分割迭代次数。
- 返回类型
int
- property is_cv(self)#
返回数据分割器是否为交叉验证数据分割器。
- 返回值
如果分割器是交叉验证数据分割器
- 返回类型
bool
- split(self, X, y=None, groups=None)#
生成将数据分割为训练集和测试集的索引。
- 参数
X (array-like,形状为 (n_samples, n_features)) – 训练数据,其中 n_samples 是样本数量,n_features 是特征数量。
y (array-like,形状为 (n_samples,),默认值为 None) – 用于监督学习问题的目标变量。
groups (array-like,形状为 (n_samples,),默认值为 None) – 用于在将数据集分割为训练集/测试集时使用的样本的分组标签。
- 生成
train (ndarray) – 该分割的训练集索引。
test (ndarray) – 该分割的测试集索引。
- class evalml.preprocessing.data_splitters.sk_splitters.StratifiedKFold(n_splits=5, *, shuffle=False, random_state=None)[source]#
sklearn Stratified KFold 分割器的包装类。
方法
获取此对象的元数据路由。
返回交叉验证器中的分割迭代次数。
返回数据分割器是否为交叉验证数据分割器。
生成将数据分割为训练集和测试集的索引。
- get_metadata_routing(self)#
获取此对象的元数据路由。
请查看 用户指南 了解路由机制的工作原理。
- 返回值
routing – 一个
MetadataRequest
对象,包含路由信息。- 返回类型
MetadataRequest
- get_n_splits(self, X=None, y=None, groups=None)#
返回交叉验证器中的分割迭代次数。
- 参数
X (object) – 始终忽略,仅为兼容性保留。
y (object) – 始终忽略,仅为兼容性保留。
groups (object) – 始终忽略,仅为兼容性保留。
- 返回值
n_splits – 返回交叉验证器中的分割迭代次数。
- 返回类型
int
- property is_cv(self)#
返回数据分割器是否为交叉验证数据分割器。
- 返回值
如果分割器是交叉验证数据分割器
- 返回类型
bool
- split(self, X, y, groups=None)[source]#
生成将数据分割为训练集和测试集的索引。
- 参数
X (array-like,形状为 (n_samples, n_features)) –
训练数据,其中 n_samples 是样本数量,n_features 是特征数量。
请注意,提供
y
足以生成分割,因此可以使用np.zeros(n_samples)
作为X
的占位符,而不是实际的训练数据。y (array-like,形状为 (n_samples,)) – 用于监督学习问题的目标变量。分层是基于 y 标签进行的。
groups (object) – 始终忽略,仅为兼容性保留。
- 生成
train (ndarray) – 该分割的训练集索引。
test (ndarray) – 该分割的测试集索引。
注意
随机化的 CV 分割器每次调用 split 方法可能会返回不同的结果。可以通过将 random_state 设置为整数来使结果相同。