multiclass_classification_objective#

所有多类别分类目标的基类。

模块内容#

类摘要#

MulticlassClassificationObjective

所有多类别分类目标的基类。

目录#

class evalml.objectives.multiclass_classification_objective.MulticlassClassificationObjective[源代码]#

所有多类别分类目标的基类。

属性

problem_types

[ProblemTypes.MULTICLASS, ProblemTypes.TIME_SERIES_MULTICLASS]

方法

calculate_percent_difference

计算分数之间的百分比差异。

expected_range

返回目标的预期范围,这不一定是可能的范围。

greater_is_better

返回一个布尔值,表示分数越大是否表示模型性能越好。

is_bounded_like_percentage

返回此目标是否限制在 0 到 1(包括)之间。

is_defined_for_problem_type

返回是否为某种问题类型定义了目标。

name

返回描述目标的名称。

objective_function

根据指定的指标,计算所提供的预测与实际标签相比的相对值。

perfect_score

返回通过在完美模型上评估此目标获得的分数。

positive_only

如果为 True,则此目标仅对正向数据有效。默认为 False。

score

返回一个数值分数,根据预测值和实际值之间的差异指示性能。

score_needs_proba

返回一个布尔值,表示 score() 方法是否需要概率估计。

validate_inputs

基于一些简单检查验证输入。

classmethod calculate_percent_difference(cls, score, baseline_score)#

计算分数之间的百分比差异。

参数
  • score (float) – 分数。此目标 score 方法的输出。

  • baseline_score (float) – 分数。此目标 score 方法的输出。实际上,这是使用基线估计器在此目标上获得的分数。

返回

分数之间的百分比差异。请注意,对于可解释

为百分比的目标,这将是参考分数与分数之间的差异。对于所有其他目标,差异将按参考分数进行归一化。

返回类型

float

property expected_range(cls)#

返回目标的预期范围,这不一定是可能的范围。

例如,我们预期的 R2 范围是 [-1, 1],尽管实际范围是 (-inf, 1]。

property greater_is_better(cls)#

返回一个布尔值,表示分数越大是否表示模型性能越好。

property is_bounded_like_percentage(cls)#

返回此目标是否限制在 0 到 1(包括)之间。

classmethod is_defined_for_problem_type(cls, problem_type)#

返回是否为某种问题类型定义了目标。

property name(cls)#

返回描述目标的名称。

abstract classmethod objective_function(cls, y_true, y_predicted, y_train=None, X=None, sample_weight=None)#

根据指定的指标,计算所提供的预测与实际标签相比的相对值。

参数
  • y_predicted (pd.Series) – 预测值,长度为 [n_samples]

  • y_true (pd.Series) – 实际类别标签,长度为 [n_samples]

  • y_train (pd.Series) – 观察到的训练值,长度为 [n_samples]

  • X (pd.DataFramenp.ndarray) – 计算分数所需的额外数据,形状为 [n_samples, n_features]

  • sample_weight (pd.DataFramenp.ndarray) – 用于计算目标值结果的样本权重

返回

用于计算分数的数值

property perfect_score(cls)#

返回通过在完美模型上评估此目标获得的分数。

positive_only(cls)#

如果为 True,则此目标仅对正向数据有效。默认为 False。

score(self, y_true, y_predicted, y_train=None, X=None, sample_weight=None)#

返回一个数值分数,根据预测值和实际值之间的差异指示性能。

参数
  • y_predicted (pd.Series) – 预测值,长度为 [n_samples]

  • y_true (pd.Series) – 实际类别标签,长度为 [n_samples]

  • y_train (pd.Series) – 观察到的训练值,长度为 [n_samples]

  • X (pd.DataFramenp.ndarray) – 计算分数所需的额外数据,形状为 [n_samples, n_features]

  • sample_weight (pd.DataFramenp.ndarray) – 用于计算目标值结果的样本权重

返回

score

property score_needs_proba(cls)#

返回一个布尔值,表示 score() 方法是否需要概率估计。

对于使用预测概率(如对数损失或 AUC)的目标,这应为 True;对于比较预测类别标签与实际标签(如 F1 或相关性)的目标,这应为 False。

validate_inputs(self, y_true, y_predicted)#

基于一些简单检查验证输入。

参数
  • y_predicted (pd.Series, 或 pd.DataFrame) – 预测值,长度为 [n_samples]。

  • y_true (pd.Series) – 实际类别标签,长度为 [n_samples]。

抛出

ValueError – 如果输入格式错误。