feature_explanations#

人类可读的管道解释。

模块内容#

函数#

get_influential_features

从特征重要性数据框中找到最有影响力的特征以及任何有害的特征。

readable_explanation

输出经过训练的管道行为的人类可读解释。

目录#

evalml.model_understanding.feature_explanations.get_influential_features(imp_df, max_features=5, min_importance_threshold=0.05, linear_importance=False)[source]#

从特征重要性数据框中找到最有影响力的特征以及任何有害的特征。

参数
  • imp_df (pd.DataFrame) – 包含特征名称和相关重要性的数据框。

  • max_features (int) – 解释中包含的最大特征数量。默认为 5。

  • min_importance_threshold (float) – 单个特征被视为重要所需的总重要性的最低百分比。默认为 0.05。

  • linear_importance (bool) – 为 True 时,负的特征重要性不被视为有害。默认为 False。

返回

分别对应高度影响力、中度影响力以及有害特征的特征名称列表。

返回类型

(list, list, list)

evalml.model_understanding.feature_explanations.readable_explanation(pipeline, X=None, y=None, importance_method='permutation', max_features=5, min_importance_threshold=0.05, objective='auto')[source]#

输出经过训练的管道行为的人类可读解释。

参数
  • pipeline (PipelineBase) – 要解释的管道。

  • X (pd.DataFrame) – 如果 importance_method 是 permutation,则用于计算重要性的留出集 X 数据。否则忽略。

  • y (pd.Series) – 留出集 y 数据,用于获取目标类别的名称。如果 importance_method 是 permutation,则用于计算重要性。

  • importance_method (str) – 确定特征重要性的方法。选项之一为 [“permutation”, “feature”]。默认为 “permutation”。

  • max_features (int) – 解释中包含的最大影响力特征数量。这不影响报告的有害特征数量。默认为 5。

  • min_importance_threshold (float) – 单个特征被视为重要所需的总重要性的最低百分比。默认为 0.05。

  • objective (str, ObjectiveBase) – 如果 importance_method 是 permutation,则用于计算目标的重要性。否则忽略,默认为 “auto”。

引发

ValueError – 如果传入的任何参数无效或管道未拟合。