回归管道#

所有回归管道的Pipeline子类。

模块内容#

类摘要#

RegressionPipeline

所有回归管道的Pipeline子类。

内容#

class evalml.pipelines.regression_pipeline.RegressionPipeline(component_graph, parameters=None, custom_name=None, random_seed=0)[source]#

所有回归管道的Pipeline子类。

参数

component_graph (ComponentGraph, list, dict) – ComponentGraph实例，按顺序排列的组件列表，或组件字典。接受列表中的字符串或ComponentBase子类。注意，当列表中指定重复组件时，重复组件的名称将根据其在列表中的索引进行修改。例如，组件图[Imputer, One Hot Encoder, Imputer, Logistic Regression Classifier]的名称将变为[“Imputer”, “One Hot Encoder”, “Imputer_2”, “Logistic Regression Classifier”]
parameters (dict) – 字典，其中键是组件名称，值是该组件参数的字典。空字典或None表示使用组件参数的所有默认值。默认为None。
custom_name (str) – 管道的自定义名称。默认为None。
random_seed (int) – 随机数生成器的种子。默认为0。

示例

>>> pipeline = RegressionPipeline(component_graph=["Simple Imputer", "Linear Regressor"],
...                               parameters={"Simple Imputer": {"impute_strategy": "mean"}},
...                               custom_name="My Regression Pipeline")
...
>>> assert pipeline.custom_name == "My Regression Pipeline"
>>> assert pipeline.component_graph.component_dict.keys() == {'Simple Imputer', 'Linear Regressor'}

除非像上面那样传入了特定参数，否则管道参数将从每个组件的默认参数中选择。

>>> assert pipeline.parameters == {
...     'Simple Imputer': {'impute_strategy': 'mean', 'fill_value': None},
...     'Linear Regressor': {'fit_intercept': True, 'n_jobs': -1}}

属性

problem_type

ProblemTypes.REGRESSION

方法

`can_tune_threshold_with_objective`	确定二元分类管道的阈值是否可以调整。
`clone`	构造一个具有相同组件、参数和随机种子的新管道。
`create_objectives`	从字符串列表或目标类创建目标实例。
`custom_name`	管道的自定义名称。
`describe`	输出管道详细信息，包括组件参数。
`feature_importance`	与每个特征相关的重要性。特征选择丢弃的特征将被排除。
`fit`	构建回归模型。
`fit_transform`	拟合并转换组件图中的所有组件，如果所有组件都是Transformer。
`get_component`	按名称返回组件。
`get_hyperparameter_ranges`	以字典形式返回所有组件的超参数范围。
`graph`	生成表示管道图的图像。
`graph_dict`	生成一个字典，其中节点包含组件名称和参数，边缘详细说明组件关系。在大多数情况下，此字典是JSON可序列化的。
`graph_feature_importance`	生成管道特征重要性的条形图。
`inverse_transform`	按逆序将组件的inverse_transform方法应用于估计器预测。
`load`	从文件路径加载管道。
`model_family`	返回此管道的模型族。
`名字`	管道名称。
`new`	构造一个具有相同组件图但参数集不同的新管道实例。不要与python的__new__方法混淆。
`parameters`	此管道的参数字典。
`predict`	使用选定的特征进行预测。
`save`	将管道保存到文件路径。
`score`	评估模型在当前和附加目标函数上的性能。
`summary`	管道结构的简短摘要，描述了使用的组件列表。
`transform`	转换输入。
`transform_all_but_final`	通过应用所有预处理组件来转换数据。

can_tune_threshold_with_objective(self, objective)#

确定二元分类管道的阈值是否可以调整。

参数: objective (ObjectiveBase) – 主要的AutoMLSearch目标函数。
返回值: 如果管道阈值可以调整，则为True。
返回类型: bool

clone(self)#

构造一个具有相同组件、参数和随机种子的新管道。

返回值: 此管道的一个新实例，具有相同的组件、参数和随机种子。

static create_objectives(objectives)#: 从字符串列表或目标类创建目标实例。

property custom_name(self)#: 管道的自定义名称。

describe(self, return_dict=False)#

输出管道详细信息，包括组件参数。

参数: return_dict (bool) – 如果为True，返回包含管道信息的字典。默认为False。
返回值: 如果return_dict为True，则返回所有组件参数的字典，否则为None。
返回类型: dict

property feature_importance(self)#

与每个特征相关的重要性。特征选择丢弃的特征将被排除。

返回值: 特征名称及其对应的重要性
返回类型: pd.DataFrame

fit(self, X, y)[source]#

构建回归模型。

参数

X (pd.DataFrame or np.ndarray) – 输入训练数据，形状为[n_样本数, n_特征数]
y (pd.Series, np.ndarray) – 目标训练数据，长度为[n_样本数]

返回值

self

抛出

ValueError – 如果目标不是数值类型。

fit_transform(self, X, y)#

拟合并转换组件图中的所有组件，如果所有组件都是Transformer。

参数

X (pd.DataFrame) – 输入特征，形状为[n_样本数, n_特征数]。
y (pd.Series) – 目标数据，长度为[n_样本数]。

返回值

转换后的输出。

返回类型

pd.DataFrame

抛出

ValueError – 如果最终组件是Estimator。

get_component(self, name)#

按名称返回组件。

参数: name (str) – 组件名称。
返回值: 要返回的组件
返回类型: Component

get_hyperparameter_ranges(self, custom_hyperparameters)#

以字典形式返回所有组件的超参数范围。

参数: custom_hyperparameters (dict) – 管道的自定义超参数。
返回值: 管道中每个组件的超参数范围字典。
返回类型: dict

graph(self, filepath=None)#

生成表示管道图的图像。

参数

filepath (str, optional) – 应保存图的文件路径。如果设置为None（默认值），则不会保存图。

返回值

可在Jupyter notebook中直接显示的图对象。

返回类型

graphviz.Digraph

抛出

RuntimeError – 如果graphviz未安装。
ValueError – 如果路径不可写。

graph_dict(self)#

生成一个字典，其中节点包含组件名称和参数，边缘详细说明组件关系。在大多数情况下，此字典是JSON可序列化的。

x_edges指定从哪个组件传递特征数据。y_edges指定从哪个组件传递目标数据。这可用于在各种可视化工具中构建图。模板：{“Nodes”: {“component_name”: {“Name”: class_name, “Parameters”: parameters_attributes}, …}}, “x_edges”: [[from_component_name, to_component_name], [from_component_name, to_component_name], …], “y_edges”: [[from_component_name, to_component_name], [from_component_name, to_component_name], …]}

返回值: 表示DAG结构的字典。
返回类型: dag_dict (dict)

graph_feature_importance(self, importance_threshold=0)#

生成管道特征重要性的条形图。

参数: importance_threshold (float, optional) – 如果提供，则绘制置换重要性绝对值大于importance_threshold的特征。默认为零。
返回值: 显示特征及其对应重要性的条形图。
返回类型: plotly.Figure
抛出: ValueError – 如果重要性阈值无效。

inverse_transform(self, y)#

按逆序将组件的inverse_transform方法应用于估计器预测。

实现inverse_transform的组件有PolynomialDecomposer、LogTransformer、LabelEncoder (待定)。

参数: y (pd.Series) – 最终组件的特征。
返回值: 目标的逆转换结果。
返回类型: pd.Series

static load(file_path: Union[str, io.BytesIO])#

从文件路径加载管道。

参数: file_path (str|BytesIO) – 加载文件路径或BytesIO对象。
返回值: PipelineBase对象

property model_family(self)#: 返回此管道的模型族。

property name(self)#: 管道名称。

new(self, parameters, random_seed=0)#

构造一个具有相同组件图但参数集不同的新管道实例。不要与python的__new__方法混淆。

参数

parameters (dict) – 字典，其中键是组件名称，值是该组件参数的字典。空字典或None表示使用组件参数的所有默认值。默认为None。
random_seed (int) – 随机数生成器的种子。默认为0。

返回值

此管道的一个新实例，具有相同的组件。

property parameters(self)#

此管道的参数字典。

返回值: 所有组件参数的字典。
返回类型: dict

predict(self, X, objective=None, X_train=None, y_train=None)[source]#

使用选定的特征进行预测。

参数

X (pd.DataFrame, or np.ndarray) – 数据，形状为[n_样本数, n_特征数]。
objective (Object or string) – 用于进行预测的目标函数。
X_train (pd.DataFrame or np.ndarray or None) – 训练数据。忽略。仅用于时间序列。
y_train (pd.Series or None) – 训练标签。忽略。仅用于时间序列。

返回值

预测值。

返回类型

pd.Series

save(self, file_path, pickle_protocol=cloudpickle.DEFAULT_PROTOCOL)#

将管道保存到文件路径。

参数

file_path (str) – 保存文件的位置。
pickle_protocol (int) – pickle数据流格式。

score(self, X, y, objectives, X_train=None, y_train=None)[source]#

评估模型在当前和附加目标函数上的性能。

参数

X (pd.DataFrame, or np.ndarray) – 数据，形状为[n_样本数, n_特征数]
y (pd.Series, or np.ndarray) – 真实值，长度为[n_样本数]
objectives (list) – 用于评分的非空目标函数列表
X_train (pd.DataFrame or np.ndarray or None) – 训练数据。忽略。仅用于时间序列。
y_train (pd.Series or None) – 训练标签。忽略。仅用于时间序列。

返回值

目标函数评分的有序字典。

返回类型

dict

property summary(self)#

管道结构的简短摘要，描述了使用的组件列表。

示例：带有Simple Imputer + One Hot Encoder的Logistic Regression Classifier

返回值: 描述管道结构的字符串。

transform(self, X, y=None)#

转换输入。

参数

X (pd.DataFrame, or np.ndarray) – 数据，形状为[n_样本数, n_特征数]。
y (pd.Series) – 目标数据，长度为[n_样本数]。默认为None。

返回值

转换后的输出。

返回类型

pd.DataFrame

transform_all_but_final(self, X, y=None, X_train=None, y_train=None)#

通过应用所有预处理组件来转换数据。

参数

X (pd.DataFrame) – 要由管道转换的输入数据。
y (pd.Series or None) – 与X对应的目标。可选。
X_train (pd.DataFrame or np.ndarray or None) – 训练数据。仅用于时间序列。
y_train (pd.Series or None) – 训练标签。仅用于时间序列。

返回值

新转换的特征。

返回类型

pd.DataFrame