time_series_pipeline_base#

时间序列问题的流水线基类。

模块内容#

类摘要#

TimeSeriesPipelineBase

时间序列问题的流水线基类。

内容#

class evalml.pipelines.time_series_pipeline_base.TimeSeriesPipelineBase(component_graph, parameters=None, custom_name=None, random_seed=0)[source]#

时间序列问题的流水线基类。

参数

component_graph (ComponentGraph, list, dict) – ComponentGraph 实例，按顺序排列的组件列表，或组件字典。接受列表中的字符串或 ComponentBase 子类。注意，当列表中指定重复组件时，重复组件的名称将根据组件在列表中的索引进行修改。例如，组件图 [Imputer, One Hot Encoder, Imputer, Logistic Regression Classifier] 的名称将是 [“Imputer”, “One Hot Encoder”, “Imputer_2”, “Logistic Regression Classifier”]。
parameters (dict) – 字典，以组件名称为键，以该组件参数的字典为值。空字典 {} 表示使用组件参数的所有默认值。流水线级别的参数，如 time_index、gap 和 max_delay，必须使用 “pipeline” 键指定。例如：Pipeline(parameters={“pipeline”: {“time_index”: “Date”, “max_delay”: 4, “gap”: 2}})。
random_seed (int) – 随机数生成器的种子。默认为 0。

属性

problem_type

None

方法

`can_tune_threshold_with_objective`	确定二元分类流水线的阈值是否可以调优。
`clone`	构建一个具有相同组件、参数和随机种子的新流水线。
`create_objectives`	从字符串列表或目标类创建目标实例。
`custom_name`	流水线的自定义名称。
`dates_needed_for_prediction`	返回预测未来给定日期所需的日期。
`dates_needed_for_prediction_range`	返回预测未来给定日期所需的日期。
`describe`	输出流水线详情，包括组件参数。
`feature_importance`	与每个特征相关的特征重要性。特征选择丢弃的特征将被排除。
`fit`	构建模型。
`fit_transform`	拟合并转换组件图中的所有组件，如果所有组件都是 Transformer。
`get_component`	按名称返回组件。
`get_hyperparameter_ranges`	将所有组件的超参数范围作为字典返回。
`graph`	生成表示流水线图的图像。
`graph_dict`	生成一个字典，其中节点包含组件名称和参数，边详细说明组件关系。在大多数情况下，此字典可以进行 JSON 序列化。
`graph_feature_importance`	生成流水线特征重要性的条形图。
`inverse_transform`	按相反顺序将组件的 inverse_transform 方法应用于估计器预测。
`load`	从文件路径加载流水线。
`model_family`	返回此流水线的模型族。
`name`	流水线的名称。
`new`	构建一个具有相同组件图但参数集不同的流水线新实例。不要与 Python 的 __new__ 方法混淆。
`parameters`	此流水线的参数字典。
`predict`	对目标未知的未来数据进行预测。
`predict_in_sample`	对已知目标的未来数据进行预测，例如交叉验证。
`save`	将流水线保存到文件路径。
`score`	评估模型在当前目标和附加目标上的性能。
`summary`	流水线结构的简短摘要，描述所使用的组件列表。
`transform`	转换输入。
`transform_all_but_final`	通过应用所有预处理组件来转换数据。

can_tune_threshold_with_objective(self, objective)#

确定二元分类流水线的阈值是否可以调优。

参数: objective (ObjectiveBase) – 主要的 AutoMLSearch 目标。
返回: 如果流水线阈值可以调优，则返回 True。
返回类型: bool

clone(self)#

构建一个具有相同组件、参数和随机种子的新流水线。

返回: 此流水线的一个新实例，具有相同的组件、参数和随机种子。

static create_objectives(objectives)#: 从字符串列表或目标类创建目标实例。

property custom_name(self)#: 流水线的自定义名称。

dates_needed_for_prediction(self, date)[source]#

返回预测未来给定日期所需的日期。

参数: date (pd.Timestamp) – 要预测的未来日期。
返回: 预测给定日期所需的日期范围。
返回类型: dates_needed (tuple(pd.Timestamp))

dates_needed_for_prediction_range(self, start_date, end_date)[source]#

返回预测未来给定日期所需的日期。

参数

start_date (pd.Timestamp) – 要预测的未来日期范围的开始日期。
end_date (pd.Timestamp) – 要预测的未来日期范围的结束日期。

返回

预测给定日期所需的日期范围。

返回类型

dates_needed (tuple(pd.Timestamp))

引发

ValueError – 如果 start_date 不在 end_date 之前

describe(self, return_dict=False)#

输出流水线详情，包括组件参数。

参数: return_dict (bool) – 如果为 True，返回包含流水线信息的字典。默认为 False。
返回: 如果 return_dict 为 True，则返回所有组件参数的字典，否则返回 None。
返回类型: dict

property feature_importance(self)#

与每个特征相关的特征重要性。特征选择丢弃的特征将被排除。

返回: 特征名称及其对应的重要性
返回类型: pd.DataFrame

abstract fit(self, X, y)#

构建模型。

参数

X (pd.DataFrame or np.ndarray) – 输入训练数据，形状为 [n_样本数, n_特征数]。
y (pd.Series, np.ndarray) – 目标训练数据，长度为 [n_样本数]。

返回

self

fit_transform(self, X, y)#

拟合并转换组件图中的所有组件，如果所有组件都是 Transformer。

参数

X (pd.DataFrame) – 输入特征，形状为 [n_样本数, n_特征数]。
y (pd.Series) – 目标数据，长度为 [n_样本数]。

返回

转换后的输出。

返回类型

pd.DataFrame

引发

ValueError – 如果最终组件是 Estimator。

get_component(self, name)#

按名称返回组件。

参数: name (str) – 组件名称。
返回: 要返回的组件
返回类型: Component

get_hyperparameter_ranges(self, custom_hyperparameters)#

将所有组件的超参数范围作为字典返回。

参数: custom_hyperparameters (dict) – 流水线的自定义超参数。
返回: 流水线中每个组件的超参数范围字典。
返回类型: dict

graph(self, filepath=None)#

生成表示流水线图的图像。

参数

filepath (str, optional) – 应保存图的路径。如果设置为 None（默认），则图不会保存。

返回

可以直接在 Jupyter notebook 中显示的图对象。

返回类型

graphviz.Digraph

引发

RuntimeError – 如果未安装 graphviz。
ValueError – 如果路径不可写。

graph_dict(self)#

生成一个字典，其中节点包含组件名称和参数，边详细说明组件关系。在大多数情况下，此字典可以进行 JSON 序列化。

x_edges 指定特征数据从哪个组件传递。y_edges 指定目标数据从哪个组件传递。这可用于跨各种可视化工具构建图。模板：{“Nodes”: {“组件名称”: {“名称”: 类名称, “参数”: 参数属性}, …}}, “x_edges”: [[源组件名称, 目标组件名称], [源组件名称, 目标组件名称], …], “y_edges”: [[源组件名称, 目标组件名称], [源组件名称, 目标组件名称], …]}。

返回: 表示 DAG 结构的字典。
返回类型: dag_dict (dict)

graph_feature_importance(self, importance_threshold=0)#

生成流水线特征重要性的条形图。

参数: importance_threshold (float, optional) – 如果提供，则绘制排列重要性的绝对值大于 importance_threshold 的特征图。默认为零。
返回: 显示特征及其对应重要性的条形图。
返回类型: plotly.Figure
引发: ValueError – 如果重要性阈值无效。

inverse_transform(self, y)#

按相反顺序将组件的 inverse_transform 方法应用于估计器预测。

实现 inverse_transform 的组件包括 PolynomialDecomposer、LogTransformer、LabelEncoder (待定)。

参数: y (pd.Series) – 最终组件特征。
返回: 目标的逆转换。
返回类型: pd.Series

static load(file_path: Union[str, io.BytesIO])#

从文件路径加载流水线。

参数: file_path (str|BytesIO) – 加载文件路径或 BytesIO 对象。
返回: PipelineBase 对象

property model_family(self)#: 返回此流水线的模型族。

property name(self)#: 流水线的名称。

new(self, parameters, random_seed=0)#

构建一个具有相同组件图但参数集不同的流水线新实例。不要与 Python 的 __new__ 方法混淆。

参数

parameters (dict) – 字典，以组件名称为键，以该组件参数的字典为值。空字典或 None 表示使用组件参数的所有默认值。默认为 None。
random_seed (int) – 随机数生成器的种子。默认为 0。

返回

此流水线的一个新实例，具有相同的组件。

property parameters(self)#

此流水线的参数字典。

返回: 所有组件参数的字典。
返回类型: dict

predict(self, X, objective=None, X_train=None, y_train=None)[source]#

对目标未知的未来数据进行预测。

参数

X (pd.DataFrame, or np.ndarray) – 数据，形状为 [n_样本数, n_特征数]。
objective (Object or string) – 用于进行预测的目标。
X_train (pd.DataFrame or np.ndarray or None) – 训练数据。
y_train (pd.Series or None) – 训练标签。

引发

ValueError – 如果 X_train 和/或 y_train 为 None，或者最终组件不是 Estimator。

返回

预测结果。

predict_in_sample(self, X, y, X_train, y_train, objective=None, calculating_residuals=False)[source]#

对已知目标的未来数据进行预测，例如交叉验证。

参数

X (pd.DataFrame or np.ndarray) – 未来数据，形状为 [n_样本数, n_特征数]
y (pd.Series, np.ndarray) – 未来目标，形状为 [n_样本数]
X_train (pd.DataFrame, np.ndarray) – 流水线训练使用的数据，形状为 [n_训练样本数, n_特征数]
y_train (pd.Series, np.ndarray) – 用于训练流水线的目标，形状为 [n_训练样本数]
objective (ObjectiveBase, str, None) – 用于对预测概率进行阈值处理的目标，可选。
calculating_residuals (bool) – 是否调用 predict_in_sample 来计算残差。这意味着 X 和 y 参数不是未来数据，而是实际的训练数据。

返回

估计标签。

返回类型

pd.Series

引发

ValueError – 如果最终组件不是 Estimator。

save(self, file_path, pickle_protocol=cloudpickle.DEFAULT_PROTOCOL)#

将流水线保存到文件路径。

参数

file_path (str) – 保存文件的位置。
pickle_protocol (int) – pickle 数据流格式。

abstract score(self, X, y, objectives, X_train=None, y_train=None)#

评估模型在当前目标和附加目标上的性能。

参数

X (pd.DataFrame or np.ndarray) – 数据，形状为 [n_样本数, n_特征数]。
y (pd.Series, np.ndarray) – 真实标签，长度为 [n_样本数]。
objectives (list) – 用于评分的非空目标列表。
X_train (pd.DataFrame or np.ndarray or None) – 训练数据。忽略。仅用于时间序列。
y_train (pd.Series or None) – 训练标签。忽略。仅用于时间序列。

返回

有序的目标得分字典。

返回类型

dict

property summary(self)#

流水线结构的简短摘要，描述所使用的组件列表。

示例：带 Simple Imputer + One Hot Encoder 的 Logistic Regression Classifier

返回: 描述流水线结构的字符串。

transform(self, X, y=None)#

转换输入。

参数

X (pd.DataFrame, or np.ndarray) – 数据，形状为 [n_样本数, n_特征数]。
y (pd.Series) – 目标数据，长度为 [n_样本数]。默认为 None。

返回

转换后的输出。

返回类型

pd.DataFrame

transform_all_but_final(self, X, y=None, X_train=None, y_train=None, calculating_residuals=False)[source]#

通过应用所有预处理组件来转换数据。

参数

X (pd.DataFrame) – 要转换为流水线的输入数据。
y (pd.Series) – 与流水线目标对应的目标。
X_train (pd.DataFrame) – 用于从过去观测生成生成器的训练数据。
y_train (pd.Series) – 用于从过去观测生成特征的训练目标。
calculating_residuals (bool) – 是否调用 predict_in_sample 来计算残差。这意味着 X 和 y 参数不是未来数据，而是实际的训练数据。

返回

新的转换后特征。

返回类型

pd.DataFrame