dask_engine#

对 DaskEngine 创建的作业的类似 Future 的包装器。

模块内容#

类摘要#

DaskComputation

对 DaskEngine 创建的作业的类似 Future 的包装器。

DaskEngine

Dask 引擎。

内容#

class evalml.automl.engine.dask_engine.DaskComputation(dask_future)[source]#

对 DaskEngine 创建的作业的类似 Future 的包装器。

参数

dask_future (callable) – 要进行的计算。

方法

cancel

取消当前计算。

done

返回计算是否完成。

get_result

获取计算结果。将阻塞直到计算完成。

is_cancelled

返回计算是否已取消。

cancel(self)[source]#

取消当前计算。

done(self)[source]#

返回计算是否完成。

get_result(self)[source]#

获取计算结果。将阻塞直到计算完成。

引发

Exception – 如果计算失败。返回追踪信息。

返回

计算结果。

property is_cancelled(self)#

返回计算是否已取消。

class evalml.automl.engine.dask_engine.DaskEngine(cluster=None)[source]#

Dask 引擎。

参数

cluster (Nonedd.Client) – 如果为 None,则创建本地线程化的 Dask 客户端进行处理。默认为 None。

方法

close

关闭底层集群。

is_closed

属性,确定 Engine 的 Client 的资源是否已关闭。

send_data_to_cluster

将数据发送到集群。

setup_job_log

设置作业日志记录器。

submit_evaluation_job

将评估作业发送到集群。

submit_scoring_job

将评分作业发送到集群。

submit_training_job

将训练作业发送到集群。

close(self)[source]#

关闭底层集群。

property is_closed(self)#

属性,确定 Engine 的 Client 的资源是否已关闭。

send_data_to_cluster(self, X, y)[source]#

将数据发送到集群。

该实现使用缓存,因此数据仅发送一次。这遵循了 dask 的最佳实践。

参数
  • X (pd.DataFrame) – 用于建模的输入数据。

  • y (pd.Series) – 用于建模的目标数据。

返回

建模数据。

返回类型

dask.Future

static setup_job_log()#

设置作业日志记录器。

submit_evaluation_job(self, automl_config, pipeline, X, y, X_holdout=None, y_holdout=None)[source]#

将评估作业发送到集群。

参数
  • automl_config – 包含从 AutoMLSearch 实例传递的数据的结构。

  • pipeline (pipeline.PipelineBase) – 要评估的管道。

  • X (pd.DataFrame) – 用于建模的输入数据。

  • y (pd.Series) – 用于建模的目标数据。

  • X_holdout (pd.Series) – 用于留出法评分的留出输入数据。

  • y_holdout (pd.Series) – 用于留出法评分的留出目标数据。

返回

一个对象,包装了对发生在 dask 集群中的类似 Future 的计算的引用。

在 Dask 集群中发生。

返回类型

DaskComputation

submit_scoring_job(self, automl_config, pipeline, X, y, objectives, X_train=None, y_train=None)[source]#

将评分作业发送到集群。

参数
  • automl_config – 包含从 AutoMLSearch 实例传递的数据的结构。

  • pipeline (pipeline.PipelineBase) – 要训练的管道。

  • X (pd.DataFrame) – 用于建模的输入数据。

  • y (pd.Series) – 用于建模的目标数据。

  • X_train (pd.DataFrame) – 训练特征。用于时间序列中的特征工程。

  • y_train (pd.Series) – 训练目标。用于时间序列中的特征工程。

  • objectives (list[ObjectiveBase]) – 要进行评分的目标列表。

返回

一个对象,包装了对发生在 dask 集群中的类似 Future 的计算的引用。

在 Dask 集群中发生。

返回类型

DaskComputation

submit_training_job(self, automl_config, pipeline, X, y)[source]#

将训练作业发送到集群。

参数
  • automl_config – 包含从 AutoMLSearch 实例传递的数据的结构。

  • pipeline (pipeline.PipelineBase) – 要训练的管道。

  • X (pd.DataFrame) – 用于建模的输入数据。

  • y (pd.Series) – 用于建模的目标数据。

返回

一个对象,包装了对发生在 dask 集群中的类似 Future 的计算的引用。

在 Dask 集群中发生。

返回类型

DaskComputation