发行说明#

未来版本
  • 增强功能

  • 修复

  • 变更

  • 文档变更

  • 测试变更

警告

重大变更

v0.84.0 2024年6月6日
  • 增强功能
    • 使用更新的 black 版本重新格式化文件 #4395

  • 修复
    • 修复了与 pypi 发布 github action 失败相关的 token 问题 #4446

  • 变更
    • 停止支持 Python 3.8 #4414

    • 移除 vowpalwabbit #4427

    • 取消 holidays 版本上限 #4428

    • 取消 kaleido 版本绑定 #4423

    • 取消 shap 和 scipy 版本绑定 #4436

    • 取消了 project.optional-dependencies 下大部分已绑定的依赖版本 #4431

  • 文档变更

  • 测试变更
    • 增加了在 Python 3.9 中运行 airflow 测试的能力 #4391

    • 从 airflow 运行中移除迭代测试 #4424

    • 更新了 GH actions 以改进对潜在不安全变量的处理 #4417

    • 修复安装测试 #4423

警告

重大变更
  • 停止支持 Python 3.8 #4414

  • 移除 vowpalwabbit #4427

v0.83.0 2024年2月2日
  • 增强功能
    • 为多序列数据集增加了对额外估算器的支持 #4385

  • 修复
    • 修复了 _downcast_nullable_y 中的 bug,该 bug 导致 woodwork 初始化问题 #4369

    • 修复了多序列预测区间标签 #4377

  • 变更
    • 绑定 scipy 版本低于 1.12.0 #4380

  • 文档变更

  • 测试变更

警告

重大变更

v0.82.0 2023年11月3日
  • 增强功能
    • 更改了目标名称/序列 ID 分隔符,并增加了在预测中返回序列 ID 列的能力 #4357

  • 修复

  • 变更
    • 绑定 networkx 版本低于 3.2 以保证 Python 版本兼容性 #4351

  • 文档变更
    • 在文档用户指南中增加了多序列时间序列部分 #4355

    • 更新了发布指南,包含关于修复 github actions 的 FAQ 部分 #4346

  • 测试变更

警告

重大变更

v0.81.1 2023年10月16日
  • 增强功能

  • 修复
    • 修复了与 pypi 发布 github action 失败相关的 bug #4330

    • 修复了与 conda build github action 相关的 bug #4335 #4337, #4338, #4340

  • 变更

  • 文档变更

  • 测试变更
    • 更新了最新依赖更新的评审者 #4309

警告

重大变更

v0.81.0 2023年10月5日
  • 增强功能
    • 扩展 STLDecomposer 以支持多序列 #4253

    • 扩展 TimeSeriesImputer 以支持多序列 #4291

    • 增加了数据检查以检查多序列中不匹配的序列长度 #4296

    • 将 STLDecomposer 添加到多序列管道中 #4299

    • 扩展 DateTimeFormatCheck 数据检查以支持多序列 #4300

    • 扩展 TimeSeriesRegularizer 以支持多序列 #4303

  • 修复
    • 修复了多序列的预测期生成函数 #4320

    • 修复了 STLDecomposer.inverse_transform 中的 bug,该 bug 导致季节性预测不正确 #4328

  • 变更
    • 更新了 split_data 以在传递堆叠多序列数据时调用 split_multiseries_data #4312

    • 绑定 pandas 版本低于 2.1.0 #4315

    • 提高了最低 numpy 版本 #4321

  • 文档变更
    • 移除了 LightGBM 过多的警告 #4308

  • 测试变更
    • 移除了旧的性能测试工作流程 #4318

警告

重大变更

v0.80.0 2023年8月30日
  • 增强功能
    • 为 VARMAX 回归器增加了预测区间支持 #4267

    • 将多序列时间序列集成到 AutoMLSearch 中 #4270

  • 修复
    • 修复了在堆叠没有外生变量的数据时出现的错误 #4275

  • 变更
    • 更新了 ARIMARegressor 以兼容 sktime v0.22.0 及更高版本 #4283

    • 更新了 graph_prediction_vs_actual_over_time() 以兼容多序列时间序列 #4284

    • 更新了 excluded_model_families 以接受包含 strModelFamily 数据类型的列表 #4287

    • 取消 ipywidgets 版本绑定 #4288

  • 文档变更
    • 移除了数据检查用户指南页面中的错误警告,并移除了所有笔记本中的 tqdm 警告 #4274

  • 测试变更

警告

重大变更

v0.79.0 2023年8月11日
  • 增强功能
    • 更新了回归指标,使其能够处理多输出数据框以及单输出序列 #4233

    • 为多序列时间序列问题增加了基线回归器 #4246

    • 增加了堆叠和反堆叠实用函数以处理多序列数据 #4250

    • 增加了多序列回归管道类 #4256

    • 增加了多序列 VARMAX 回归器 #4238

  • 修复
    • 增加了对 pandas 2 的支持 #4216

    • 修复了时间序列管道因 MASE 在评分时需要 y_train 而失败的 bug #4258

    • 更新了文档图片的 s3 bucket #4260

    • 修复了 deps checker 包含名称中带有 post 的任何包的问题 #4268

  • 变更
    • 取消 sktime 版本绑定 #4214

    • 提高了 lightgbm 的最低版本至 4.0.0 以支持可空类型处理 #4237

    • 由于与绑定的 imbalanced-learn 不兼容,绑定了 scikit-learn 版本 #4248

  • 文档变更

  • 测试变更

警告

重大变更

v0.78.0 2023年7月10日
  • 增强功能
    • 向 AutoMLSearch 和 Default Algorithm 添加了 run_feature_selection #4210

    • SMAPE 添加到时间序列问题的标准指标中 #4220

    • 向目标中添加了 MASE 指标和 y_train 参数 #4221

  • 修复
    • IDColumnsDataCheck 现在支持 Unknown 数据类型 #4203

  • 变更
    • 将最低 SHAP 版本升级到 0.42.0 并取消了 numpy 版本绑定 #4228

  • 文档变更
    • 更新了 API 参考 #4213

警告

重大变更
  • 从 AutoML search 中移除了 Decision Tree 和 CatBoost 估算器 #4205

  • 从默认算法中移除了第一个批次 #4215

v0.77.0 2023年6月7日
  • 增强功能
    • 增加了 check_distribution 函数,用于确定预测分布是否与真实分布匹配 #4184

    • 增加了 get_recommendation_score_breakdown 函数,用于获取推荐得分的详细信息 #4188

    • 向 AutoMLSearch() 中添加了 excluded_model_families 参数 #4196

    • 增加了在 IDColumnsDataCheck 中排除时间索引的选项 #4194

  • 修复
    • 修复了 ARIMARegressor 实现中的小错误 #4186

    • 修复了 get_forecast_period 以正确处理 gap 参数 #4200

  • 变更

  • 文档变更

  • 测试变更
    • 通过 Airflow 在合并时运行 looking glass 性能测试 #4198

v0.76.0 2023年5月9日
  • 增强功能
    • 向 AutoMLSearch 中添加了可选的 recommendation_score 用于对管道进行排名 #4156

    • 为 PipelinBase.load() 添加了 BytesIO 支持 #4179

  • 修复
    • 将 numpy 版本上限临时限制在 <=1.23.5 作为对 SHAP 的临时措施 #4172

    • 更新了我们的 readthedocs 配置以重新启用构建 #4177

v0.75.0 2023年5月1日
  • 修复
    • 修复了重置保留数据集索引导致时间序列 predict_in_sample 不正确的 bug #4161

  • 变更
    • 将每个管道的计时更改为存储为浮点数 #4160

    • 更新了 pyproject.toml 中的 Dask 安装命令 #4164

    • IPython 版本上限限制在 < 8.12.1 以兼容 readthedocs 和 plotly #3987

v0.74.0 2023年4月18日
  • 增强功能
    • 将搜索期间计算的 additional_objectives 保存到 AutoML 对象 #4141

    • 移除额外的朴素管道 #4142

  • 修复
    • 修复了 uploader 弃用后 codecov 的使用问题 #4144

    • 修复了由于索引错误导致预测区间变为 NaNs 的问题 #4154

  • 变更
    • 限制了用于确定是否在管道中包含 STLDecomposer 的季节期大小 #4147

v0.73.0 2023年4月10日
  • 增强功能
    • 允许 InvalidTargetDataCheck 返回 DROP_ROWS DataCheckActionOption #4116

    • 使用朴素方法为非时间序列原生管道实现了预测区间 #4127

  • 变更
    • 在处理可空类型之前,移除了 imputer 组件中不必要的逻辑 #4038, #4043

    • 在需要时,在组件的 fit、transform 和 predict 方法中添加了对 _handle_nullable_types 的调用 #4046, #4043

    • 移除了 AutoMLSearch 中现有的可空类型处理,仅使用新的处理方式 #4085, #4043

    • 处理了 Decomposer 中的可空类型不兼容性问题 #4105, #4043

    • 移除了 ARIMA 和 ExponentialSmoothingRegressor 的可空类型不兼容性处理 #4129

    • InvalidTargetDataChecknull_strategy 的默认值更改为 drop #4131

    • 将 sktime 版本绑定到 0.17.0 以支持可空类型 #4137

  • 测试变更
    • 修复了 linux nightly 测试中 prophet 的安装问题 #4114

v0.72.0 2023年3月27日
  • 增强功能
    • 更新了 pipeline.get_prediction_intervals() 以添加来自 STL 分解器的趋势预测区间信息 #4093

    • TargetLeakageDataCheck 添加了 method=all 支持 #4106

  • 修复
    • 修复了集成管道无法与 generate_pipeline_example 一起工作的 bug #4102

  • 变更
    • 将 ipywidgets 版本绑定在 8.0.5 以下 #4097

    • 通过四舍五入而不是截断分数值来计算整数数据的偏依赖网格值 #4096

  • 测试变更
    • 更新了 GitHub 工作流程中的 graphviz 安装以修复 windows nightlies 问题 #4088

v0.71.0 2023年3月17日*
  • 修复
    • 修复了 PipelineBase._supports_fast_permutation_importance 在堆叠集成管道中出现的错误 #4083

v0.70.0 2023年3月16日
  • 变更
    • 添加了 Oversampler 在 X 中的可空类型不兼容性 #4068

    • 从目标函数、roc_curvecorrelation_matrix 中移除了可空处理 #4072

    • 直接从 prophet-prebuilt 切换到 prophet #4045

v0.69.0 2023年3月15日
  • 增强功能
    • 将 black 移至常规依赖项,并将其用于 generate_pipeline_code #4005

    • 实现了 generate_pipeline_example #4023

    • 为组件特定的可空类型处理添加了新的 downcast 工具,并开始在目标和组件基类上实现 #4024

    • 为需要可空类型不兼容性属性的组件添加了这些属性 #4031

    • 添加了 get_evalml_requirements_file #4034

    • 如果 DFS 特征预先存在,带有 DFS Transformers 的管道将运行快速置换重要性 #4037

    • 在管道级别添加了 get_prediction_intervals() #4052

  • 修复
    • 修复了 generate_pipeline_example 在包含 DFSTransformer 的管道中出错的 bug #4059

    • 移除了 OverSampler 的可空类型处理 #4064

  • 变更
    • 取消了 pmdarima 版本上限并更新了最低版本 #4027

    • 提高了 catboost 最低版本至 1.1.1 和 xgboost 最低版本至 1.7.0,以增加对这些估算器的可空类型支持 #3996

    • 取消了 networkx 版本绑定并更新了最低版本 #4035

    • 提高了 scikit-learn 版本至 1.2.2 #4064

    • holidays 最大版本限制在 0.21 #4064

    • 停止允许将 knn 作为布尔值的填充策略 #4058

    • nbsphinx 版本上限限制在 < 0.9.0 #4071

  • 测试变更
    • 在合并到主分支时使用 release.yaml 进行性能测试 #4007

    • github-action-check-linked-issues 版本绑定在 v1.4.5 #4042

    • 更新了测试以支持 Woodwork 对数值列的对象 dtype 推断 #4066

    • 更新了 TargetLeakageDataCheck 测试以正确处理布尔目标 #4066

v0.68.0 2023年2月15日
  • 增强功能
    • determine_periodicity 集成到 AutoMLSearch#3952

    • 移除了使用 STLDecomposer 进行分解的频率限制 #3952

  • 变更
    • 移除 requirements-parser 要求 #3978

    • 更新了 SKOptTuner,改用梯度提升回归器进行调优,而不是使用 extra trees #3983

    • 取消了 sktime 低于 1.2 的版本绑定,并将最低版本提高到 1.2.1 #3983

  • 测试变更
    • 向 CI 工作流程添加了链接问题的 pull request 检查 #3970, #3980

    • 将最低 IPython 版本升级到 8.10.0 #3987

v0.67.0 2023年1月31日
  • 修复
    • 重新添加了 TimeSeriesPipeline.should_skip_featurization,以修复数据被不必要地特征化的 bug #3964

    • 允许将浮点类别传递给 CatBoost 估算器 #3966

  • 变更
    • 更新 pyproject.toml 以正确指定数据文件路径 #3967

  • 文档变更
    • 添加了预测区间的演示 #3954

v0.66.1 2023年1月26日
  • 修复
    • 更新了 LabelEncoder 以存储原始类型信息 #3960

    • 修复了全为 null 的 BooleanNullable 列会在 transform 期间破坏 imputer 的 bug #3959

v0.66.0 2023年1月24日
  • 增强功能
    • 改进了 decomposer determine_periodicity 功能,以更好地猜测周期 #3912

    • 为时间序列管道添加了 dates_needed_for_prediction #3906

    • 添加了 RFClassifierRFESelectorRFRegressorRFESelector 组件,用于使用递归特征消除进行特征选择 #3934

    • 为时间序列管道添加了 dates_needed_for_prediction_range #3941

  • 修复
    • 修复了 set_period() 未更新 decomposer 参数的 bug #3932

    • 移除了 DefaultAlgorithm 中时间序列问题的第二个相同批次 #3936

    • 修复了 alteryx-open-src-update-checker 的安装命令 #3940

    • 修复了 test_components_can_be_used_for_partial_dependence_fast_mode 的非 prophet 情况 #3949

  • 变更
    • 更新了 PolynomialDecomposer 以兼容 sktime v0.15.1 #3930

    • 添加 ruff 并使用 pyproject.toml (不再使用 setup.cfg) #3928

    • category-encoders` 版本绑定到 2.5.1.post0 #3933

    • 从核心要求中移除 requirements-parser 和 tomli #3948

v0.65.0 2023年1月3日
  • 增强功能
    • 为支持时间序列回归的估算器增加了获取预测区间的能力 #3876

    • 增加了用于处理阈值调优目标和数据重分逻辑的工具 #3888

    • OrdinalEncoder 集成到 AutoMLSearch 中 #3765

  • 修复
    • 修复了 ARIMA 未考虑训练数据结束时的预测间隔的 bug #3884

    • 修复了当未选择分类列时 DefaultAlgorithm 添加了额外的 OneHotEncoder 的 bug #3914

  • 变更
    • DateTimeFormatDataCheck 添加了阈值,以考虑过多的重复或 nan 值 #3883

    • 更改了 SimpleImputerClassImbalanceDataCheckBoolean 列的处理方式,以兼容新的 Woodwork 推断 #3892

    • 将 decomposer 的 seasonal_period 参数拆分为 seasonal_smootherperiod 参数 #3896

    • 由于 403 错误,从断链检查工作流程中排除了 catboost #3899

    • 将 scikit-learn 版本绑定在 1.2.0 以下 #3901

    • 将新创建的 one hot encoded 列转换为 bool dtype #3913

  • 文档变更
    • 在时间序列文档中隐藏了非必要的警告消息 #3890

  • 测试变更

v0.64.0 2022年12月8日
  • 增强功能

  • 修复
    • 允许 DFS Transformer 计算 dataframe_name 不为 "X" 的特征的特征值 #3873

    • 在偏依赖快速模式下,停止将 DFS Transformer 特征的完整列表传递给克隆的管道 #3875

  • 变更
    • 更新排行榜名称以显示 ranking_score 而不是 validation_score #3878

    • 在 Pandas 1.5 升级后移除 Int64Index #3825

    • 降低了在 AutoMLSearch 中为 ARIMA 模型设置 use_covariates 为 False 的阈值 #3868

    • 将 woodwork 版本绑定在 <=0.19.0 #3871

    • 将最低 Pandas 版本更新到 1.5.0 #3808

    • 从自动化依赖更新评审人员中移除 dsherry 并添加 tamargrey #3870

  • 文档变更

  • 测试变更

v0.63.0 2022年11月23日
  • 增强功能
    • 为偏依赖添加了快速模式 #3753

    • 增加了将 featuretools 特征序列化到时间序列管道中的能力 #3836

  • 修复
    • 修复了 TimeSeriesFeaturizer 可能选择特征工程窗口之外的滞后项的 bug #3773

    • 修复了 TimeSeriesFeaturizer 无法编码具有非数值类别的 Ordinal 列的 bug #3812

    • 更新了演示数据集链接指向新的端点 #3826

    • 更新了 STLDecomposer,使其在时间索引频率不存在时进行推断 #3829

    • 更新了 _drop_time_index,将时间索引从 X 移动到 X.indexy.index #3829

    • 修复了在偏依赖中,工程特征丢失其 origin 属性导致失败的 bug #3830

    • 修复了偏依赖快速模式处理 DFS Transformer 时无法处理多输出特征的 bug #3830

    • 允许目标在偏依赖的 DFS Transformer 快速模式处理中存在但被忽略 #3830

  • 变更
    • 将分解频率验证逻辑整合到 Decomposer 类中 #3811

    • 移除了 Featuretools 版本上限并阻止 Woodwork 0.20.0 的安装 #3813

    • 将 Featuretools 最低版本更新到 0.16.0,nlp-primitives 最低版本更新到 2.9.0,Dask 最低版本更新到 2022.2.0 #3823

    • 将 issue 模板 config.yaml 重命名为 config.yml #3844

    • 撤销了向时间序列管道添加 should_skip_featurization 标志的更改 #3862

  • 文档变更
    • 向时间序列文档添加了关于 STL 分解的信息 #3835

    • 移除了 Read the Docs 因警告而失败的设置 #3864

v0.62.0 2022年11月1日
  • 修复
    • 修复了 get_time_index 中的 datetime 转换 bug #3792

    • 修复了无效的锚定或偏移频率将 STLDecomposer 包含在管道中的 bug #3794

    • 修复了不规则 datetime 频率导致 make_pipeline 出错的 bug #3800

  • 变更
    • 将 dask 版本上限限制在 < 2022.10.1 #3797

    • 取消了 dask 版本上限并排除了 2022.10.1 作为可行版本 #3803

    • 移除了所有对 XGBoost 已弃用的 _use_label_encoder 参数的引用 #3805

    • 将 featuretools 版本上限限制在 < 1.17.0 #3805

    • 将 woodwork 版本上限限制在 < 0.21.0 #3805

v0.61.1 2022年10月27日
  • 修复
    • 修复了 TimeSeriesBaselinePipeline 未保留输入特征索引名称的 bug #3788

    • 修复了 TimeSeriesBaselinePipeline 中引用静态字符串而不是时间索引变量的 bug #3788

  • 文档变更
    • 更新了发行说明 #3788

v0.61.0 2022年10月25日
  • 增强功能
    • 添加了 STL Decomposer #3741

    • 将 STLDecomposer 集成到 AutoMLSearch 中用于时间序列回归问题 #3781

    • 将 PolynomialDecomposer 与 STLDecomposer 对齐 #3768

  • 变更
    • 将 Featuretools 版本上限限制在 < 1.15.0 #3775

    • 移除了 Featuretools 版本上限限制并修复了 nlp-primitives 导入语句 #3778

v0.60.0 2022年10月19日
  • 增强功能
    • 向时间序列回归管道添加了 forecast 函数 #3742

  • 修复
    • 修复了允许 IDColumnsDataCheck 处理 IntegerNullable 输入的问题 #3740

    • 修复了主要性能测试的数据集名称 #3743

  • 变更
    • 使用 Woodwork 的 dependence_dict 方法计算 TargetLeakageDataCheck #3728

  • 文档变更

  • 测试变更

警告

重大变更
  • TargetLeakageDataCheck 现在使用参数 mutual_info 而不是 mutual #3728

v0.59.0 2022年9月27日
  • 增强功能
    • 增强了 Decomposer,增加了 determine_periodicity 函数,自动确定季节性目标的周期性。 #3729

    • 增强了 Decomposer,增加了 set_seasonal_period 函数,自动设置 Decomposer 对象的季节期。 #3729

    • 添加了 OrdinalEncoder 组件 #3736

  • 修复
    • 修复了使用默认参数时显示保留集警告消息的 bug #3727

    • 修复了 Oversampler 中分类 dtype 会失败的 bug #3732

  • 变更
    • 在运行 DataChecks 之前自动对 time_index 进行排序的功能已被禁用 #3723

  • 文档变更

  • 测试变更
    • 更新作业以使用新的 looking glass report 命令 #3733

v0.58.0 2022年9月20日
  • 增强功能
    • 为 PolynomialDecomposer 定义了 get_trend_df(),以允许将目标数据分解为趋势、季节性和残差。 #3720

    • 更新后支持 Woodwork >= 0.18.0 #3700

    • 将时间索引列传递给时间序列原生估算器,否则丢弃 #3691

    • AutoMLSearch 添加了 errors 属性,以便进行有用的调试 #3702

  • 修复
    • 移除了由 DefaultAlgorithm 生成的管道中出现的多个采样器 #3696

    • 修复了使用 DefaultAlgorithm 时搜索顺序改变的 bug #3704

  • 变更
    • 将 sktime 的最低版本提高到 0.12.0。 #3720

    • 添加了抽象 Decomposer 类作为 PolynomialDecomposer 的父类,以支持其他 decomposer。 #3720

    • pmdarima 版本绑定在 < 2.0.0 #3679

    • 增加了对 Series 和 DataFrames 使用 downcast_nullable_types 的支持 #3697

    • 区分了排名和优化目标 #3721

  • 文档变更

  • 测试变更
    • 更新了 pytest fixtures 和易碎测试文件,显式设置 woodwork 类型信息 #3697

    • 添加了 github 工作流程,在合并到主分支时运行 looking glass 性能测试 #3690

    • 修复了 looking glass 性能测试脚本 #3715

    • 从 looking glass slack 消息中移除 commit 消息 #3719

v0.57.0 2022年9月6日
  • 增强功能
    • 添加了 KNNImputer 类,并为 Imputer 创建了新的 knn 参数 #3662

  • 修复
    • IDColumnsDataCheck 现在仅在第一列包含唯一值时返回将第一列设为主键的动作码 #3639

    • IDColumnsDataCheck 现在可以处理包含“整数”值但类型为 double 的主键列 #3683

    • 为 EvalML 管道和 imputer 中的 BooleanNullable 列添加了支持 #3678

    • 更新了 StandardScaler,使其仅应用于数值列 #3686

  • 变更
    • 取消了 sktime 版本绑定,允许使用 0.13.2 版本 #3685

    • pmdarima 版本绑定在 < 2.0.0 #3679

v0.56.1 2022年8月19日
  • 修复
    • IDColumnsDataCheck 现在仅在第一列包含唯一值时返回将第一列设为主键的动作码 #3639

    • 撤销了 make_pipeline 中有条件地包含 imputer 的更改 #3672

v0.56.0 2022年8月15日
  • 增强功能
    • 在 Mac 中为安装工作流程添加了 CI 测试环境 #3646

    • 更新了 make_pipeline,使其仅在数据中存在 NaNs 时才在管道中包含 Imputer #3657

    • 更新后支持 Woodwork >= 0.17.2 #3626

    • AutoMLSearch 添加了 exclude_featurizers 参数,用于指定应从所有管道中排除的 featurizer #3631

    • 向管道和组件图中添加了 fit_transform 方法 #3640

    • 更改了时间序列问题保留集评估的数据分割默认值 #3650

  • 修复
    • 由于性能回归,撤销了 Woodwork 0.17.x 兼容性工作 #3664

  • 变更
    • 默认禁用 AutoML 搜索中的保留集 #3659

    • 由于时间序列建模变慢,将 sktime 版本绑定在 >=0.7.0,<0.13.1 #3658

    • 为 Python 3.10 添加了额外的测试支持 #3609

  • 文档变更
    • 更新了断链检查器,排除 stackoverflow 域名 #3633

    • 添加了将新用户添加到 evalml-core-feedstock 的说明 #3636

v0.55.0 2022年7月24日
  • 增强功能
    • 增加了在 transformer 中调用 ww.init() 时传递给 Woodwork 的逻辑类型信息量 #3604

    • 增加了在 automl.search() 中记录每个批次和管道耗时长的能力 #3577

    • 添加了为 ARIMA 模型设置 sp 参数的选项 #3597

    • 更新了时间序列问题的交叉验证分割大小,以匹配预测范围,从而提高性能 #3616

    • 将保留集评估作为 AutoML 搜索和管道排名的一部分 #3499

    • 添加了 Dockerfile.arm 和 .dockerignore,用于 Python 版本和 M1 测试 #3609

    • 添加了 test_gen_utils::in_container_arm64() fixture #3609

  • 修复
    • 修复了迭代图表未出现在文档中的 bug #3592

    • 更新了 load_diabetes() 方法,以考虑 scikit-learn 1.1.1 对数据集的更改 #3591

    • 将 woodwork 版本上限限制在 < 0.17.0 #3612

    • 将 scikit-optimize 的最低版本提高到 0.9.0 #3614

    • 涉及回归和不支持数据类型的无效目标数据检查现在会生成不同的 DataCheckMessageCode #3630

    • 更新了 test_data_checks.py::test_data_checks_raises_value_errors_on_init - 更宽松的文本检查 #3609

  • 变更
    • 添加了用于 linting 的 pre-commit hooks #3608

    • TimeSeriesRegularizerDatetimeFormatDataCheck 实现了较低的阈值和窗口大小 #3627

    • 更新了 IDColumnsDataCheck,如果第一列被标识为 ID 列,则返回一个动作将其设置为主键 #3634

  • 文档变更

  • 测试变更
    • 绑定了 Windows CI 测试的 GraphViz 版本 #3596

    • 移除了针对 Python 3.9 环境跳过 PolynomialDecomposer 测试的设置。 #3720

    • 移除了 pytest.mark.skip_if_39 pytest marker #3602 #3607

    • 更新了 pytest==7.1.2 #3609

    • 添加了 Dockerfile.arm 和 .dockerignore,用于 Python 版本和 M1 测试 #3609

    • 添加了 test_gen_utils::in_container_arm64() fixture #3609

警告

重大变更
  • 重构了遍历所有组件的测试用例,使用 pytest.mark.parametrise,并将相应的 if...continue 块更改为 pytest.mark.xfail #3622

v0.54.0 2022年6月23日
  • 修复
    • 更新了 Imputer 和 SimpleImputer,使其兼容 scikit-learn 1.1.1。 #3525

    • 将 scikit-learn 的最低版本提高到 1.1.1,imbalanced-learn 的最低版本提高到 0.9.1。 #3525

    • 在未实例化的 ComponentGraph 上调用 describe 时,添加了更清晰的错误消息 #3569

    • 在时间序列的 predict 方法的 X_train 或 y_train 参数设置为 None 时,添加了更清晰的错误消息 #3579

  • 变更
    • 不要将 time_index 作为 kwargs 传递给 sktime ARIMA 实现,以兼容最新版本 #3564

    • 从接受的依赖版本中移除不兼容的 nlp-primitives 版本 2.6.0 #3572, #3574

    • 更新了 evalml 作者 #3581

  • 文档变更
    • 修复了 setup.cfglong_description 字段的拼写错误 #3553

    • 更新安装页面,移除 Python 3.7 的提及 #3567

v0.53.1 2022年6月9日
  • 变更
    • setup.cfg 中将开发状态设置为 4 - Beta #3550

v0.53.0 2022年6月9日
  • 增强功能
    • n_jobs 传递给默认算法 #3548

  • 修复
    • 修复了 featuretools 和 woodwork 的 github 工作流程,使其能够针对 evalml 测试其主分支。 #3517

    • 抑制 TargetEncoder 中因默认参数即将更改而引发的警告 #3540

    • 修复了 XGBoost 和 LightGBM 模型在列重命名时未保留 schema 的 bug #3496

  • 变更
    • 过渡到使用 pyproject.toml 和 setup.cfg,不再使用 setup.py #3494, #3536

  • 文档变更
    • 更新了时间序列用户指南页面,包含提前已知特征并修复拼写错误 #3521

    • 在页脚添加 slack 和 stackoverflow 图标 #3528

    • 添加了 M1 Mac 的安装说明 #3543

  • 测试变更
    • 将 GitHub Actions 中的 yml 重命名为 yaml #3522

    • 移除 noncore_dependency pytest marker #3541

    • 更改了 test_smotenc_category_features,以响应新的 woodwork 类型验证,使用有效的邮政编码值 #3544

v0.52.0 2022年5月12日
  • 变更
    • 添加了 featuretools 和 woodwork 的 github 工作流程,使其能够针对 evalml 测试其主分支。 #3504

    • 将 pmdarima 添加到 conda recipe。 #3505

    • 在对 null 值发出警告之前,为 NullDataCheck 添加了阈值 #3507

    • NoVarianceDataCheck 更改为仅输出警告 #3506

    • 撤销了 XGBoost Classifier/Regressor 的补丁,该补丁要求所有布尔列需要转换为 int。 #3503

    • 更新了 roc_curve()conf_matrix(),使其能够处理 IntegerNullable 和 BooleanNullable 类型。 #3465

    • ComponentGraph._transform_features 更改为引发 PipelineError 而不是 ValueError。这不是一个重大变更,因为 PipelineErrorValueError 的子类。 #3497

    • sklearn 版本上限限制在 1.1.0 #3518

  • 文档变更
    • 更新后在 Read the Docs 中安装 prophet extras。 #3509

  • 测试变更
    • 将 test recipe 中的 vowpal wabbit 从 evalml-core 包移到 evalml#3502

v0.51.0 2022年4月28日
  • 增强功能
    • 更新了 make_pipeline_from_data_check_output,使其能够处理时间序列问题。 #3454

  • 修复
    • PipelineBase.graph_json() 更改为返回一个 python 字典,并重命名为 graph_dict() #3463

  • 变更
    • vowpalwabbit 添加到 local recipe,并从相关测试中移除 is_using_conda pytest skip markers #3481

  • 文档变更
    • 修复了贡献指南中的断链 #3464

    • 改进了开发说明 #3468

    • TimeSeriesRegularizerTimeSeriesImputer 添加到用户指南的时间序列部分 #3473

    • 更新了 OSS slack 链接 #3487

    • 修复了文档中模型理解 plotly 图表的渲染问题 #3460

  • 测试变更
    • 更新了单元测试以支持 woodwork 0.16.2 #3482

    • 修复了在 vowpal wabbit 添加到 conda recipe 后的一些单元测试 #3486

警告

重大变更
  • PipelineBase.graph_json() 重命名为 PipelineBase.graph_dict() #3463

  • 最低支持的 woodwork 版本现在是 0.16.2 #3482

v0.50.0 2022年4月12日
  • 增强功能
    • 添加了 TimeSeriesImputer 组件 #3374

    • AutoMLSearch 中将 pipeline_parameterscustom_hyperparameters 替换为 search_parameters #3373, #3427

    • 添加了 TimeSeriesRegularizer,用于平滑时间序列问题中无法推断的日期范围 #3376

    • DefaultAlgorithm 中将 ensembling 作为参数启用 #3435, #3444

  • 修复
    • 修复了 DefaultAlgorithm 未处理 Email 和 URL 特征的 bug #3419

    • 添加了测试以确保 LabelEncoder 参数在 AutoMLSearch 期间保留 #3326

  • 变更
    • 更新了 DateTimeFormatDataCheck,使用 woodwork 的 infer_frequency 函数 #3425

    • graphs.py 重命名为 visualizations.py #3439

  • 文档变更
    • 更新了用户指南的模型理解部分,包含遗漏的函数 #3446

    • 重新组织了用户指南模型理解页面,以便于导航 #3457

    • 更新 README 文本至 Alteryx #3462

警告

重大变更
  • graphs.py 重命名为 visualizations.py #3439

  • AutoMLSearch 中将 pipeline_parameterscustom_hyperparameters 替换为 search_parameters #3373

v0.49.0 2022年3月31日
  • 增强功能
    • ARIMARegressor 添加了 use_covariates 参数 #3407

    • 当数据集较大时,AutoMLSearch 将为 ARIMA 设置 use_covariatesFalse #3407

    • 添加了通过 get_component_input_logical_types 获取图中组件的逻辑类型的能力 #3428

    • 添加了通过 last_component_input_logical_types 获取传递给最后一个组件的逻辑类型的能力 #3428

  • 修复
    • 修复了 PR 3407 后的 conda build #3429

  • 变更
    • 将模型理解指标从 graph.py 移至单独的文件 #3417

    • 取消 click 依赖的版本绑定 #3420

    • 对于 IterativeAlgorithm,将时间序列算法放在首位 #3407

    • 使用 prophet-prebuilt 在 extras 中安装 prophet #3407

警告

重大变更
  • 将模型理解指标从 graph.py 移至 metrics.py #3417

v0.48.0 2022年3月25日
  • 增强功能
    • 增加了对时间序列分类问题中过采样(oversampling)的支持 #3387

  • 修复
    • 修复了 TimeSeriesFeaturizer,使其在创建和选择列时具有确定性 #3384

    • 修复了带有缺失值的 Email/URL 特征会导致 imputer 出错的 bug #3388

  • 变更
    • 更新维护者,添加 Frank #3382

    • 允许安装 woodwork 0.14.0 版本 #3381

    • 将偏依赖函数从 graph.py 移至单独的文件 #3404

    • 由于与 black 不兼容,将 click 版本绑定在 8.0.4 #3413

  • 文档变更
    • 添加了涵盖搜索算法的 AutoML 用户指南部分 #3394

    • 更新了断链并添加了自动化断链检测 #3398

    • 升级了 nbconvert #3402, #3411

  • 测试变更
    • 更新了计划工作流,使其仅在 Alteryx 拥有的仓库中运行 (#3395)

    • 排除最新版本以外的文档版本不进行断链检查 #3401

警告

重大变更
  • 将部分依赖函数从 graph.py 移动到 partial_dependence.py #3404

v0.47.0 2022年3月16日
  • 增强功能
    • TimeSeriesFeaturizer 添加到基于 ARIMA 的管道中 #3313

    • AutoMLSearch 期间添加了集成训练的缓存功能 #3257

    • NoVarianceDataCheck 中为零个唯一值添加了新的错误代码 #3372

  • 修复
    • 修复了 get_pipelines,使其能够为二分类情况重置管道阈值 #3360

  • 变更
    • 更新维护者 #3365

    • 回滚 pandas 1.3.0 兼容性补丁 #3378

  • 文档变更
    • 修复了文档链接,使其指向正确的页面 #3358

  • 测试变更
    • 在 build_conda_pkg 任务中检出 main 分支 #3375

v0.46.0 2022年3月3日
  • 增强功能
    • ClassImbalanceDataCheck 添加了 test_size 参数 #3341

    • 使 NoVarianceDataCheck 的目标可选 #3339

  • 变更
    • 从 sktime 依赖项中移除了 python_version<3.9 环境标记 #3332

    • 更新了 DatetimeFormatDataCheck,使其返回所有消息,并且在检测到 NaNs 时不提前返回 #3354

  • 文档变更
    • 为文档添加了内联选项卡和复制粘贴功能,并全面改进了安装页面 #3353

v0.45.0 2022年2月17日
  • 增强功能
    • 添加了对 pandas >= 1.4.0 的支持 #3324

    • 标准化了估计器的特征重要性 #3305

    • 用 Woodwork 的公共方法 get_subset_schema 替换了私有方法的用法 #3325

  • 变更
    • 向使用的数据分割器添加了 is_cv 属性 #3297

    • 更改了 SimpleImputer,使其忽略自然语言列 #3324

    • 向一些时间序列管道添加了删除 NaN 组件 #3310

  • 文档变更
    • 更新 README.md,添加 Alteryx 链接 (#3319)

    • 向 AutoML 用户指南添加了格式,以缩短结果输出 #3328

  • 测试变更
    • 添加每30分钟自动批准依赖项工作流的计划 #3312

v0.44.0 2022年2月4日
  • 增强功能
    • 更新了 DefaultAlgorithm,使其也限制长时间运行的多分类问题的估计器使用 #3099

    • 添加了 make_pipeline_from_data_check_output() 工具方法 #3277

    • 更新了 AutoMLSearch,使其使用 DefaultAlgorithm 作为默认的 AutoML 算法 #3261, #3304

    • DatetimeFormatDataCheck 添加了更具体的数据检查错误 #3288

    • AutoMLSearch 添加了 features 参数,并在存在 features 时将 DFSTransformer 添加到管道中 #3309

  • 修复
    • 更新了二分类管道的 optimize_thresholds 方法,使其使用 Nelder-Mead #3280

    • 修复了时间序列管道上特征重要性仅显示时间索引为 0 的错误 #3285

  • 变更
    • 移除了 DateTimeNaNDataCheckNaturalLanguageNaNDataCheck,转而使用 NullDataCheck #3260

    • 放弃对 Python 3.7 的支持 #3291

    • 更新了 woodwork 的最低版本至 v0.12.0 #3290

  • 文档变更
    • 更新了时间序列问题的 validate_holdout_datasets 的文档和 docstring #3278

    • 修复了文档中的错误,即使用了错误的目标函数来计算比基线更好的百分比 #3285

警告

重大变更
  • 移除了 DateTimeNaNDataCheckNaturalLanguageNaNDataCheck,转而使用 NullDataCheck #3260

  • 放弃了对 Python 3.7 的支持 #3291

v0.43.0 2022年1月25日
  • 增强功能
    • 更新了新的 NullDataCheck,使其返回警告并建议对具有 null 值的列进行填充操作 #3197

    • 更新了 make_pipeline_from_actions,使其能够处理 null 列的填充 #3237

    • 更新了数据检查操作 API,使其返回选项而非操作,并添加了对具有 null 值的列进行建议和采取操作的功能 #3182

  • 修复
    • 修复了分类数据泄露到 DefaultAlgorithm 中非分类子管道的错误 #3209

    • 通过更新 requirements 中 pmdarima 的版本,修复了 prophet 在 Python 3.9 中的安装问题 #3268

    • 允许 DateTime 列通过 PerColumnImputer 而不中断 #3267

  • 变更
    • 更新了 DataCheckvalidate() 输出,使其操作返回字典而不是列表 #3142

    • 更新了 DataCheckvalidate() API,使其使用新的 DataCheckActionOption 类而不是 DataCheckAction #3152

    • 取消了 numba 版本的上限,并将其从 requirements 中移除 #3263

    • HighlyNullDataCheck 重命名为 NullDataCheck #3197

    • 更新了数据检查 validate() 输出,使其返回警告和错误列表而不是字典 #3244

    • pandas 版本上限设置为 < 1.4.0 #3274

  • 测试变更
    • 根据 dependabot 反馈,在 test-requirements.txt 中将 IPython 的最低版本提高到 7.16.3 #3269

警告

重大变更
  • HighlyNullDataCheck 重命名为 NullDataCheck #3197

  • 更新了数据检查 validate() 输出,使其返回警告和错误列表而不是字典。请参阅数据检查或数据检查操作页面(在用户指南下)获取示例。 #3244

  • PerColumnImputer 中移除了 impute_alldefault_impute_strategy 参数 #3267

  • 更新了 PerColumnImputer,使其不再对 impute_strategies 字典中未指定的列进行填充 #3267

v0.42.0 2022年1月18日
  • 增强功能
    • 要求时间序列问题的训练数据和测试数据间隔 gap + 1 个单位,并通过 time_index 进行验证 #3208

    • ARIMARegressor 添加了对布尔类型特征的支持 #3187

    • 更新了依赖项机器人工作流,移除了过时描述,并添加了自动删除分支的新配置 #3212

    • TimeSeriesParametersDataCheck 错误详情添加了 n_obsn_splits #3246

  • 修复
    • 修复了分类管道仅接受具有适当类别数量的目标数据的错误 #3185

    • DefaultAlgorithm 中添加了对时间序列的支持 #3177

    • 标准化了特征化组件的名称 #3192

    • 移除了 text_input.ipynb 中的空单元格 #3234

    • 移除了管道预测概率为 1 的类别时可能出现的预测解释失败 #3221

    • 在生成部分依赖网格之前删除了 NaNs #3235

    • 允许预测解释可进行 json 序列化 #3262

    • 修复了 InvalidTargetDataCheck 不会检查时间序列回归目标的错误 #3251

    • 修复了 are_datasets_separated_by_gap_time_index 中的错误 #3256

  • 变更
    • 为解决安全问题,将最低兼容 numpy 版本提高到 1.21.0 #3207

    • 将时间序列回归的默认目标函数从 R2 更改为 MedianAE #3205

    • infer_feature_types 中移除了全 nan Unknown 到 Double 的逻辑转换 #3196

    • 在调用 predict 之前,可以通过调用 pipelines.utils.validate_holdout_datasets 来检查时间序列问题的保留数据的有效性 #3208

  • 测试变更
    • 更新自动批准工作流触发器,并在合并后删除分支 #3265

警告

重大变更
  • DateTime Featurizer Component 重命名为 DateTime Featurizer,将 Natural Language Featurization Component 重命名为 Natural Language Featurizer #3192

v0.41.0 2022年1月6日
  • 增强功能
    • 添加了对 DataCheckActionCode 的字符串支持 #3167

    • 添加了 DataCheckActionOption#3134

    • 为 GitHub 添加了错误、功能请求和文档改进的问题模板 #3199

  • 修复
    • 修复了布尔型目标预测解释中 class_name 显示为浮点数的错误 #3179

    • 修复了每晚 Linux 测试中的错误 #3189

  • 变更
    • 移除了对 scikit-learn 的 LabelEncoder 的使用,转而使用我们自己的 #3161

    • infer_feature_types 中移除了可空类型检查 #3156

    • 修复了 AutoMLSearch.rankings 中 mean_cv_datavalidation_score 的值,使其适当地反映 cv 分数或 NaN #3162

  • 测试变更
    • 更新了测试,使其使用新的管道 API 而不是定义自定义管道类 #3172

    • 添加工作流以在状态检查通过时自动合并依赖项 PR #3184

v0.40.0 2021年12月22日
  • 增强功能
    • DefaultDataChecks 添加了 TimeSeriesSplittingDataCheck,用于验证时间序列分类问题中充足的类别表示 #3141

    • 添加了在 DFSTransformer 中接受序列化特征并跳过计算的能力 #3106

    • 添加了对预知特征的支持 #3149

    • 为时间序列回归问题添加了 Holt-Winters ExponentialSmoothingRegressor #3157

    • 要求时间序列问题的训练数据和测试数据间隔 gap + 1 个单位,并通过 time_index 进行验证 #3160

  • 修复
    • 修复了时间序列二分类调整阈值时导致的错误 #3140

  • 变更
    • 向时间序列问题的 DefaultDataChecks 添加了 TimeSeriesParametersDataCheck #3139

    • 在时间序列问题的 problem_configuration 中,将 date_index 重命名为 time_index #3137

    • 更新了 nlp-primitives 的最低版本到 2.1.0 #3166

    • 更新了 woodwork 的最低版本到 v0.11.0 #3171

    • 回滚 3160,直到可以在流程早期解决无法推断的频率问题 #3198

  • 文档变更
    • 添加了注释以提供对 doctests 的清晰说明 #3155

  • 测试变更
    • test_datasets.py 中参数化了测试 #3145

警告

重大变更
  • 在时间序列问题的 problem_configuration 中,将 date_index 重命名为 time_index #3137

v0.39.0 2021年12月9日
  • 增强功能
    • DelayedFeatureTransformer 重命名为 TimeSeriesFeaturizer,并增强其以计算滚动特征 #3028

    • 添加了仅在 PerColumnImputer 中填充特定列的能力 #3123

    • 添加了 TimeSeriesParametersDataCheck,用于验证给定交叉验证分割次数的时间序列参数是否有效 #3111

  • 修复
    • 修复了 RFRegressorSelectFromModelRFClassifierSelectFromModel 的默认参数,以避免选择所有特征 #3110

  • 变更
    • 移除了 ARIMARegressorProphetRegressor 对 datetime 索引的依赖 #3104

    • 在拟合 ARIMARegressor 时包含了目标泄露检查,以考虑基于 ARIMARegressor 的管道中缺乏 TimeSeriesFeaturizer 的情况 #3104

    • 清理和重构了 InvalidTargetDataCheck 的实现和 docstring #3122

    • HighlyNullDataCheckvalidate() 方法输出中移除了索引信息 #3092

    • 添加了 ReplaceNullableTypes 组件,为处理 pandas 可空类型做准备。 #3090

    • 更新了 make_pipeline,用于处理预处理管道中的 pandas 可空类型。 #3129

    • 移除了未使用的 EnsembleMissingPipelinesError 异常定义 #3131

  • 测试变更
    • 重构了测试以避免使用 importorskip #3126

    • 添加了 skip_during_conda 测试标记,用于跳过不应在 conda 构建期间运行的测试 #3127

    • 添加了 skip_if_39 测试标记,用于跳过不应在 python 3.9 期间运行的测试 #3133

警告

重大变更
  • DelayedFeatureTransformer 重命名为 TimeSeriesFeaturizer #3028

  • ProphetRegressor 现在要求 X 中有一个由 date_index 参数表示的 datetime 列 #3104

  • 将模块 evalml.data_checks.invalid_target_data_check 重命名为 evalml.data_checks.invalid_targets_data_check #3122

  • 移除了未使用的 EnsembleMissingPipelinesError 异常定义 #3131

v0.38.0 2021年11月27日
  • 增强功能
    • 向数据检查操作类添加了 data_check_name 属性 #3034

    • TextFeaturizer 添加了 NumWordsNumCharacters 原语,并将 TextFeaturizer 重命名为 NaturalLanguageFeaturizer #3030

    • 添加了对 scikit-learn > 1.0.0 的支持 #3051

    • 要求在 AutoMLSearch 中为时间序列问题指定 date_index 参数 #3041

    • 允许时间序列管道预测测试数据集,其长度小于或等于 forecast_horizon。还允许测试集的索引从 0 开始。 #3071

    • 使时间序列管道能够预测包含非预知特征的数据 #3094

  • 修复
    • 在 fit 和 predict/predict_proba 数据类型不同时添加了错误消息 #3036

    • 修复了集成组件无法转换为 JSON 格式的错误 #3049

    • 修复了具有调优整数超参数的组件无法转换为 JSON 格式的错误 #3049

    • 修复了力图未显示正确特征值的错误 #3044

    • find_confusion_matrix_per_threshold 中包含了管道阈值处的混淆矩阵 #3080

    • 修复了 One Hot Encoder 在非分类特征具有缺失值时会出错的错误 #3083

    • 修复了 Delayed Feature Transformer 从分类列创建的特征会被推断为分类的错误 #3083

  • 变更
    • 删除了 predict_uses_y 估计器属性 #3069

    • 更改了 DateTimeFeaturizer,使其使用相应的 Featuretools 原语 #3081

    • 更新了 TargetDistributionDataCheck,使其将元数据详情作为浮点数而不是字符串返回 #3085

    • 移除了对 psutil 包的依赖 #3093

  • 文档变更
    • 更新了文档,使其使用数据检查操作方法而不是手动清理数据 #3050

  • 测试变更
    • 更新了集成测试,使其使用 make_pipeline_from_actions 而不是私有方法 #3047

警告

重大变更
  • 向数据检查操作类添加了 data_check_name 属性 #3034

  • TextFeaturizer 重命名为 NaturalLanguageFeaturizer #3030

  • 更新了 Pipeline.graph_json 函数,使其返回“from”和“to”边的字典而不是元组 #3049

  • 删除了 predict_uses_y 估计器属性 #3069

  • 更改了 AutoMLSearch 中的时间序列问题,使其需要一个非 Nonedate_index #3041

  • 更改了 DelayedFeatureTransformer,使其在拟合时如果 date_indexNone 则抛出 ValueError #3041

  • X=None 传递给 DelayedFeatureTransformer 已弃用 #3041

v0.37.0 2021年11月9日
  • 增强功能
    • 向模型理解添加了 find_confusion_matrix_per_threshold #2972

    • AutoMLSearch 期间,限制某些多分类问题的计算密集型模型,允许通过参数 allow_long_running_models 选择启用 #2982

    • 向预测解释模块添加了对堆叠集成管道的支持 #2971

    • 为数据检查和数据检查操作工作流添加了集成测试 #2883

    • 更改了管道结构,以便在 DefaultAlgorithm 中单独处理分类列 #2986

    • DelayedFeatureTransformer 添加了算法以选择更好的滞后 #3005

    • 添加了测试以确保序列化管道保留阈值 #3027

    • 添加了 AutoML 函数以访问集成管道的输入管道 ID #3011

    • 添加了在二分类情况下定义哪个类为“正”类的能力,用于标签编码器 #3033

  • 修复
    • 修复了 Oversampler 未将布尔列视为分类列的错误 #2980

    • 修复了目标为分类时排列重要性失败的错误 #3017

    • 更新了估计器和管道的 predictpredict_probatransforminverse_transform 方法,以保留输入索引 #2979

    • 更新了每日最低温度的演示数据集链接 #3023

  • 变更
    • 更新了 OutliersDataCheckUniquenessDataCheck,并允许暂停可空类型错误 #3018

  • 文档变更
    • 修复了成本效益矩阵演示的格式问题 #2990

    • 更新 ReadMe.md,添加新的徽章链接和更新的 conda 安装说明 #2998

    • 添加了更全面的 doctests #3002

v0.36.0 2021年10月27日
  • 增强功能
    • 将 LIME 作为 explain_predictionsexplain_predictions_best_worst 的算法选项添加 #2905

    • 标准化了数据检查消息,并向数据检查消息详情字典添加了默认的“rows”和“columns” #2869

    • 向管道工具添加了 rows_of_interest #2908

    • 添加了对 woodwork 版本 0.8.2 的支持 #2909

    • 增强了 DateTimeFeaturizer,使其能够处理日期特征中的 NaNs #2909

    • 在模型理解工具中添加了对 woodwork 逻辑类型 PostalCodeSubRegionCodeCountryCode 的支持 #2946

    • 添加了 Vowpal Wabbit 回归器和分类器 #2846

    • 为未来的无监督学习搜索添加了 NoSplit 数据分割器 #2958

    • 添加了将操作转换为预处理管道的方法 #2968

  • 修复
    • 修复了部分依赖不尊重 ww 模式的错误 #2929

    • 修复了 StandardScaler 上 datetimes 的 calculate_permutation_importance #2938

    • 修复了 SelectColumns,使其在 DefaultAlgorithm 中仅选择可用特征进行特征选择 #2944

    • 修复了 DropColumns 组件在 DefaultAlgorithm 中未接收参数的错误 #2945

    • 修复了 get_pipelineclone 未返回训练后的二分类阈值的错误 #2948

    • 修复了 Oversampler 选择了 ww 逻辑分类而不是 ww 语义分类的错误 #2946

  • 变更
    • 更改了 make_pipeline 函数,将 DateTimeFeaturizer 置于 Imputer 之前,以便可以填充 NaN 日期 #2909

    • 重构了 OutliersDataCheckHighlyNullDataCheck,以添加更具描述性的元数据 #2907

    • dask 的最低版本从 2021.2.0 提高到 2021.10.0 #2978

  • 文档变更
    • 将未来版本部分添加回发布说明 #2927

    • 更新了 CI,以运行 doctest (docstring 测试) 并对 docstrings 应用必要的修复 #2933

    • 添加了 BinaryClassificationPipeline 阈值处理的文档 #2937

  • 测试变更
    • 修复了依赖项检查器以捕获包的全名 #2930

    • 重构了 build_conda_pkg,使其可以使用本地 recipe #2925

    • 重构了不同环境的组件测试 #2957

警告

重大变更
  • 标准化了数据检查消息,并向数据检查消息详情字典添加了默认的“rows”和“columns”。这可能会改变数据检查返回的消息数量。 #2869

v0.35.0 2021年10月14日
  • 增强功能
    • 向模型理解添加了人类可读的管道解释 #2861

    • 更新以支持 Featuretools 1.0.0 和 nlp-primitives 2.0.0 #2848

  • 修复
    • 修复了顶级搜索方法的 long 模式未被尊重的错误 #2875

    • cmdstan-builder 中将 cmdstan 锁定在 0.28.0 版本,以防止未来破坏对 Prophet 的支持 #2880

    • TargetDistributionDataCheck 添加了 Jarque-Bera #2891

  • 变更
    • 更新了管道,使其使用标签编码器组件而不是在管道级别进行编码 #2821

    • 删除了 scikit-learn 集成器 #2819

    • 将管道构建逻辑从 AutoMLSearch 重构到 IterativeAlgorithm #2854

    • 重构了 ComponentGraphPipelineBase 中的方法名称 #2902

  • 文档变更
    • 更新了 install.ipynb,以反映 cmdstan 版本安装的灵活性 #2880

    • 更新了贡献指南中的 conda 部分 #2899

  • 测试变更
    • 更新了 test_all_estimators,以考虑 Prophet 在 Python 3.9 中被允许的情况 #2892

    • 更新了 Linux 测试,使其使用 cmdstan-builder==0.0.8 #2880

警告

重大变更
  • 更新了管道,使其使用标签编码器组件而不是在管道级别进行编码。这意味着管道将不再自动编码非数值目标。如果您处理分类问题和非数值目标,请使用标签编码器。 #2821

  • 删除了 scikit-learn 集成器 #2819

  • IterativeAlgorithm 现在需要 X、y、problem_type 作为必需参数,以及 sampler_name、allowed_model_families、allowed_component_graphs、max_batches 和 verbose 作为可选参数 #2854

  • ComponentGraph 中,将 fit_featurescompute_final_component_features 的方法名称更改为 fit_and_transform_all_but_finaltransform_all_but_final;在管道类中,将 compute_estimator_features 更改为 transform_all_but_final #2902

v0.34.0 2021年9月30日
  • 增强功能
    • 更新以与 Woodwork 0.8.1 配合使用 #2783

    • 在预测解释中添加了 training_datatraining_target 不为 None 的验证 #2787

    • 在管道和组件图中添加了对仅训练组件的支持 #2776

    • ComponentGraph.instantiate 的 parameters 值添加了默认参数 #2796

    • LightGBMRegressor's 的支持问题类型添加了 TIME_SERIES_REGRESSION #2793

    • 提供了管道 DAG 结构的 JSON 表示 #2812

    • 对传递给时间序列 predictpredict_proba 的保留数据添加了验证 #2804

    • OutliersDataCheck 中添加了关于哪些行索引是异常值的信息 #2818

    • 向顶级 search() 方法添加了 verbose 标志 #2813

    • 添加了对 linting jupyter notebook 并清除已执行单元格和空单元格的支持 #2829 #2837

    • OutliersDataCheck.validate() 的输出添加了“DROP_ROWS”操作 #2820

    • 添加了 AutoMLSearch 接受 SequentialEngine 实例作为引擎输入的能力 #2838

    • 向 EvalML 添加了新的标签编码器组件 #2853

    • 添加了我们自己的部分依赖实现 #2834

  • 修复
    • 修复了 calculate_permutation_importance 对于带有目标转换器的管道未计算正确值的错误 #2782

    • 修复了时间序列管道中,转换后的目标值未在 fit 中使用的错误 #2780

    • 修复了 AutoMLSearchscore_pipelines 方法不适用于时间序列问题的错误 #2786

    • 移除了 TargetTransformer#2833

    • 添加了测试以验证管道对 ComponentGraph 的支持 #2830

    • 修复了 AutoMLSearch 中基线回归管道的错误参数 #2847

    • 修复了 IterativeAlgorithm 中未遵守期望的估计器族顺序的错误 #2850

  • 变更
    • 更改了 woodwork 初始化,使其使用部分模式 #2774

    • Transformer.transform() 设为抽象方法 #2744

    • 删除了 EmptyDataChecks#2794

    • 移除了 make_pipeline 中检查对数分布的数据检查 #2806

    • woodwork 的最低版本更改为 0.8.0 #2783

    • woodwork 版本锁定到 0.8.0 #2832

    • ComponentBase 和转换器中移除了 model_family 属性 #2828

    • 限制了 scikit-learn,直到可以解决新特性和错误 #2842

    • 在调用 Sklearn 集成器时显示 DeprecationWarning #2859

  • 测试变更
    • 更新了多项式去趋势测试中关于单调索引的匹配断言消息 #2811

    • 添加了测试以确保 pip 版本与 conda 版本匹配 #2851

警告

重大变更
  • Transformer.transform() 设为抽象方法 #2744

  • 删除了 EmptyDataChecks#2794

  • 移除了 make_pipeline 中检查对数分布的数据检查 #2806

v0.33.0 2021年9月15日
  • 修复
    • 修复了 make_pipeline 期间的警告未向用户抛出的错误 #2765

  • 变更
    • 重构并移除了 SamplerBase#2775

  • 文档变更
    • make-lint 命令添加了 docstring linting 包 pydocstyledarglint #2670

v0.32.1 2021年9月10日
  • 增强功能
    • AutoMLSearch 添加了 verbose 标志,默认情况下以静默模式运行搜索 #2645

    • XGBoostClassifier 添加了标签编码器以消除警告 #2701

    • XGBoostClassifiereval_metric 设置为 logloss #2741

    • 添加了对 woodwork 版本 0.7.00.7.1 的支持 #2743

    • 更改了 explain_predictions 函数,使其显示原始特征值 #2759

    • graph_prediction_vs_actual_over_timeget_prediction_vs_actual_over_time_data 添加了 X_trainy_train #2762

    • forecast_horizon 作为时间序列管道和 AutoMLSearch 的必需参数添加 #2697

    • 向时间序列管道添加了 predict_in_samplepredict_proba_in_sample 方法,用于预测目标已知的数据(例如交叉验证) #2697

  • 修复
    • 修复了 _catch_warnings 假定所有警告都是 PipelineNotUsed 的错误 #2753

    • 修复了 Imputer.transform 在将数据交给 SimpleImputer 之前会擦除 ww 类型信息的错误 #2752

    • 修复了 Oversampler 无法复制的错误 #2755

  • 变更
    • 删除了 drop_nan_target_rows 工具方法 #2737

    • 移除了默认日志记录设置和调试日志文件 #2645

    • XGBoostClassifierXGBoostRegressor 的默认 n_jobs 值更改为 12 #2757

    • TimeSeriesBaselineEstimator 更改为仅适用于带有 DelayedFeaturesTransformer 的时间序列管道 #2697

    • X_trainy_train 作为可选参数添加到管道的 predictpredict_proba 方法中。仅用于时间序列管道 #2697

    • training_datatraining_target 作为可选参数添加到 explain_predictionsexplain_predictions_best_worst 中,以支持时间序列管道 #2697

    • 更改了时间序列管道预测,使其不再输出填充 NaNs 的 series/dataframe。对于 X 输入中的每一行,都将返回一个预测结果 #2697

  • 文档变更
    • 指定了 Prophet 的安装步骤 #2713

    • 添加了关于数据检查操作的数据探索文档 #2696

    • 添加了时间序列建模的用户指南条目 #2697

  • 测试变更
    • 修复了针对 very_lognormal 分布的 TargetDistributionDataCheck 测试不稳定问题 #2748

警告

重大变更
  • 移除了默认日志记录设置和调试日志文件 #2645

  • graph_prediction_vs_actual_over_timeget_prediction_vs_actual_over_time_data 添加了 X_trainy_train #2762

  • forecast_horizon 作为时间序列管道和 AutoMLSearch 的必需参数添加 #2697

  • TimeSeriesBaselineEstimator 更改为仅适用于带有 DelayedFeaturesTransformer 的时间序列管道 #2697

  • X_trainy_train 作为时间序列管道中 predictpredict_proba 的必需参数添加 #2697

  • training_datatraining_target 作为时间序列管道中 explain_predictionsexplain_predictions_best_worst 的必需参数添加 #2697

v0.32.0 2021年8月31日
  • 增强功能
    • 允许 AutoMLSearchengine 参数使用字符串 #2667

    • ProphetRegressor 添加到 AutoML #2619

    • DefaultAlgorithm 集成到 AutoMLSearch#2634

    • 移除了 SVM 的“linear”和“precomputed”核超参数选项,并改进了默认参数 #2651

    • 更新了 ComponentGraph 初始化,当用户尝试对不产生元组输出的组件使用 .y 时抛出 ValueError #2662

    • 更新以支持 Woodwork 0.6.0 #2690

    • 更新了管道 graph(),以区分 X 和 y 边 #2654

    • 添加了 DropRowsTransformer 组件 #2692

    • DROP_ROWS 添加到 _make_component_list_from_actions 并清理元数据 #2694

    • 添加了新的集成器组件 #2653

  • 修复
    • 更新了 Oversampler 逻辑,使其基于组件输入而不是管道输入选择最佳 SMOTE #2695

    • 添加了明确关闭 DaskEngine 资源的能力,以改善运行时并减少 Dask 警告 #2667

    • 修复了集成管道的部分依赖错误 #2714

    • 更新了 TargetLeakageDataCheck,以保留用户选择的逻辑类型 #2711

  • 变更
    • SMOTEOversamplerSMOTENOversamplerSMOTENCOversampler 替换为合并的 Oversampler 组件 #2695

    • 由于性能不佳,从默认的 AutoMLSearch 估计器列表中移除了 LinearRegressor #2660

  • 文档变更
    • 添加了使用 ComponentGraph 的用户指南文档,并将 ComponentGraph 添加到 API 参考 #2673

    • 更新了文档,使 AutoML 的并行化更清晰 #2667

  • 测试变更
    • test_cancel_job 测试中移除了进程级并行 #2666

    • 在 windows CI 中安装了 numba 0.53,以防止安装版本 0.54 时出现问题 #2710

警告

重大变更
  • 将当前顶级 search 方法重命名为 search_iterative,并为 DefaultAlgorithm 定义了一个新的 search 方法 #2634

  • SMOTEOversamplerSMOTENOversamplerSMOTENCOversampler 替换为合并的 Oversampler 组件 #2695

  • 由于性能不佳,从默认的 AutoMLSearch 估计器列表中移除了 LinearRegressor #2660

v0.31.0 2021年8月19日
  • 增强功能
    • 更新了 AutoMLSearch 中的高方差检查,使其对各种目标函数和 cv 分数具有鲁棒性 #2622

    • OutliersDataCheck 使用 Woodwork 的异常值检测 #2637

    • 添加了在创建管道时使用已实例化组件的能力 #2643

    • 加快了 infer_feature_types 中的全 Nan 和未知检查 #2661

  • 修复

  • 变更
    • 删除了 _put_into_original_order 辅助函数 #2639

    • 使用时间序列管道基类重构了时间序列管道代码 #2649

    • dask_tests 重命名为 parallel_tests #2657

    • 移除了 pipeline_meta.py 中的注释代码 #2659

  • 文档变更
    • 在 README 和安装部分添加了完整的安装命令 #2627

    • 清理了 MulticollinearityDataCheck 的文档 #2664

  • 测试变更
    • 通过在 GitHub 中将 Prophet 测试拆分到单独的工作流来加快 CI 速度 #2644

警告

重大变更
  • TimeSeriesRegressionPipeline 不再继承自 TimeSeriesRegressionPipeline #2649

v0.30.2 2021年8月16日
  • 修复
    • 更新了更新日志和版本号以匹配发布。版本 0.30.1 是错误发布的,没有更改版本号。0.30.2 将取代它。

v0.30.1 2021年8月12日
  • 增强功能
    • 为时间序列问题添加了 DatetimeFormatDataCheck #2603

    • ProphetRegressor 添加到估计器中 #2242

    • 更新了 ComponentGraph,使其在预测期间不调用采样器的 transform 方法,并更新了采样器的 transform 方法,使得 fit_transform 等同于 fit(X, y).transform(X, y) #2583

    • 更新了 ComponentGraph_validate_component_dict 逻辑,对输入值要求更严格 #2599

    • 修补了 xgboost 估计器中的错误,即仅对布尔类型特征矩阵进行预测时会抛出异常。 #2602

    • 更新了 ARIMARegressor,使其使用相对预测来预测值 #2613

    • 添加了创建没有估计器作为最终组件的管道的支持,并向管道和组件图添加了 transform(X, y) 方法 #2625

    • 更新以支持 Woodwork 0.5.1 #2610

  • 修复
    • 更新了 AutoMLSearch,如果在检测到不兼容的频率时,从 allowed_estimators 中移除 ARIMARegressor #2632

    • 更新了 get_best_sampler_for_data,使其将所有非数值数据类型视为 SMOTE 的分类类型 #2590

    • 修复了 TargetDistributionDataCheck 测试结果不一致的问题 #2608

    • 采用矢量化 pd.NA 检查以支持 Woodwork 0.5.1 #2626

    • 将 astroid 的最高版本锁定为 2.6.6,以保持 ReadTheDocs 正常工作。 #2638

  • 变更
    • 将 SMOTE 采样器重命名为 SMOTE 过采样器 #2595

    • partial_dependencegraph_partial_dependence 更改为抛出 PartialDependenceError 而不是 ValueError。这不是一个破坏性更改,因为 PartialDependenceErrorValueError 的子类 #2604

    • 清理了 ComponentGraph 中的代码重复 #2612

    • 在 ComponentGraph 中将中间估计器的 predict_proba 结果存储在 .x 中 #2629

  • 文档变更
    • 为避免本地文档构建错误,仅在 ReadTheDocs 构建中添加警告禁用和下载头文件,不在本地添加 #2617

  • 测试变更
    • 更新了 partial_dependence 测试,以根据 Plotly 5.2.1 升级更改逐元素比较 #2638

    • 将 lint CI 作业更改为仅通过 -t 标志检查 Python 3.9 #2586

    • 在 linux nightly 测试中安装了 Prophet,并修复了 test_all_components #2598

    • 重构并修复了所有 make_pipeline 测试,以断言正确的顺序并解决新的 Woodwork Unknown 类型推断 #2572

    • 移除了 test_component_graphs.py 中的 component_graphs 作为全局变量 #2609

警告

重大变更
  • 将 SMOTE 采样器重命名为 SMOTE 过采样器。请使用 SMOTEOversamplerSMOTENCOversamplerSMOTENOversampler 代替 SMOTESamplerSMOTENCSamplerSMOTENSampler #2595

v0.30.0 2021 年 8 月 3 日
  • 增强功能
    • 新增 LogTransformerTargetDistributionDataCheck #2487

    • 当传入的 pipeline 参数未在 pipeline 中使用时,向用户发出警告 #2564

    • 新增 Gini 系数作为目标函数 #2544

    • ComponentGraph 新增 repr #2565

    • 新增组件,用于从 URLEmailAddress Logical Types 中提取特征 #2550

    • TextFeaturizer 中的 NaN 值添加支持 #2532

    • 新增 SelectByType 转换器 #2531

    • HighlyNullDataCheck 中为 null 行和 null 列的百分比设置了单独的阈值 #2562

    • NaN 自然语言值添加支持 #2577

  • 修复
    • partial_dependence 中为 URLNaturalLanguageEmailAddress 类型提高了错误消息级别 #2573

  • 变更
    • 更新了 PipelineBase 实现,以从组件列表中创建 pipelines #2549

    • get_hyperparameter_ranges 从 automl/utils 模块移动到 PipelineBase#2546

    • ComponentGraphget_parents 重命名为 get_inputs #2540

    • 移除了 ComponentGraph.linearized_component_graphComponentGraph.from_list #2556

    • 更新了 ComponentGraph,强制要求图中的每个组件都必须有 .x.y 输入 #2563

    • 将现有集成分类器的实现从 StackedEnsemblers 重命名为 SklearnStackedEnsemblers #2578

  • 文档变更
    • DaskEngineCFEngine 并行引擎添加了文档 #2560

    • 改进了 TextFeaturizer 文档字符串和教程的细节 #2568

  • 测试变更
    • 新增测试,确保 split_data 在处理时间序列问题时不打乱数据 #2552

警告

重大变更
  • get_hyperparameter_ranges 从 automl/utils 模块移动到 PipelineBase#2546

  • ComponentGraphget_parents 重命名为 get_inputs #2540

  • 移除了 ComponentGraph.linearized_component_graphComponentGraph.from_list #2556

  • 更新了 ComponentGraph,强制要求图中的每个组件都必须有 .x.y 输入 #2563

v0.29.0 2021 年 7 月 21 日
  • 增强功能
    • 更新了日期时间特征的一维局部依赖性支持 #2454

    • 添加了关于如何修复由损坏的 ww schema 引起的错误的详细信息 #2466

    • 添加了使用内置 pickle 保存 AutoMLSearch 的能力 #2463

    • 更新了我们的组件和组件图,以使用 ww 0.4.1 的最新功能,例如 concat_columns 和原地删除。 #2465

    • 新增了基于 concurrent.futures 的并行 AutoML 引擎 #2506

    • 为 AutoMLSearch 中的新 Woodwork Unknown 类型添加了支持 #2477

    • 更新了我们的组件,增加了一个属性,描述它们是否修改特征或目标,并且可以在 pipeline 初始化的 list API 中使用 #2504

    • 更新了 ComponentGraph 以接受 X 和 y 作为输入 #2507

    • DataCheckMessageCode 枚举中删除了未使用的 TARGET_BINARY_INVALID_VALUES,并修复了目标函数文档的格式 #2520

    • 新增 EvalMLAlgorithm #2525

    • TextFeaturizer 中的 NaN 值添加支持 #2532

  • 修复
    • 修复了 FraudCost 目标函数,并将二元分类的阈值优化方法恢复为 Golden #2450

    • 为尺度过小的特征添加了自定义部分依赖异常消息 #2455

    • 确保 Ordinal 和 Datetime ltypes 的类型通过 _retain_custom_types_and_initalize_woodwork 传递 #2461

    • 更新以支持 Pandas 1.3.0 #2442

    • 更新以支持 sktime 0.7.0 #2499

  • 变更
    • 更新了 XGBoost 依赖项至 >=1.4.2 #2484, #2498

    • 添加了关于弃用 ComponentGraph 的 list API 的 DeprecationWarning #2488

    • 更新了 AutoML 的 make_pipeline 以创建字典而非列表来初始化 pipelines #2504

    • 由于 release 0.17 破坏了 windows 3.7,不再在我们的 CI pipelines 中安装 graphviz on windows #2516

  • 文档变更
    • 将文档字符串从 __init__ 移动到类页面,为缺失的类添加了缺失的文档字符串,并更新了缺失的默认值 #2452

    • 使用 sphinx-autoapi 构建文档 #2458

    • autoapi_ignore 更改为仅忽略 evalml/tests/* 中的文件 #2530

  • 测试变更
    • 修复了不稳定的 dask 测试 #2471

    • build_conda_pkg action 中移除了 shellcheck action #2514

    • 添加了一个 tmp_dir fixture,测试运行后删除其内容 #2505

    • 添加了一个测试,确保 AutoMLSearch 中的所有 pipelines 获得相同的数据分割 #2513

    • 精简了测试日志中的警告输出 #2521

警告

重大变更
  • 由于 pandas 升级,Imputer 不再支持 Natural Language 类型中的 NaN 值。 #2477

v0.28.0 2021 年 7 月 2 日
  • 增强功能
    • 为部分依赖性可视化时显示个体条件期望 (Individual Conditional Expectations) 图添加了支持 #2386

    • 将 Catboost 估计器的 thread_count 作为 n_jobs 参数公开 #2410

    • 更新了 Objectives API 以允许样本加权 #2433

  • 修复
    • 删除了 IterativeAlgorithm 中无法到达的代码行 #2464

  • 变更
    • 将 Woodwork 版本锁定在 0.4.1 和 0.4.2 之间 #2460

    • 更新了 requirements 中的 psutils 最低版本 #2438

    • 更新了 log_error_callback,使其不包含日志消息中的文件路径 #2429

  • 文档变更
    • 加快了文档生成速度 #2430

    • 从文档中删除了 DataTableDataColumn 的提及 #2445

  • 测试变更
    • 为 nightlies 测试添加了 slack 集成 #2436

    • build_conda_pkg CI 作业更改为仅在依赖项更新时运行 #2446

    • 更新了 workflow,将 pytest 运行时存储为测试 artifacts #2448

    • 添加了 AutoMLTestEnv 测试 fixture,方便模拟 automl 测试 #2406

v0.27.0 2021 年 6 月 22 日
  • 增强功能
    • 为预测解释添加了力图 (force plots) #2157

    • 移除了 AutoMLSearch 的自引用 #2304

    • generate_pipeline_code 添加了对非线性 pipelines 的支持 #2332

    • 为 pipelines 添加了 inverse_transform 方法 #2256

    • 添加了可选的自动更新检查器 #2350

    • AutoMLSearchrankingsfull_rankings 表中添加了 search_order #2345

    • 更新了二元分类的阈值优化方法 #2315

    • 更新了 demos,从 S3 拉取数据而非在包中包含 demo 数据 #2387

    • 升级 woodwork 版本到 v0.4.1 #2379

  • 修复
    • 在整个 pipeline fit/predict 过程中保留用户指定的 woodwork 类型 #2297

    • 修复了 ComponentGraph 在有组件同时返回 X 和 y 时将 target 追加到 final_component_features 的 bug #2358

    • 修复了多分类问题中当类别标签是数字时,部分依赖关系图方法失效的 bug #2372

    • 为二元分类问题添加了 thresholding_objective 参数到 AutoMLSearch #2320

    • 在 SMOTE Oversamplers 中为 k_neighbors 参数添加了更改,以自动处理小样本 #2375

    • 更改了 Logistic Regression Classifier 文件命名 #2399

    • 固定 pytest-timeout 版本以修复最低依赖检查器 #2425

    • Elastic Net Classifier 基类替换为 Logistsic Regression 以避免 NaN 输出 #2420

  • 变更
    • 清理了 PipelineBasecomponent_graph_component_graph 属性。更新了 PipelineBase__repr__,并为 ComponentGraph 添加了 __eq__ #2332

    • 在 EvalML 仓库中添加并应用了 black linting 包,取代 autopep8 #2306

    • custom_hyperparameters 从 pipelines 中分离,并作为参数添加到 AutoMLSearch #2317

    • allowed_pipelines 替换为 allowed_component_graphs #2364

    • PipelineBase 中移除了私有方法 _compute_features_during_fit #2359

    • 更新了 ComponentGraph 中的 compute_order,使其成为只读属性 #2408

    • 取消固定 requirements.txt 中的 PyZMQ 版本 #2389

    • 取消限制 requirements.txt 中的 LightGBM 版本 #2405

    • 更新了 plotly 的最低版本 #2415

    • 从核心目标中移除了 SensitivityLowAlert 目标 #2418

  • 文档变更
    • 修复了 demos 文档中的潜在客户评分权重 #2315

    • 修复了起始页代码和描述数据集命名不一致的问题 #2370

  • 测试变更
    • 更新了在所有 pull request 上运行的最低单元测试 #2314

    • 传递 token 以授权上传 codecov 报告 #2344

    • 新增 pytest-timeout。所有运行时间超过 6 分钟的测试都将失败。 #2374

    • 将 dask 测试分离到单独的 GitHub action 作业中,以隔离 dask 故障。 #2376

    • 重构了 dask 测试 #2377

    • 重新添加了合并后的 dask/非 dask 单元测试,并重命名了仅包含 dask 的单元测试。 #2382

    • 加快了单元测试速度并将其拆分为单独的作业 #2365

    • 更改 CI 作业名称,为 python 3.9 运行 lint,在美东时间凌晨 3 点为 python 3.8 运行 nightlies #2395 #2398

    • 将运行于 PRs 的 CI 作业的 fail-fast 设置为 false #2402

警告

重大变更
  • AutoMLSearch 将接受 allowed_component_graphs 而非 allowed_pipelines #2364

  • 移除了 PipelineBase_component_graph 属性。更新了 PipelineBase__repr__,并为 ComponentGraph 添加了 __eq__ #2332

  • pipeline_parameters 将不再接受 skopt.space 变量,因为超参数范围现在将通过 custom_hyperparameters 指定 #2317

v0.25.0 2021 年 6 月 1 日
  • 增强功能
    • 升级了 woodwork 最低版本至 0.3.1。之前的版本将不再受支持 #2181

    • explain_predictions_best_worst 添加了一个新的回调参数 #2308

  • 修复

  • 变更
    • 删除了我们 demo 数据加载器中的 return_pandas 标志 #2181

    • default_parametersPipelineBase 移动到 ComponentGraph #2307

  • 文档变更
    • 更新了发布流程文档 #2230

  • 测试变更
    • 在构建 conda 包时忽略 test_saving_png_file #2323

警告

重大变更
  • 删除了我们 demo 数据加载器中的 return_pandas 标志 #2181

  • 升级了 woodwork 最低版本至 0.3.1。之前的版本将不再受支持 #2181

  • 由于 woodwork 中的弱引用,在访问 woodwork 之前将 infer_feature_types 的结果设置到一个变量 #2181

v0.24.2 2021 年 5 月 24 日
  • 增强功能
    • 将 oversamplers 添加到 AutoMLSearch #2213 #2286

    • Undersampler 组件添加了字典输入功能 #2271

    • 更改了 Elastic Net ClassifierElastic Net Regressor 的默认参数值 #2269

    • 为 Oversampler 组件添加了字典输入功能 #2288

  • 修复
    • 在找到 sklearn stacking 中基于文本的并行性的修复之前,将 StackedEnsembleClassifierStackedEnsembleRegressor 的默认 n_jobs 设置为 1 #2295

  • 变更
    • 更新了 start_iteration_callback,使其接受 pipeline 实例而不是 pipeline 类,并且不再接受 pipeline parameters 作为参数 #2290

    • 重构了 calculate_permutation_importance 方法,并添加了按列计算排列重要性的方法 #2302

    • 更新了 AutoMLSearch.__init__ 中的日志信息,以澄清 pipeline 生成 #2263

  • 文档变更
    • 发布流程的微小更改 #2230

  • 测试变更
    • 使用 codecov action 更新覆盖率报告 #2238

    • 从 requirements.txt 中移除了 MarkupSafe 依赖项版本限制,并将其移动到 RTD 文档构建 CI 中 #2261

警告

重大变更
  • 更新了 start_iteration_callback,使其接受 pipeline 实例而不是 pipeline 类,并且不再接受 pipeline parameters 作为参数 #2290

  • default_parametersPipelineBase 移动到 ComponentGraph。现在可以通过 pipeline.component_graph.default_parameters 访问 pipeline 的 default_parameters #2307

v0.24.1 2021 年 5 月 16 日
  • 增强功能
    • ARIMARegressor 集成到 AutoML #2009

    • 更新了 HighlyNullDataCheck,使其也执行 null 行检查 #2222

    • 将 featuretools dfs 调用中的 max_depth 设置为 1 #2231

  • 修复
    • 移除了训练期间的数据分割采样器调用 #2253

    • 设置了 pyzmq, colorama 和 docutils 的最低所需版本 #2254

    • 将 BaseSampler 更改为返回 None 而非 y #2272

  • 变更
    • 移除了 AutoMLSearch 中的集成分割和索引 #2260

    • 更新了 pipeline 的 repr()generate_pipeline_code,使其返回 pipeline 实例而不生成自定义 pipeline 类 #2227

  • 文档变更
    • 将 Sphinx 版本限制在 4.0.0 以下 #2244

  • 测试变更
    • 将 pytest 的核心数从 4 更改为 2 #2266

    • 添加最低依赖检查器以生成最低要求文件 #2267

    • 使用最低依赖项添加单元测试 #2277

v0.24.0 2021 年 5 月 4 日
  • 增强功能
    • date_index 添加为时间序列问题的必填参数 #2217

    • OneHotEncoder 将转换后的列作为布尔值而不是浮点数返回 #2170

    • 将 Oversampler 转换器组件添加到 EvalML #2079

    • 将 Undersampler 添加到 AutoMLSearch,以及参数 _sampler_methodsampler_balanced_ratio #2128

    • 更新了预测解释函数,允许使用带有 XGBoost 估计器的 pipelines #2162

    • 添加了日期时间列的部分依赖支持 #2180

    • 更新了精确率-召回率曲线,添加了正标签索引参数,并修复了二维预测概率 #2090

    • HighlyNullDataCheck 中添加了 pct_null_rows #2211

    • 添加了一个独立的 AutoML search 方法以方便使用,该方法运行数据检查然后运行 AutoML #2152

    • 使 AutoML 的第一个批次具有预定义的顺序,线性模型优先,复杂模型最后 #2223 #2225

    • BalancedClassficationSampler 添加了采样字典支持 #2235

  • 修复
    • 修复了部分依赖没有遵守数值特征的网格分辨率参数的 bug #2180

    • 为多分类问题启用了 catboost 的预测解释 #2224

  • 变更
    • 删除了基线 pipeline 类 #2202

    • 恢复了用户指定的日期特征 PR #2155,直到找到 pmdarima 安装修复为止 #2214

    • 更新了 pipeline API 以接受 component graph 和其他类属性作为实例参数。旧的 pipeline API 仍然有效,但不会长期支持。 #2091

    • 移除了 EvalML 中所有旧的数据分割器 #2193

    • 删除了 make_pipeline_from_components #2218

  • 文档变更
    • 重命名了数据集,以澄清它是 gzipped 但不是 tarball #2183

    • 更新了文档,以使用 pipeline 实例而不是 pipeline 子类 #2195

    • 更新了贡献指南,增加了关于 GitHub Actions 权限的说明 #2090

    • 更新了 automl 和模型理解用户指南 #2090

  • 测试变更
    • 使用 machineFL 用户 token 进行依赖项更新 bot,并添加更多审阅者 #2189

警告

重大变更
  • 所有基线 pipeline 类(BaselineBinaryPipelineBaselineMulticlassPipelineBaselineRegressionPipeline 等)均已删除 #2202

  • 更新了 pipeline API,以接受 component graph 和其他类属性作为实例参数。旧的 pipeline API 仍然有效,但不会长期受支持。现在可以通过将 component graph 指定为第一个参数,然后传入可选参数(如 custom_nameparameters 等)来初始化 pipelines。例如:BinaryClassificationPipeline(["Random Forest Classifier"], parameters={})#2091

  • 移除了 EvalML 中所有旧的数据分割器 #2193

  • 删除了工具方法 make_pipeline_from_components #2218

v0.23.0 2021 年 4 月 20 日
  • 增强功能
    • 重构了 EngineBaseSequentialEngine API。新增 DaskEngine #1975

    • AutoMLSearch 添加了可选的 engine 参数 #1975

    • 当用户向 AutoMLSearch 传入时间序列问题时,添加了关于时间序列支持仍处于测试阶段的警告 #2118

    • 新增 NaturalLanguageNaNDataCheck 数据检查 #2122

    • partial_dependence 中添加了 ValueError,以防止用户计算所有 NaNs 列上的部分依赖性 #2120

    • 在排名表中添加了交叉验证分数的标准差 #2154

  • 修复
    • 修复了 BalancedClassificationDataCVSplitBalancedClassificationDataTVSplitBalancedClassificationSampler,使其使用 minority:majority 比例而不是 majority:minority #2077

    • 修复了带有分类变量的双向部分依赖图无法正常工作的 bug #2117

    • 修复了使用 list component_graph 和重复组件的 pipelines 中,hyperparameters 未正确显示的 bug #2133

    • 修复了 AutoMLSearch 中的 pipeline_parameters 参数未应用于作为 allowed_pipelines 传入的 pipelines 的 bug #2133

    • 修复了 AutoMLSearch 未将自定义超参数应用于具有 list component_graph 和重复组件的 pipelines 的 bug #2133

  • 变更
    • 移除了 Undersampler 中的 hyperparameter_ranges,并将采样器的 balanced_ratio 重命名为 sampling_ratio #2113

    • TARGET_BINARY_NOT_TWO_EXAMPLES_PER_CLASS 数据检查消息代码重命名为 TARGET_MULTICLASS_NOT_TWO_EXAMPLES_PER_CLASS #2126

    • 修改了分类特征的一维部分依赖图,以条形图形式显示数据 #2117

    • automl.rankingsscore 列重命名为 mean_cv_score #2135

    • 移除文档工具输出中的“warning” #2031

  • 文档变更
    • 修复了 conf.py 文件 #2112

    • 在 automl 用户指南中添加了一句话,说明我们对时间序列问题的支持仍处于测试阶段。 #2118

    • 修复了文档 demos #2139

    • 更新 README 中的测试徽章以使用 GitHub Actions #2150

  • 测试变更
    • 修复了针对 pandas v1.2.4test_describe_pipeline #2129

    • 添加了一个 GitHub Action 来构建 conda 包 #1870 #2148

警告

重大变更
  • BalancedClassificationDataCVSplitBalancedClassificationDataTVSplitBalancedClassficationSampler 和 Undersampler 的 balanced_ratio 重命名为 sampling_ratio #2113

  • 删除了 automl 结果中的“errors”键 #1975

  • 删除了 raise_and_save_error_callbacklog_and_save_error_callback #1975

  • 修复了 BalancedClassificationDataCVSplitBalancedClassificationDataTVSplitBalancedClassificationSampler,使其使用 minority:majority 比例而不是 majority:minority #2077

v0.22.0 2021 年 4 月 6 日
  • 增强功能
    • 添加了用于 linux_unit_tests 的 GitHub Action #2013

    • InvalidTargetDataCheck 添加了推荐操作,更新了 _make_component_list_from_actions 以处理新操作,并添加了 TargetImputer 组件 #1989

    • 更新了 AutoMLSearch._check_for_high_variance,使其不发出 RuntimeWarning #2024

    • 当传递给 explain_predictions 的 pipeline 是 Stacked Ensemble pipeline 时,添加了异常 #2033

    • 添加了低警报率下的敏感性作为目标函数 #2001

    • 新增 Undersampler 转换器组件 #2030

  • 修复
    • 更新了 Engine 的 train_batch 以应用欠采样 #2038

    • 修复了时间序列分类 pipelines 在 predictpredict_proba 中未编码目标的 bug #2040

    • 修复了分类问题中如果目标是浮点数导致数据分割错误的问题 #2050

    • docutils 固定为 <0.17,以修复 ReadtheDocs 警告问题 #2088

  • 变更
    • 移除了 AutoMLSearch 中列表作为可接受的超参数范围的功能 #2028

    • 将数据检查操作的“details”重命名为“metadata” #2008

  • 文档变更
    • 捕获并抑制文档中的警告 #1991 #2097

    • 更改 start.ipynb 中的间距,以提高 AutoMLSearch 的清晰度 #2078

    • 修复了 README 上的启动代码 #2108

  • 测试变更

v0.21.0 2021 年 3 月 24 日
  • 增强功能
    • AutoMLSearchoptimize_thresholds 默认值更改为 True #1943

    • 添加了多种过采样和欠采样方法作为不平衡分类的数据分割器 #1775

    • 为平衡分类数据分割器添加了 params 以提高可见性 #1966

    • 更新了 make_pipeline,如果输入数据没有数值或分类列,则不添加 Imputer #1967

    • 更新了 ClassImbalanceDataCheck 以更好地处理多类不平衡问题 #1986

    • 为数据检查的 validate 方法的输出添加了推荐的操作 #1968

    • partial_dependence 添加了错误消息,用于特征值大部分相同的情况 #1994

    • 更新了 OneHotEncoder,默认删除具有两个类别的特征的一个冗余特征 #1997

    • 新增了 PolynomialDecomposer 组件 #1992

    • 新增 DateTimeNaNDataCheck 数据检查 #2039

  • 修复
    • 将最佳 pipeline 更改为在整个数据集上训练,而不是仅对集成问题使用集成索引 #2037

    • 更新了二元分类 pipelines,在评估自定义目标函数时使用目标函数决策函数 #1934

  • 变更
    • AutoMLSearch 中移除了 data_checks 参数、data_check_results 和数据检查逻辑 #1935

    • 删除了 random_state 参数 #1985

    • 将 Woodwork 版本要求更新至 v0.0.11 #1996

  • 文档变更

  • 测试变更
    • 删除了 build_docs CI 作业,改为 RTD GH 构建器 #1974

    • 添加了测试以确认支持 Python 3.9 #1724

    • 新增了测试以支持 Dask AutoML/Engine #1990

    • build_conda_pkg 作业更改为使用 feedstock 中的 latest_release_changes 分支。 #1979

警告

重大变更
  • AutoMLSearchoptimize_thresholds 默认值更改为 True #1943

  • 移除了 AutoMLSearch 中的 data_checks 参数、data_check_results 和数据检查逻辑。要运行之前在 AutoMLSearch 中默认运行的数据检查,请调用 DefaultDataChecks().validate(X_train, y_train) 或查看我们的文档了解更多示例。 #1935

  • 删除了 random_state 参数 #1985

v0.20.0 2021 年 3 月 10 日
  • 增强功能
    • 添加了用于检测依赖项更改的 GitHub Action #1933

    • 为 AutoMLSearch 创建单独的 CV split 来训练堆叠集成模型 #1814

    • 添加了用于 Linux 单元测试的 GitHub Action #1846

    • 新增 ARIMARegressor 估计器 #1894

    • 新增 DataCheckAction 类和 DataCheckActionCode 枚举 #1896

    • 更新了 Woodwork 要求至 v0.0.10 #1900

    • BalancedClassificationDataCVSplitBalancedClassificationDataTVSplit 添加到 AutoMLSearch #1875

    • 更新默认分类数据分割器,对高度不平衡数据使用欠采样 #1875

    • 更新了 describe_pipeline 以返回更多信息,包括用于集成模型的 pipeline 的 id #1909

    • 添加了工具方法,用于根据 DataCheckAction 列表创建组件列表 #1907

    • 更新了 validate 方法,在所有 DataCheck``and ``DataChecks 的返回字典中包含 action#1916

    • 聚合了我们知道来源的预测的 shap 值,例如 OHE、文本和日期时间。 #1901

    • 改进了在 pipeline.score 中将自定义目标作为字符串传入时的错误消息 #1941

    • AutoMLSearch 添加了 score_pipelinestrain_pipelines 方法 #1913

    • pandas 1.2.0 版本添加了支持 #1708

    • EngineBase 添加了抽象方法 score_batchtrain_batch,并在 SequentialEngine 中实现了它们 #1913

    • 添加了在 AutoMLSearchDataChecks 中处理索引列的能力 #2138

  • 修复
    • 移除了 check_dependencies_updated_linux 的 CI 检查 #1950

    • 为时间序列 pipelines 添加了元类,并修复了二元分类 pipeline predict 在目标函数作为命名参数传入时不使用目标函数的 bug #1874

    • 修复了由混合字符串/数字 pandas 列名导致的预测解释函数中的堆栈跟踪问题 #1871

    • 修复了将具有重复名称的 pipelines 传递给 AutoMLSearch 导致的堆栈跟踪问题 #1932

    • 修复了 AutoMLSearch.get_pipelines 返回具有相同属性的 pipelines 的 bug #1958

  • 变更
    • 恢复了 Linux 单元测试的 GitHub Action,直到找到报告生成修复为止 #1920

    • 更新了 AutoMLAlgorithm 中的 add_results,使其接受来自 AutoMLSearch 的整个 pipeline 结果字典 #1891

    • 更新了 ClassImbalanceDataCheck 以寻找严重的类不平衡场景 #1905

    • 删除了 explain_prediction 函数 #1915

    • 移除了 HighVarianceCVDataCheck 并将其转换为 AutoMLSearch 方法 #1928

    • 移除了 InvalidTargetDataCheck 中当数字二元分类目标不是 (0, 1) 时返回的警告 #1959

  • 文档变更
    • 更新了 model_understanding.ipynb 以演示双向部分依赖功能 #1919

  • 测试变更

警告

重大变更
  • 删除了 explain_prediction 函数 #1915

  • 移除了 HighVarianceCVDataCheck 并将其转换为 AutoMLSearch 方法 #1928

  • EngineBase 添加了抽象方法 score_batchtrain_batch。这些需要在 Engine 子类中实现 #1913

v0.19.0 2021 年 2 月 23 日
  • 增强功能
    • 添加了用于 Python windows 单元测试的 GitHub Action #1844

    • 添加了用于检查更新的发布说明的 GitHub Action #1849

    • 添加了用于 Python lint 检查的 GitHub Action #1837

    • 调整了 explain_predictionexplain_predictionsexplain_predictions_best_worst 以处理时间序列问题。 #1818

    • 更新了 InvalidTargetDataCheck,以检查目标和特征中不匹配的索引 #1816

    • 更新了组件返回的 Woodwork 结构,以支持用户设置的 Woodwork 逻辑类型覆盖 #1784

    • 更新了 estimators,使其在 fit() 期间跟踪输入特征名称 #1794

    • 更新了 visualize_decision_tree,在输出中包含特征名称 #1813

    • 为目标函数添加了 is_bounded_like_percentage 属性。如果为 True,则 calculate_percent_difference 方法将返回绝对差而不是相对差 #1809

    • 为 AutoMLSearch 日志文件添加了完整的错误堆栈跟踪 #1840

    • 更改了 TargetEncoder 以保留数据中的自定义索引 #1836

    • 重构了 explain_predictionsexplain_predictions_best_worst,以便只对需要解释的所有行计算一次特征 #1843

    • 为分类问题添加了自定义随机欠采样器数据分割器 #1857

    • 更新了 OutliersDataCheck 实现,以计算没有异常值的概率 #1855

    • 添加了 Engines pipeline 处理 API #1838

  • 修复
    • 将 EngineBase random_state 参数更改为 random_seed,用户指南文档中也做了相同更改 #1889

  • 变更
    • 修改了 calculate_percent_difference,现在除以 0 的结果为 inf 而非 nan #1809

    • LSATextFeaturizer 组件中移除了 text_columns 参数 #1652

    • 在我们的 automl/pipeline/component API 中添加了 random_seed 参数。使用 random_state 将发出警告 #1798

    • InvalidTargetDataCheck 中添加了 DataCheckError 消息,如果输入目标为 None,并移除了引发的异常 #1866

  • 文档变更

  • 测试变更
    • 在移除了 text_columns 后,重新为 TextFeaturizer 中的 _get_feature_provenance 添加了覆盖率 #1842

    • 固定 Windows 构建的 graphviz 版本 #1847

    • 取消固定 Windows 构建的 graphviz 版本 #1851

警告

重大变更
  • explain_prediction 添加了弃用警告。它将在下一次发布中被删除。 #1860

v0.18.2 2021 年 2 月 10 日
  • 增强功能
    • 新增唯一性得分数据检查 #1785

    • 为预测解释添加了“dataframe”输出格式 #1781

    • 更新了 LightGBM 估计器以处理 pandas.MultiIndex #1770

    • 加快了某些 pipeline 的排列重要性计算 #1762

    • 新增稀疏性数据检查 #1797

    • 确认支持对二元时间序列分类问题进行阈值调优 #1803

  • 修复

  • 变更

  • 文档变更
    • 在贡献指南中添加了关于 conda 的部分 #1771

    • 更新了发布流程,以反映性能测试前冻结 main #1787

    • 将一些 PR 移动到发布说明的正确部分 #1789

    • 修改 README.md。 #1800

    • 修复了安装页面文档上的后退箭头 #1795

    • 修复了 ClassImbalanceDataCheck.validate() 的文档字符串 #1817

  • 测试变更

v0.18.1 2021 年 2 月 1 日
  • 增强功能
    • 新增 graph_t_sne 作为高维数据可视化工具 #1731

    • 新增查看线性模型项中特征线性系数的能力 #1738

    • 新增对 scikit-learn v0.24.0 的支持 #1733

    • 新增对 scipy v1.6.0 的支持 #1752

    • 将 SVM 分类器和回归器添加到 estimators #1714 #1761

  • 修复
    • 解决了 partial_dependence 和类别多于网格分辨率的分类数据之间的 bug #1748

    • AutoMLSearchget_pipelines 中移除了 random_state 参数 #1719

    • 将 pyzmq 版本锁定在小于 22.0.0,直到我们添加支持 #1756

  • 变更
    • 更新了组件和 pipelines 以返回 Woodwork 数据结构 #1668

    • 更新了 pipelines 和组件的 clone(),使其自动复制随机状态 #1753

    • 放弃了对 Python 3.6 版本的支持 #1751

    • AutoMLSearch 参数中移除了弃用的 verbose 标志 #1772

  • 文档变更
    • 在文档工具栏中添加了 Twitter 和 Github 链接 #1754

    • 为文档添加了 Open Graph 信息 #1758

  • 测试变更

警告

重大变更
  • 组件和 pipelines 返回 Woodwork 数据结构而不是 pandas 数据结构 #1668

  • 由于 EvalML 依赖项停止支持,将不再积极支持 Python 3.6。

  • 移除了 AutoMLSearch 中弃用的 verbose 标志 #1772

v0.18.0 2021 年 1 月 26 日
  • 增强功能
    • invalid_targets_data_check 中检查负目标值的同时,将 RMSLE、MSLE 和 MAPE 添加到核心目标函数 #1574

    • invalid_targets_data_check 中为具有回归式数据集的二元问题和没有真正多类目标的多元问题添加了验证检查 #1665

    • 新增对 make_pipeline 的时间序列支持 #1566

    • 新增 pipeline predict 方法输出的目标名称 #1578

    • InvalidTargetDataCheck 中添加了多类检查,以确保每个类有两个示例 #1596

    • 新增对 graphviz v0.16 的支持 #1657

    • 增强了时间序列 pipelines 以接受空特征 #1651

    • 将 KNN 分类器添加到 estimators 中。 #1650

    • 为目标函数的列表输入添加了支持 #1663

    • AutoMLSearch 添加了对处理时间序列分类 pipelines 的支持 #1666

    • 增强了 DelayedFeaturesTransformer,使其在延迟分类特征和目标之前对其进行编码 #1691

    • 新增了双向依赖图。 #1690

    • 新增了直接迭代 Pipelines 中组件的能力 #1583

  • 修复
    • 修复了不一致的属性,并在文档中添加了 Exceptions #1673

    • 修复了 TargetLeakageDataCheck,改用 Woodwork 的 mutual_information 而非 Pandas 的 Pearson 相关性 #1616

    • 修复了 AutoMLSearch 中管道的阈值设定,使其仅对二元分类管道设定阈值 #1622 #1626

    • 更新了 load_data,使其返回 Woodwork 结构,并将 index 参数的默认值更新为 None #1610

    • 暂时限制 scipy 版本低于 1.6.0,同时我们正在努力添加支持 #1629

    • 修复了 AutoMLSearch 中的数据检查消息格式 #1633

    • 通过将默认交叉验证的 shuffle 设置为 True,解决了对 scikit-learn v0.24 支持的堆叠集成组件问题 #1613

    • 修复了 Imputer 重置 X 索引的错误 #1590

    • 修复了在将自定义目标作为主要目标或附加目标传入时 AutoMLSearch 的堆栈跟踪问题 #1575

    • 修复了 MAPE 目标函数的自定义索引错误 #1641

    • 修复了 TextFeaturizerLSA 组件的索引错误 #1644

    • 限制了加载到 automl.ipynb 中的 load_fraud 数据集大小 #1646

    • 在必要时,add_to_rankings 会更新 AutoMLSearch.best_pipeline #1647

    • 修复了时间序列基线估计器在 AutoMLSearch 中未接收 gapmax_delay 参数的错误 #1645

    • 修复了 jupyter notebooks,以帮助减少 RTD 构建时间 #1654

    • positive_only 目标添加到了 non_core_objectives #1661

    • 修复了 IterativeAlgorithm 的堆叠参数 n_jobs #1706

    • 更新了 CatBoost 估计器,使其在 .fit() 中返回自身而非底层模型,以保持一致性 #1701

    • 添加了在 AutoMLSearch 构造函数中初始化管道参数的功能 #1676

  • 变更
    • graph_confusion_matrix 添加了标签 #1632

    • 重新运行 AutoMLSearch 搜索时将抛出消息而非使搜索失败,并移除了 has_searched 属性 #1647

    • 更改了调优器类,使其允许并忽略单个参数值作为输入 #1686

    • 限制 LightGBM 版本上限,以消除文档中的错误 #1711

    • 移除了 EvalML 中对 np.random.RandomState 的支持 #1727

  • 文档变更
    • 更新用户指南中的模型理解部分,包含了 visualize_decision_tree #1678

    • 更新文档,包含了 AutoMLSearch 回调参数和方法的信息 #1577

    • 更新文档,提示用户在 Mac 上安装 graphviz #1656

    • start.ipynb 指南中添加了 infer_feature_types #1700

    • 在 API 参考和文档中添加了多重共线性数据检查 #1707

  • 测试变更

警告

重大变更
  • AutoMLSearch 中移除了 has_searched 属性 #1647

  • 组件和 pipelines 返回 Woodwork 数据结构而不是 pandas 数据结构 #1668

  • 移除了 EvalML 中对 np.random.RandomState 的支持。在组件和管道的 random_state 值方面,我们改用整数 random_seed,而非传入 np.random.RandomState #1727

v0.17.0 2020 年 12 月 29 日
  • 增强功能
    • 添加了 save_plot,允许保存来自不同后端的图表 #1588

    • LightGBM Regressor 添加到回归组件中 #1459

    • 添加了用于决策树可视化的 visualize_decision_tree,并添加了 decision_tree_data_from_estimatordecision_tree_data_from_pipeline 来重新格式化树结构输出 #1511

    • 将 DFS Transformer 组件添加到转换器组件中 #1454

    • MAPE 添加到时间序列问题的标准评估指标中,并更新了目标函数 #1510

    • graph_prediction_vs_actual_over_timeget_prediction_vs_actual_over_time_data 添加到时间序列问题的模型理解模块中 #1483

    • 添加了一个 ComponentGraph 类,它将支持未来的管道作为有向无环图 #1415

    • 更新了数据检查,使其接受 Woodwork 数据结构 #1481

    • InvalidTargetDataCheck 添加了一个参数,使其仅显示顶部唯一值而非所有唯一值 #1485

    • 添加了多重共线性数据检查 #1515

    • 为时间序列回归问题添加了基线管道和组件 #1496

    • 向用户提供了更多关于 AutoMLSearch 中集成行为的信息 #1527

    • 添加 woodwork 支持以提供更多实用工具和图方法 #1544

    • 更改了 DateTimeFeaturizer,使其将特征编码为整数 #1479

    • AutoMLSearch.best_pipeline 返回训练好的管道 #1547

    • 添加了一个实用方法,用户无需直接了解 Woodwork 即可设置特征类型 #1555

    • 添加了用于降维的线性判别分析转换器 #1331

    • partial_dependencegraph_partial_dependence 添加了多类别支持 #1554

    • 添加了 TimeSeriesBinaryClassificationPipelineTimeSeriesMulticlassClassificationPipeline#1528

    • 添加了 make_data_splitter 方法,以便更轻松地自定义 automl 数据分割 #1568

    • ComponentGraph 类集成到 Pipelines 中,以完全支持非线性管道 #1543

    • 更新 AutoMLSearch 构造函数,使其接受训练数据而非 searchadd_to_leaderboard #1597

    • 更新 split_data 辅助方法的参数 #1597

    • 添加问题类型工具方法 is_regressionis_classificationis_timeseries #1597

    • AutoMLSearchdata_split 参数重命名为 data_splitter #1569

  • 修复
    • 修复 AutoML 未将交叉验证折叠传递给 DefaultDataChecks 以供 ClassImbalanceDataCheck 使用的问题 #1619

    • 修复 Windows CI 作业:通过 conda 安装 numba,这是 shap 所必需的 #1490

    • 为 reset-index-get_prediction_vs_actual_over_time_data 添加了自定义索引支持 #1494

    • 修复 generate_pipeline_code,使其考虑 Python 和 JSON 之间布尔值和 None 的差异 #1524 #1531

    • 设置 plotly 和 xgboost 版本上限,同时我们正在调试较新版本引起的 CI 失败 #1532

    • 取消对 plotly 的版本限制 #1533

    • 通过更新 setuptools 版本修复 ReadTheDocs 构建 #1561

    • 在 AutoMLSearch 中将数据分割器的 random_state 设置为接受整数,以保持分割结果的一致性 #1579

    • 暂时限制 sklearn 版本,同时我们正在努力添加支持 #1594

    • 暂时限制 pandas 版本低于 1.2.0,同时我们正在努力添加支持 #1609

    • 暂时限制 graphviz 版本低于 0.16,同时我们正在努力添加支持 #1609

  • 变更
    • 恢复 save_graph #1550,以解决 kaleido 构建问题 #1585

    • 更新 circleci 徽章,使其应用于 main 分支 #1489

    • 添加了生成 GitHub 发布 markdown 的脚本 #1487

    • 更新了使用 pandas dtypes 进行选择的方法,改为使用 Woodwork 逻辑类型进行选择 #1551

    • 更新了依赖项,以修复 ImportError: cannot import name 'MaskedArray' from 'sklearn.utils.fixes' 错误,并解决了 Woodwork 和 Featuretool 的依赖问题 #1540

    • get_prediction_vs_actual_data() 方法公开 #1553

    • Woodwork 版本要求更新至 v0.0.7 #1560

    • 将数据分割器从 evalml.automl.data_splitters 移动到 evalml.preprocessing.data_splitters #1597

    • 将 automl 日志输出中的“# Testing”重命名为“# Validation” #1597

  • 文档变更
    • 在 API 参考中添加了偏依赖方法 #1537

    • 更新了混淆矩阵方法的文档 #1611

  • 测试变更
    • 在大多数单元测试中将 n_jobs 设置为 1,以减少内存占用 #1505

警告

重大变更
  • 更新了最低依赖项:numpy>=1.19.1pandas>=1.1.0scikit-learn>=0.23.1scikit-optimize>=0.8.1

  • 更新了 AutoMLSearch.best_pipeline,使其返回一个已训练的管道。如需返回未训练的管道,请在 AutoMLSearch 中传入 train_best_pipeline=False

  • 管道组件实例无法再通过 Pipeline.component_graph 进行迭代 #1543

  • 更新 AutoMLSearch 构造函数,使其接受训练数据而非 searchadd_to_leaderboard #1597

  • 更新 split_data 辅助方法的参数 #1597

  • 将数据分割器从 evalml.automl.data_splitters 移动到 evalml.preprocessing.data_splitters #1597

  • AutoMLSearchdata_split 参数重命名为 data_splitter #1569

v0.16.1 2020 年 12 月 1 日
  • 增强功能
    • 将 woodwork 版本固定为 v0.0.6,以避免重大更改 #1484

    • core-requirements.txt 中将 Woodwork 更新至 >=0.0.5 #1473

    • 移除了 Woodworkcopy_dataframe 参数,并在 core-requirements.txt 中将 Woodwork 更新至 >=0.0.6 #1478

    • 更新了 detect_problem_type,使其使用 pandas.api.is_numeric_dtype #1476

  • 变更
    • 更改了 make clean 命令,使其删除覆盖率报告,方便开发者 #1464

    • 默认将堆叠集成组件的 n_jobs 设置为 -1 #1472

  • 文档变更
    • 更新了管道和组件文档以及演示,使其使用 Woodwork #1466

  • 测试变更
    • 更新了依赖项更新检查器,使其使用核心和可选依赖项中的所有内容 #1480

v0.16.0 2020 年 11 月 24 日
  • 增强功能
    • 更新了管道和 make_pipeline,使其接受 Woodwork 输入 #1393

    • 更新了组件,使其接受 Woodwork 输入 #1423

    • 添加了冻结 AutoMLSearch 超参数的功能 #1284

    • Target Encoder 添加到转换器组件中 #1401

    • AutoMLSearch 中添加了用于错误处理的回调 #1403

    • explain_predictions_best_worst 输出中添加了索引 ID,以帮助用户识别其数据中包含哪些行 #1365

    • explain_predictions_* 函数中显示的 top_k 特征现在根据 shap 值的幅度确定,而不是根据 top_k 最大和最小的 shap 值确定。 #1374

    • 添加了时间序列回归问题类型 #1386

    • ObjectiveBase 添加了 is_defined_for_problem_type 方法 #1386

    • make_pipeline_from_components 函数添加了 random_state 参数 #1411

    • 添加了 DelayedFeaturesTransformer #1396

    • 添加了一个 TimeSeriesRegressionPipeline#1418

    • 从包分发中移除了 core-requirements.txt #1429

    • 更新了数据检查消息,使其包含“code”和“details”字段 #1451, #1462

    • 为时间序列问题添加了一个 TimeSeriesSplit 数据分割器 #1441

    • 向 AutoMLSearch 添加了 problem_configuration 参数 #1457

  • 修复
    • 修复了在 ensembling = True 但只有一个管道可迭代时 AutoMLSearch 中引发的 IndexError #1397

    • 修复了 AutoMLSearch 中的堆叠集成输入错误以及 LightGBM 警告和错误 #1388

    • 更新了枚举类,使其将可能的枚举值显示为属性 #1391

    • 更新了对 Woodworkto_pandas() 的调用,改为调用 to_series()to_dataframe() #1428

    • 修复了 OHE 中列名无法保证唯一性的错误 #1349

    • 修复了 ExpVariance 目标函数在目标高度偏斜的数据上的百分比改进计算错误 #1467

    • 修复了当所有特征都是布尔类型时 SimpleImputer 发生的错误 #1215

  • 变更
    • 更改了 OutliersDataCheck,使其返回包含离群值的列列表,而非行列表 #1377

    • 简化并清理了代码生成的输出 #1371

    • 恢复了 #1337 中的更改 #1409

    • 更新了数据检查,使其返回警告和错误的字典而非列表 #1448

    • 更新了 AutoMLSearch,使其将 Woodwork 数据结构传递给每个管道(而非 pandas DataFrames) #1450

    • 更新 AutoMLSearch,使其默认 max_batches=1 而非 max_iterations=5 #1452

    • 更新了 _evaluate_pipelines,以合并副作用 #1410

  • 文档变更
    • 在贡献指南中添加了 CLA 的描述,更新了草稿 PR 的描述 #1402

    • 更新了文档,包含了所有数据检查、DataChecks 以及 AutoML 中数据检查的使用 #1412

    • 更新了文档字符串,将 np.array 改为 np.ndarray #1417

    • 在 AutoMLSearch 文档中添加了关于堆叠集成的部分 #1425

  • 测试变更
    • 从 test-requirements.txt 中移除了 category_encoders #1373

    • 再次调整 codecov.io 设置以避免不稳定性 #1413

    • 修改了 make lint,使其检查文档中的 notebook 版本 #1431

    • 修改了 make lint-fix,使其标准化文档中的 notebook 版本 #1431

    • 使用新版本的 Pull Request Github Action 进行依赖项检查 (#1443)

    • 将测试工作进程数减少到 4 #1447

警告

重大变更
  • explain_predictions_* 函数中的 top_ktop_k_features 参数现在返回 k 个特征,而不是 2 * k 个特征 #1374

  • RegressionObjectiveBinaryClassificationObjectiveMulticlassClassificationObjective 中将 problem_type 重命名为 problem_types #1319

  • 数据检查现在返回一个警告和错误的字典,而不是一个列表 #1448

v0.15.0 2020 年 10 月 29 日
  • 增强功能
    • 添加了堆叠集成组件类 (StackedEnsembleClassifier, StackedEnsembleRegressor) #1134

    • AutoMLSearch 中添加了堆叠集成组件 #1253

    • DecisionTreeClassifierDecisionTreeRegressor 添加到 AutoML 中 #1255

    • model_understanding 中为回归问题添加了 graph_prediction_vs_actual #1252

    • OneHotEncoder 添加了一个参数,以启用对要编码特征的过滤 #1249

    • 将所有目标函数的优于基线百分比添加到了 automl.results #1244

    • 添加了 HighVarianceCVDataCheck,并替换了 AutoMLSearch 中的同义警告 #1254

    • 添加了用于降维的 PCA Transformer 组件 #1270

    • 添加了 generate_pipeline_codegenerate_component_code,允许根据管道或组件实例生成代码 #1306

    • 添加了用于降维的 PCA Transformer 组件 #1270

    • 更新了 AutoMLSearch,使其支持 Woodwork 数据结构 #1299

    • 将 cv_folds 添加到 ClassImbalanceDataCheck,并将此检查添加到了 DefaultDataChecks #1333

    • 使 AutoMLSearch.searchmax_batches 参数公开 #1320

    • 为 automl 搜索添加了文本支持 #1062

    • _pipelines_per_batch 作为私有参数添加到了 AutoMLSearch #1355

  • 修复
    • 修复了有序数据集的机器学习性能问题:在 automl 的默认交叉验证分割中始终对数据进行洗牌 #1265

    • 修复了损坏的 evalml info CLI 命令 #1293

    • 修复了 LightGBM Classifier 的 boosting type='rf' 问题以及 num_leaves 错误 #1302

    • 修复了 explain_predictions_best_worst 中目标变量中的自定义索引会导致 ValueError 的错误 #1318

    • 将堆叠集成估计器添加到了 evalml.pipelines.__init__ 文件 #1326

    • 修复了 OHE 中的一个错误,当 top_n 小于列中的类别数时,调用 transform 不具有确定性 #1324

    • 修复了 AutoMLSearch 期间 LightGBM 的警告消息 #1342

    • 修复了 HighVarianceCVDataCheck 在 AutoMLSearch 期间抛出的警告 #1346

    • 修复了 TrainingValidationSplit 对带有自定义索引的 dataframe 返回无效位置索引的错误 #1348

    • 修复了 AutoMLSearch 的 random_state 未传递给创建的管道的错误 #1321

  • 变更
    • 允许在调用 AutoMLSearch 之前调用 add_to_rankings #1250

    • 从 test-requirements 中移除 Graphviz 并添加到 requirements.txt #1327

    • AutoMLSearch 中移除了 max_pipelines 参数 #1264

    • 在所有安装 make 目标中包含可编辑安装 #1335

    • 将 pip 依赖项 featuretools 和 nlp_primitives 设为核心依赖项 #1062

    • 从 TextFeaturizer 转换原语中移除了 PartOfSpeechCount #1062

    • 当特征包含空值时,为 partial_dependency 添加了警告 #1352

  • 文档变更
    • 修复和更新了发布说明中的代码块 #1243

    • 在 API 参考中添加了 DecisionTree 估计器 #1246

    • 更改了类继承显示,使其垂直排列 #1248

    • 更新了成本效益教程,使其使用留出/测试集 #1159

    • 在文档中添加了 evalml info 命令 #1293

    • 其他文档更新 #1269

    • 从发布流程文档中移除了 conda 预发布测试 #1282

    • 更新了贡献指南 #1310

    • 在文档中添加了 Alteryx 页脚,包含 Twitter 和 Github 链接 #1312

    • 添加了 Python 3.6 的 evalml 安装文档 #1322

    • 添加了文档更改,使 API 文档更易于理解 #1323

    • 修复了 feature_importance 的文档 #1353

    • 添加了使用文本数据运行 AutoML 的教程 #1357

    • 添加了 woodwork 与 automl 搜索集成的文档 #1361

  • 测试变更
    • 添加了 jupyter_check 的测试以处理 IPython #1256

    • 清理了 make_pipeline 测试,使其测试所有估计器 #1257

    • 添加了一个测试,检查合并到主分支后的 conda 构建 #1247

    • 移除了 __main__.py 中缺少 codecov 且不必要的代码 #1293

    • Codecov:将覆盖率向上取整而非向下取整 #1334

    • 将 DockerHub 凭据添加到 CI 测试环境 #1356

    • 将 DockerHub 凭据添加到 conda 测试环境 #1363

警告

重大变更
  • LabelLeakageDataCheck 重命名为 TargetLeakageDataCheck #1319

  • AutoMLSearch 中的 max_pipelines 参数已被移除。请改用 max_iterations#1264

  • 如果输入不是 Woodwork 数据结构(pandasnumpy),AutoMLSearch.search() 现在将记录警告 #1299

  • 使 AutoMLSearch.searchmax_batches 参数公开 #1320

  • 从 AutoMLSearch.search 中移除了未使用的参数 feature_types #1062

v0.14.1 2020 年 9 月 29 日
  • 增强功能
    • 更新了偏依赖方法,以支持计算包含非数值列的数据集中的数值列 #1150

    • OneHotEncoder 上添加了 get_feature_names #1193

    • detect_problem_type 添加到 problem_type/utils.py 中,以便根据目标自动检测问题类型 #1194

    • 将 LightGBM 添加到 AutoMLSearch#1199

    • 更新了 scikit-learnscikit-optimize,分别使用最新版本 - 0.23.2 和 0.8.1 #1141

    • 为管道和组件添加了 __str____repr__ 方法 #1218

    • AutoMLSearch 中包含了对训练和验证数据的内部目标检查 #1226

    • 添加了 ProblemTypes.all_problem_types 辅助方法,用于获取支持的问题类型列表 #1219

    • 添加了 DecisionTreeClassifierDecisionTreeRegressor#1223

    • 添加了 ProblemTypes.all_problem_types 辅助方法,用于获取支持的问题类型列表 #1219

    • DataChecks 现在可以通过传递 DataCheck 类列表和参数字典来进行参数化 #1167

    • AutoMLSearch.rankings 中将第一个交叉验证折叠得分添加为验证得分 #1221

    • 更新了 flake8 配置,使其能够对 __init__.py 文件进行 linting #1234

    • 完善了 make_pipeline_from_components 的实现 #1204

  • 修复
    • 迁移到 Alteryx GitHub 组织后更新了 GitHub URL #1207

    • 更改了问题类型枚举,使其更类似于字符串名称 #1208

    • 将对 scikit-learn 偏依赖方法的调用封装在 try/finally 块中 #1232

  • 变更
    • allow_writing_files 作为命名参数添加到了 CatBoost 估计器。 #1202

    • solvermulti_class 作为命名参数添加到了 LogisticRegressionClassifier #1202

    • .compute_estimator_features 替换了管道的 ._transform 方法,用于评估管道的所有预处理步骤 #1231

    • 更改了大型数据集训练/测试分割的默认行为 #1205

  • 文档变更
    • 在管道用户指南中包含了如何访问组件实例和特征的描述 #1163

    • 更新了 API 文档,在非分类任务中将 target 称为“target”而非“labels”,并进行了少量文档清理 #1160

    • 将类别不平衡数据检查添加到了 api_reference.rst #1190 #1200

    • 在 API 参考中添加了管道属性 #1209

    • 在 AutoML API 参考和 AutoML 用户指南中澄清了 AutoML 中的 objective 参数的用途 #1222

    • 更新了 API 文档,包含了用于组件超参数范围定义的 skopt.space.Categorical 选项 #1228

    • 添加了用于在 Mac 上使用 LightGBM 的 libomp 安装文档 #1233

    • 改进了文档中对 max_iterations 的描述 #1212

    • 移除了 sphinx 配置中未使用的代码 #1235

  • 测试变更

警告

重大变更
  • DefaultDataChecks 现在接受必须指定的 problem_type 参数 #1167

  • 管道的 ._transform 方法(用于评估管道的所有预处理步骤)已被 .compute_estimator_features 替换 #1231

  • get_objectives 已重命名为 get_core_objectives。此函数现在将返回一个有效的目标实例列表 #1230

v0.13.2 2020 年 9 月 17 日
  • 增强功能
    • 向解释预测函数添加了 output_format 字段 #1107

    • 修改了 get_objectiveget_objectives,使其能够返回 evalml.objectives 中的任何目标 #1132

    • get_objective 添加了一个 return_instance 布尔参数 #1132

    • 添加了 ClassImbalanceDataCheck,用于确定目标不平衡是否低于给定阈值 #1135

    • 为 LightGBM 添加了用于二元分类的标签编码器 #1152

    • 为混淆矩阵的行索引添加了标签 #1154

    • AutoMLSearch 对象作为另一个参数添加到了搜索回调中 #1156

    • graph_roc_curve 中显示的每个点添加了相应的概率阈值 #1161

    • ComponentBasePipelineBase 添加了 __eq__ 方法 #1178

    • roc_curve 添加了多类别分类支持 #1164

    • OneHotEncoder 添加了 categories 访问器,用于列出与特征关联的类别 #1182

    • 添加了实用函数,用于从组件实例列表创建管道实例 #1176

  • 修复
    • 修复了偏依赖方法的 XGBoost 列名问题 #1104

    • TextFeaturizer 中移除了用于验证列类型的死代码 #1122

    • 修复了当类别或布尔列中存在 None 值时 Imputer 无法拟合的问题 #1144

    • OneHotEncoder 保留输入数据中的自定义索引 #1146

    • 修复了 ModelFamily 的表示问题 #1165

    • 移除了 dev-requirements.txt 中重复的 nbsphinx 依赖项 #1168

    • 用户现在可以将任何有效的 kwargs 传递给所有估计器 #1157

    • 移除了损坏的访问器 OneHotEncoder.get_feature_names 和不需要的基类 #1179

    • 从 AutoML 模型中移除了 LightGBM 估计器 #1186

  • 变更
    • scikit-optimize 版本固定为 0.7.4 #1136

    • 移除了 tqdm 作为依赖项 #1177

    • 将 lightgbm 版本 3.0.0 添加到 latest_dependency_versions.txt #1185

    • max_pipelines 重命名为 max_iterations #1169

  • 文档变更
    • 修复了 AutoMLSearchadd_result_callback 的 API 文档 #1113

    • 在我们的发布流程中添加了一个步骤,用于将最新版本推送到 conda-forge #1118

    • 为在 Jupyterlab 上使用 PipelineSearchPlots 时缺少 ipywidgets 依赖项添加了警告 #1145

    • 更新了 README.md 示例,使其加载演示数据集 #1151

    • 交换了 model_understanding.ipynb 中乳腺癌目标的映射 #1170

  • 测试变更
    • 添加了测试以确认 TextFeaturizer 不会输出空值 #1122

    • Update Dependencies Action 的 Python 版本更改为 3.8.x #1137

    • 修复了 Update Dependencies Action 的发布说明签入测试 #1172

警告

重大变更
  • get_objective 现在默认返回类定义而非实例 #1132

  • 删除了 evalml.objectives.utils.py 中的 OPTIONS 字典 #1132

  • 如果通过字符串指定目标,则该字符串现在必须与目标的 name 字段(不区分大小写)匹配 #1132

  • 传入“Cost Benefit Matrix”、“Fraud Cost”、“Lead Scoring”、“Mean Squared Log Error”、

    “Recall”、“Recall Macro”、“Recall Micro”、“Recall Weighted”或“Root Mean Squared Log Error”给 AutoMLSearch 现在将导致 ValueError 而非 ObjectiveNotFoundError #1132

  • 搜索回调 start_iteration_callbackadd_results_callback 已更改,将包含 AutoMLSearch 对象的副本作为第三个参数 #1156

  • 删除了已损坏一段时间的 OneHotEncoder.get_feature_names 方法,转而使用管道的 input_feature_names #1179

  • 删除了 OneHotEncoder 组件曾继承的空基类 CategoricalEncoder #1176

  • roc_curve 的结果现在将以字典列表的形式返回,每个字典代表一个类别 #1164

  • max_pipelines 现在会引发 DeprecationWarning,并将在下一版本中移除。应改用 max_iterations#1169

v0.13.1 2020 年 8 月 25 日
  • 增强功能
    • 添加了用于二元分类的 Cost-Benefit Matrix 目标函数 #1038

    • 为 Imputer 将 fill_value 分割为 categorical_fill_valuenumeric_fill_value #1019

    • 添加了 explain_predictionsexplain_predictions_best_worst,用于使用 SHAP 解释多个预测 #1016

    • 添加了用于文本特征化的新 LSA 组件 #1022

    • 添加了使用 conda 安装的指南 #1041

    • 添加了一个“成本效益曲线”实用方法,用于绘制成本效益矩阵得分与二元分类阈值的关系图 #1081

    • 标准化了管道在拟合前调用 transform/predict 时的错误处理 #1048

    • percent_better_than_baseline 添加到了 AutoML 搜索排名和完整排名表中 #1050

    • 添加了单向偏依赖和偏依赖图 #1079

    • 向预测解释报告中添加了“特征值”列。 #1064

    • 添加了 LightGBM 分类估计器 #1082, #1114

    • AutoMLSearch 添加了 max_batches 参数 #1087

  • 修复
    • 更新了 TextFeaturizer 组件,使其运行不再需要互联网连接 #1022

    • 修复了 TextFeaturizer 转换的非确定性部分 #1022

    • 为所有 ElasticNet 管道添加了 StandardScaler #1065

    • 更新了成本效益矩阵以标准化得分 #1099

    • 修复了 calculate_percent_difference 中的逻辑,使其可以处理负值 #1100

  • 变更
    • ComponentBase 添加了 needs_fitting 属性 #1044

    • 更新了数据类型的引用,使其使用 evalml.utils.gen_utils 中定义的数据类型列表 #1039

    • 移除了 SciPy 依赖项的最大版本限制 #1051

    • all_components 和其他组件导入器移动到运行时方法中 #1045

    • 将图形实用方法整合到 evalml.utils.graph_utils#1060

    • TextFeaturizer 如何使用 featuretools 进行了一些微调,并对其和 LSA 进行了一些重构 #1090

    • show_all_features 参数更改为 importance_threshold,这允许对特征重要性进行阈值处理 #1097, #1103

  • 文档变更
    • 更新 setup.py URL,使其指向 GitHub 仓库 #1037

    • 添加了使用成本效益矩阵目标函数的教程 #1088

    • 更新了 model_understanding.ipynb,包含了在 Jupyter Lab 上使用 plotly 的文档 #1108

  • 测试变更
    • 重构 CircleCI 测试,使其使用矩阵作业 (#1043)

    • 添加了一个测试,检查所有测试目录都包含在 evalml 包中 #1054

警告

重大变更
  • confusion_matrixnormalize_confusion_matrix 已移动到 evalml.utils #1038

  • 之前在 evalml.pipelines.graph_utils 下的所有图形实用方法已移动到 evalml.utils.graph_utils #1060

v0.12.2 2020 年 8 月 6 日
  • 增强功能
    • 向组件添加了保存/加载方法 #1023

    • 将 pickle protocol 作为可选参数暴露给保存/加载方法 #1023

    • 更新了 AutoML 中使用的估计器,包含了 ExtraTrees 和 ElasticNet 估计器 #1030

  • 修复

  • 变更
    • 移除了 SimpleImputerDeprecationWarning #1018

  • 文档变更
    • 在发布流程文档中添加了关于版本号的说明 #1034

  • 测试变更
    • 测试文件现在包含在 evalml 包中 #1029

v0.12.0 2020 年 8 月 3 日
  • 增强功能
    • 添加了二元和多类别管道的字符串和类别目标支持,并为 DetectLabelLeakage 数据检查添加了数值目标检查 #932

    • 为回归管道添加了清晰的异常,如果目标数据类型是字符串或类别 #960

    • 在管道的 predictpredict_proba 输出中添加了目标列名和类别标签 #951

    • _compute_shap_valuesnormalize_values 添加到 pipelines/explanations 模块 #958

    • 添加了 explain_prediction 功能,使用 SHAP 解释单个预测 #974

    • 添加了 Imputer,允许对数值和类别数据类型采用不同的 imputation 策略 #991

    • 添加了使用环境变量配置日志文件路径的支持,并在文件系统错误时不再创建 logger #975

    • 更新了 catboost 估计器的默认参数和 automl 超参数范围,以加快拟合时间 #998

  • 修复
    • 修复了 ReadtheDocs 关于嵌入 gif 的警告失败问题 #943

    • 移除了在 _add_baseline_pipelines 中传递给管道类的错误参数 #941

    • 添加了在拟合前调用 predictpredict_probatransformfeature_importances 的通用错误处理 #969, #994

    • TextFeaturizer 组件和 pip 依赖项 featuretools 和 nlp_primitives 设为可选 #976

    • 更新了 automl 中的 imputation 策略,如果存在任何类别列,不再将所有特征的 impute 策略限制为 most_frequent #991

    • 修复了 automl 搜索出错时 cv_pipelineUnboundLocalError #996

    • 修复了 Imputer 重置 dataframe 索引的问题,以保留 SimpleImputer 预期的行为 #1009

  • 变更
    • get_estimators 移动到 evalml.pipelines.components.utils #934

    • 修改了 Pipelines,使其在评分过程中遇到错误时引发 PipelineScoreError #936

    • evalml.model_families.list_model_families 移动到 evalml.pipelines.components.allowed_model_families #959

    • DateTimeFeaturization 重命名为 DateTimeFeaturizer #977

    • 添加了检查,如果批次中所有管道都返回 NaN 分数,则停止搜索并引发错误 #1015

  • 文档变更
    • 更新了 README.md #963

    • 重写了搜索中数据检查返回错误时的消息 #982

    • 在用户指南中添加了关于使用 explain_prediction 理解模型预测的部分 #981

    • 在用户指南和 api 参考中添加了一部分关于 XGBoost 和 CatBoost 未完全支持的说明。 #992

    • 在用户指南中添加了自定义组件部分 #993

    • 更新了 FAQ 部分格式 #997

    • 更新了发布流程文档 #1003

  • 测试变更
    • 将关于字符串/类别目标的 predict_probapredict 测试移动到 test_pipelines.py #972

    • 通过将 python 版本更新到 3.7 修复了依赖更新机器人,以避免频繁的 GitHub 版本更新 #1002

警告

重大变更
  • get_estimators 已移动到 evalml.pipelines.components.utils (之前在 evalml.pipelines.utils 下) #934

  • 移除了 AutoML 搜索中的 raise_errors 标志。管道评估期间的所有错误将被捕获并记录。 #936

  • evalml.model_families.list_model_families 已移动到 evalml.pipelines.components.allowed_model_families #959

  • TextFeaturizer:安装 evalml 后必须安装 featuretoolsnlp_primitives 包才能使用此组件 #976

  • DateTimeFeaturization 重命名为 DateTimeFeaturizer #977

v0.11.2 2020 年 7 月 16 日
  • 增强功能
    • NoVarianceDataCheck 添加到 DefaultDataChecks #893

    • 添加了文本处理和特征化组件 TextFeaturizer #913, #924

    • InvalidTargetDataCheck 添加了额外检查,以处理无效目标数据类型 #929

    • AutoMLSearch 现在将处理 KeyboardInterrupt 并提示用户确认 #915

  • 修复
    • 将 automl 结果设为只读属性 #919

  • 变更
    • 删除了静态管道并重构了涉及静态管道的测试,移除了 all_pipelines()get_pipelines() #904

    • list_model_families 移动到 evalml.model_family.utils #903

    • 更新了 all_pipelinesall_estimatorsall_components,使其使用相同的机制动态生成其元素 #898

    • master 分支重命名为 main #918

    • 添加了 pypi 发布 GitHub action #923

    • 更新了 AutoMLSearch.search 的标准输出和日志记录,并移除了 tqdm 进度条 #921

    • 将之前在 search() 中的 automl 配置检查移动到 init 方法中 #933

  • 文档变更
    • 重组并重写了文档 #937

    • 更新为使用 pydata sphinx 主题 #937

    • 更新文档,使用 release_notes 代替 changelog #942

  • 测试变更
    • 清理了测试中的 fixture 名称和用法 #895

警告

重大变更
  • list_model_families 已移至 evalml.model_family.utils(之前在 evalml.pipelines.utils 下) #903

  • get_estimators 已移动到 evalml.pipelines.components.utils (之前在 evalml.pipelines.utils 下) #934

  • 静态 pipeline 定义已移除,但仍可通过创建 PipelineBase 的实例来构建类似的 pipeline #904

  • all_pipelines()get_pipelines() 工具方法已移除 #904

v0.11.0 2020年6月30日
  • 增强功能
    • 添加了 ROC 曲线绘图的多类别支持 #832

    • 添加了预处理组件,用于删除 NaN 值百分比超过指定阈值的特征 #834

    • 添加了数据检查功能,用于检查有问题的目标标签 #814

    • 添加了 PerColumnImputer,允许按列指定 imputed 策略 #824

    • 添加了用于删除特定列的转换器 #827

    • OneHotEncoder 中添加了对 categories, handle_errordrop 参数的支持 #830 #897

    • 添加了用于处理 DateTime 列特征化的预处理组件 #838

    • 添加了克隆 pipelines 和 components 的功能 #842

    • 定义了 component parameters 的 getter 方法 #847

    • 添加了用于计算和绘制置换重要性的工具方法 #860, #880

    • 添加了生成动态预处理 pipelines 所需的新工具函数 #852

    • 为所有 components 添加了 kwargs #863

    • 更新了 AutoSearchBase 以使用动态生成的预处理 pipelines #870

    • 添加了 SelectColumns 转换器 #873

    • 添加了评估用于 automl 搜索的额外 pipelines 的功能 #874

    • 为 components 和 pipelines 添加了 default_parameters 类属性 #879

    • 添加了在 automl 搜索中禁用数据检查的更好支持 #892

    • 添加了将 AutoML 对象保存和加载到文件的功能 #888

    • 更新了 AutoSearchBase.get_pipelines 以返回未经训练的 pipeline 实例 #876

    • 在 automl 结果的 cv 数据字典中保存了习得的二元分类阈值 #876

  • 修复
    • 修复了 SimpleImputer 无法处理已删除列的错误 #846

    • 修复了 PerColumnImputer 无法处理已删除列的错误 #855

    • 强制要求内置 components 在其 parameters 字典中保存所有输入的值 #847

    • all_components 输出中不列出基类 #847

    • 标准化所有 components 输出 pandas 数据结构,并接受 pandas 或 numpy 输入 #853

    • 修复了搜索未运行时 rankings 和 full_rankings 报错的问题 #894

  • 变更
    • 更新 all_pipelinesall_components,尝试初始化 pipelines/components,失败时将其排除 #849

    • handle_components 重构为 handle_components_class,标准化为 ComponentBase 子类而非实例 #850

    • 将“黑名单”/“白名单”重构为“允许”/“排除”列表 #854

    • AutoClassificationSearchAutoRegressionSearch 替换为 AutoMLSearch #871

    • 将 feature_importances 和 permutation_importances 方法重命名为单数形式 (feature_importance 和 permutation_importance) #883

    • 更新了 automl 默认数据分割器,对于大型数据集使用训练/验证集分割 #877

    • 添加了开源许可,更新了一些仓库元数据 #887

    • 移除了 _get_preprocessing_components 中的无用代码 #896

  • 文档变更
    • 修复了一些错别字并更新了 EvalML 徽标 #872

  • 测试变更
    • 更新 changelog 检查任务,以适应依赖更新 bot 的新分支模式 #836

    • 检查所有 components 是否输出 pandas 数据结构,并能接受 pandas 或 numpy 输入 #853

    • AutoClassificationSearchAutoRegressionSearch 替换为 AutoMLSearch #871

警告

重大变更
  • Pipelines 的静态字段 component_graph 必须包含 ComponentBase 子类或 str,而不是 ComponentBase 子类的实例 #850

  • handle_component 重命名为 handle_component_class。现在标准化为 ComponentBase 子类,而不是 ComponentBase 子类的实例 #850

  • 将 automl 的 cv 参数重命名为 data_split #877

  • Pipelines 和分类器的 feature_importances 重命名为 feature_importancegraph_feature_importances 重命名为 graph_feature_importance #883

  • 在 automl 搜索中传递 data_checks=None 将不执行任何数据检查,而不是执行默认检查。 #892

  • AutoML 中要搜索的 Pipelines 现在会自动确定,而不是使用静态定义的 pipeline 类。 #870

  • 更新了 AutoSearchBase.get_pipelines,以返回未经训练的 pipeline 实例,而不是恰好在最终交叉验证折叠上训练过的实例 #876

v0.10.0 2020年5月29日
  • 增强功能
    • 添加了分类和回归的基线模型,添加了在 AutoML 中搜索之前计算基线模型的功能 #746

    • 将高度缺失值 guardrail 作为数据检查移植过来,并定义 DefaultDataChecksDisableDataChecks#745

    • 更新 Tuner 类以直接使用 pipeline 参数字典,而不是扁平的参数列表 #779

    • 添加 Elastic Net 作为 pipeline 选项 #812

    • 添加了新的 Pipeline 选项 ExtraTrees #790

    • evalml.pipeline.graph_utils 中为二元分类问题添加了精确率-召回率曲线指标和绘图 #794

    • 更新了默认 automl 算法,使其分批搜索,从每个 pipeline 的默认参数开始迭代 #793

    • 添加了 AutoMLAlgorithm 类和 IterativeAlgorithm 实现,与 AutoSearchBase 分离 #793

  • 修复
    • 更新 pipeline 的 score 方法,对于在评分过程中抛出异常的任何目标,返回 nan 分数 #787

    • 修复了引入自 #787 的 bug,该 bug 导致需要预测概率的二元分类指标在评分时出错 #798

    • CatBoost 和 XGBoost 分类器和回归器的学习率不能再为 0 #795

  • 变更
    • 清理 pipeline 的 score 代码,并清理 codecov #711

    • 为 codecov 移除抽象方法的 pass 语句 #730

    • 为 AutoSearch 对象添加了 __str__ 方法 #675

    • 添加了用于绘制 ROC 和混淆矩阵的工具方法 #720

    • AutoBase 重构为 AutoSearchBase #758

    • 更新 AutoBase,添加了 data_checks 参数,移除了先前的 detect_label_leakage 参数,并添加了在 AutoML 中搜索之前运行数据检查的功能 #765

    • 更新了我们的 logger,以使用 Python 的 logging 工具 #763

    • AutoSearchBase._do_iteration 的大部分实现重构到 AutoSearchBase._evaluate#762

    • 将所有 guardrails 移植过来,使用新的 DataCheck API #789

    • 扩展了 import_or_raise,使其能捕获所有异常 #759

    • 添加 RMSE, MSLE, RMSLE 作为标准指标 #788

    • 不允许将 Recall 用作 AutoML 的目标 #784

    • 从 pipelines 中移除了特征选择 #819

    • 更新了默认的 estimator 参数,以使 automl 搜索更快更准确 #793

  • 文档变更
    • release.md 中添加冻结 master 的说明 #726

    • 更新发布说明,包含更多细节 #727 #733

    • 将 objective 基类添加到 API 参考 #736

    • 修复 components API 以匹配其他模块 #747

  • 测试变更
    • 删除 codecov yml,使用 codecov.io 的默认设置 #732

    • 添加了 fraud cost, lead scoring 和标准指标目标的单元测试 #741

    • 更新 codecov 客户端 #782

    • 更新了 AutoBase 的 __str__ 测试,包含了无参数的情况 #783

    • 添加了 ExtraTrees pipeline 的单元测试 #790

    • 如果 codecov 上传失败,则构建失败 #810

    • 更新了依赖 action 的 Python 版本 #816

    • 更新依赖更新 bot,在创建分支时使用后缀 #817

警告

重大变更
  • AutoML 类的 detect_label_leakage 参数已移除,并被 data_checks 参数取代 #765

  • 将 ROC 和混淆矩阵方法从 evalml.pipeline.plot_utils 移至 evalml.pipeline.graph_utils #720

  • Tuner 类需要 pipeline 超参数范围字典作为 init 参数,而不是空间定义 #779

  • Tuner.proposeTuner.add 直接使用 pipeline 参数字典,而不是扁平的参数列表 #779

  • PipelineBase.hyperparameterscustom_hyperparameters 使用 pipeline 参数字典格式,而不是表示为扁平列表 #779

  • 之前在 evalml.guardrails.utils 下的所有 guardrail 函数将被移除,并由数据检查取代 #789

  • Recall 不允许用作 AutoML 的目标 #784

  • AutoSearchBase 参数 tuner 已重命名为 tuner_class #793

  • AutoSearchBase 参数 possible_pipelinespossible_model_families 已重命名为 allowed_pipelinesallowed_model_families #793

v0.9.0 2020年4月27日
  • 增强功能
    • 添加 Accuracy 作为标准目标 #624

    • 为 load_fraud 添加了 verbose 参数 #560

    • 添加了 Balanced Accuracy 指标,用于二元和多类别 #612 #661

    • 添加了 XGBoost 回归器和 XGBoost 回归 pipeline #666

    • 添加了 Accuracy 指标,用于多类别 #672

    • AutoBase.describe_pipeline 中添加了目标名称 #686

    • 添加了 DataCheckDataChecks, Message 类以及相关的子类 #739

  • 修复
    • 移除了对 cls.component_graph 的直接访问 #595

    • 将测试文件添加到 .gitignore #625

    • 移除 Makefile 中的循环依赖 #637

    • normalize_confusion_matrix() 添加了错误处理情况 #640

    • 修复了 XGBoostClassifierXGBoostRegressor 处理包含 [, ], 或 < 的特征名称时的 bug #659

    • 更新 make_pipeline_graph,使其在测试路径是否有效时不会意外创建空文件 #649

    • 修复 pip 安装关于 docsutils 版本(来自 boto 依赖)的警告 #664

    • 移除了 F1/精确率/召回率指标的零除警告 #671

    • 修复了没有 estimator 的 pipelines 的 summary 方法 #707

  • 变更
    • 更新了二元/多类别分类的默认目标为 log loss #613

    • 创建了分类和回归 pipeline 子类,并移除了 objective 作为 pipeline 类的属性 #405

    • score 的输出更改为返回一个字典 #429

    • 创建了二元和多类别 objective 子类 #504

    • 更新了 objectives API #445

    • 从 AutoML 中移除了对 get_plot_data 的调用 #615

    • 将 AutoML 类的 raise_error 默认设置为 True #638

    • 移除了某些 unicode 字符串上不必要的“u”前缀 #641

    • 将 one-hot encoder 更改为返回 uint8 dtypes 而不是 ints #653

    • Pipeline 的 _name 字段更改为 custom_name #650

    • 移除了 graphs.py 并将方法移至 PipelineBase #657, #665

    • 移除 s3fs 作为开发依赖 #664

    • 将 requirements-parser 更改为核心依赖 #673

    • 将 pipelines 上的 supported_problem_types 字段替换为基类上的 problem_type 属性 #678

    • 将 AutoML 更改为在 rankings 中仅显示给定 pipeline 模板的最佳结果,添加了 full_rankings 属性以显示所有结果 #682

    • 更新 ModelFamily 值:现在我们有了 xgboost/catboost 的回归 pipelines,不再将其列为分类器 #677

    • 将 AutoML 的 describe_pipeline 更改为从 pipeline 获取问题类型 #685

    • 标准化 import_or_raise 错误消息 #683

    • 更新了 objective 的参数顺序,使其与 sklearn 对齐 #698

    • pipeline.feature_importance_graph 重命名为 pipeline.graph_feature_importances #700

    • 将 ROC 和混淆矩阵方法移至 evalml.pipelines.plot_utils #704

    • MultiClassificationObjective 重命名为 MulticlassClassificationObjective,以与 pipeline 命名方案对齐 #715

  • 文档变更
    • 修复了一些 sphinx 警告 #593

    • 修复了 AutoClassificationSearch 的 docstring,使用了正确的命令 #599

    • 将 readthedocs 格式限制为 pdf,而不是 htmlzip 和 epub #594 #600

    • 清理 objectives API 文档 #605

    • 修复了“探索搜索结果”页面上的函数 #604

    • 更新发布流程文档 #567

    • AutoClassificationSearchAutoRegressionSearch 在 API 参考中显示继承的方法 #651

    • 修复了 changelog 中破坏性更改部分格式不正确的代码 #655

    • 添加了将 Sphinx 警告视为错误的配置 #660

    • 移除了 API 参考中 pipelines 的独立绘图部分 #657, #665

    • 让 leads 示例 notebook 使用 https 加载 S3 文件,这样我们就可以删除 s3fs 开发依赖 #664

    • 在 API 参考中对 components 进行了分类,并为每个类别添加了描述 #663

    • 修复了 Sphinx 关于 BalancedAccuracy 目标的警告 #669

    • 更新了 API 参考,包含缺失的 components 并清理了 pipeline 的 docstrings #689

    • 重组 API 参考,并澄清 pipeline 子标题 #688

    • 在 API 参考中添加和更新了预处理工具 #687

    • 添加了继承图到 API 参考 #695

    • 文档说明了 AutoML 优化的默认目标 #699

    • 创建了单独的安装页面 #701

    • 在 API 参考中包含更多工具,如 import_or_raise #704

    • 为 pipeline 文档添加更多颜色 #705

  • 测试变更
    • 使 check_latest_dependencies 测试的安装命令与其 GitHub action 的命令匹配 #578

    • 添加了 Github 应用,自动将 PR 作者分配为经办人 #477

    • 移除了 windows checkin 测试中对 xgboost 不必要的 conda 安装 #618

    • 更新 graph 测试,始终使用 tmpfile 目录 #649

    • Changelog checkin 测试针对 release PRs 的临时方案:如果“未来发布”部分没有 PR 引用,则检查通过 #658

    • dep-update 分支添加 changelog checkin 测试异常 #723

警告

重大变更

  • Pipelines 现在实例化时不再接受 objective 参数,也不再具有 objective 属性。

  • fit()predict() 现在使用可选的 objective 参数,该参数仅在二元分类 pipelines 中用于针对特定 objective 进行拟合。

  • score() 现在将使用一个必需的 objectives 参数,该参数用于确定所有要评分的目标。这与以前的行为不同,以前无论如何都会对 pipeline 的 objective 进行评分。

  • score() 现在将返回包含所有 objective 分数的一个字典。

  • 通过 Auto(*).plot 访问的 ROCConfusionMatrix 绘图方法已在 #615 中移除,并在 #704 中被 evamlm.pipelines.plot_utils 中的 roc_curveconfusion_matrix 取代

  • normalize_confusion_matrix 已移至 evalml.pipelines.plot_utils #704

  • Pipelines 的 _name 字段更改为 custom_name

  • Pipelines 的 supported_problem_types 字段被移除,因为它不再需要 #678

  • 更新了 objectives 的 objective_function 参数顺序,使其与 sklearn 对齐 #698

  • pipeline.feature_importance_graph#700 中已重命名为 pipeline.graph_feature_importances

  • 移除了不支持的 MSLE 目标 #704

v0.8.0 2020年4月1日
  • 增强功能
    • 为混淆矩阵添加归一化选项和信息 #484

    • 添加工具函数以删除包含 NaN 值的行 #487

    • PipelineBase.name 重命名为 PipelineBase.summary,并将 PipelineBase.name 重新定义为类属性 #491

    • 通过 PipelineBase.parameters 添加了对 Pipelines 参数的访问(以前是 PipelineBase.describe 的返回值) #501

    • SimpleImputer 添加了 fill_value 参数 #509

    • 添加了覆盖组件超参数的功能,并使 pipelines 从组件获取超参数 #516

    • 允许将 numpy.random.RandomState 用于 random_state 参数 #556

  • 修复
    • 移除了未使用的依赖 matplotlib,并将 category_encoders 移至测试要求 #572

  • 变更
    • 撤销在 #402 中对 XGBoost 设置的版本上限,并允许所有发布的 XGBoost 版本 #407

    • 支持 pandas 1.0.0 #486

    • 将所有对 logger 的引用更改为静态 #503

    • 将 components 和 pipelines 的 model_type 参数重构为 model_family #507

    • 将 pipelines 和 components 的 problem_types 重构为 supported_problem_types #515

    • pipelines/utils.save_pipelinepipelines/utils.load_pipeline 移至 PipelineBase.savePipelineBase.load #526

    • 限制 OneHotEncoder 编码的类别数量 #517

  • 文档变更
    • 更新了 API 参考,移除了 PipelinePlot 并添加了移至 PipelineBase 的绘图方法 #483

    • 添加了代码风格和 github issue 指南 #463 #512

    • 更新了 API 参考,以显示 pipelines 和 components 的类变量 #537

    • 修复了 README 文档链接 #535

    • 解除了 changelog 中 PR 引用的隐藏 #656

  • 测试变更
    • 添加了自动化依赖检查 PR #482, #505

    • 更新了自动化依赖检查注释 #497

    • 让 build_docs job 使用 python executor,以便正确设置环境变量 #547

    • 添加了简单测试,确保 OneHotEncoder 的 top_n 在类别数量很大时也能正常工作 #552

    • 在 PR 上运行 windows 单元测试 #557

警告

重大变更

  • AutoClassificationSearchAutoRegressionSearchmodel_types 参数已重构为 allowed_model_families

  • ModelTypes 枚举已更改为 ModelFamily

  • Components 和 Pipelines 现在具有 model_family 字段,而不是 model_type

  • get_pipelines 工具函数现在接受 model_families 作为参数,而不是 model_types

  • PipelineBase.name 不再返回 pipeline 结构,已被 PipelineBase.summary 取代

  • PipelineBase.problem_typesEstimator.problem_types 已重命名为 supported_problem_types

  • pipelines/utils.save_pipelinepipelines/utils.load_pipeline 已移至 PipelineBase.savePipelineBase.load

v0.7.0 2020年3月9日
  • 增强功能
    • 将 emacs 缓冲区添加到 .gitignore #350

    • 添加 CatBoost (梯度提升树) 分类和回归组件及 pipelines #247

    • 添加了 Tuner 抽象基类 #351

    • AutoClassificationSearchAutoRegressionSearch 添加了 n_jobs 参数 #403

    • 将混淆矩阵的颜色更改为蓝色调,并更新了轴顺序以匹配 scikit-learn 的顺序 #426

    • 添加了 PipelineBase.graph.feature_importance_graph 方法,从之前的位置移过来 #423

    • 添加了对 python 3.8 的支持 #462

  • 修复
    • 修复了用户传递自己的 additional_objectives 时 ROC 和混淆矩阵图未计算的 bug #276

    • 修复了 ReadtheDocs 对于 fraud 数据集的 FileNotFoundError 异常 #439

  • 变更
    • 为 XGBoost 添加了 n_estimators 作为可调参数 #307

    • 移除了未使用的参数 ObjectiveBase.fit_needs_proba #320

    • 移除了所有 components 中多余的参数 component_type #361

    • 移除了未使用的 rankings.csv 文件 #397

    • 下载了 demo 和测试数据集,以便单元测试可以离线运行 #408

    • 移除了 Components 中的 _needs_fitting 属性 #398

    • 将 plot.feature_importance 更改为默认仅显示非零特征重要性,添加了可选参数以显示所有特征重要性 #413

    • PipelineBase 重构为接受参数字典,并将 pipeline 元数据移至类属性 #421

    • 放弃了对 Python 3.5 的支持 #438

    • 移除了未使用的 apply.py 文件 #449

    • 清理 requirements.txt,移除未使用的依赖 #451

    • 支持在不安装所有必需依赖项的情况下进行安装 #459

  • 文档变更
    • 更新 release.md,包含发布到内部许可证 key 的说明 #354

  • 测试变更
    • 为 utils 添加了测试(并将当前 utils 移至 gen_utils) #297

    • 在 Windows 上使用 Conda 将 XGBoost 安装移至单独的步骤 #313

    • 回退 pandas 版本到 1.0.0 之前,以诊断该版本的测试失败问题 #325

    • 添加了依赖更新 checkin 测试 #324

    • 回退 XGBoost 版本到 1.0.0 之前,以诊断该版本的测试失败问题 #402

    • 更新依赖检查,使用白名单 #417

    • 更新单元测试 job,不安装开发依赖 #455

警告

重大变更

  • 将不再主动支持 Python 3.5。

v0.6.0 2019年12月16日
  • 增强功能
    • 添加了绘制特征重要性图表的功能 #133

    • 使用 patience 和 tolerance 参数为 AutoML 添加了早停功能 #241

    • 添加了 ROC 和混淆矩阵指标及用于分类问题的图表,并引入了 PipelineSearchPlots 类 #242

    • 增强了 AutoML 结果,增加了搜索顺序 #260

    • 添加了用于显示系统和环境信息的工具函数 #300

  • 修复
    • 降低了 botocore 要求 #235

    • 修复了 FraudCost 目标中 decision_function 的计算 bug #254

    • 修复了 Recall 指标的返回值 bug #264

    • Components 在 fit 时返回 self #289

  • 变更
    • 将 automl 类重命名为 AutoRegressionSearchAutoClassificationSearch #287

    • 更新 demo 数据集以保留列名 #223

    • 将 pipeline 可视化移至 PipelinePlot#228

    • 将输入标准化为 pd.Dataframe / pd.Series #130

    • 强制要求 pipelines 必须以 estimator 作为最后一个组件 #277

    • requirements.txt 中添加了 ipywidgets 作为依赖项 #278

    • 添加了 Random 和 Grid Search Tuners #240

  • 文档变更
    • 将类属性添加到 API 参考 #244

    • 修复并过滤来自 scikit-learn 的 FutureWarnings #249, #257

    • 将 Linear Regression 添加到 API 参考,并清理了一些 Sphinx 警告 #227

  • 测试变更
    • 添加了使用 CircleCI 在 Windows 上进行测试的支持 #226

    • 添加了对 doctests 的支持 #233

警告

重大变更

  • AutoClassifierAutoRegressorfit() 方法已重命名为 search()

  • AutoClassifier 已重命名为 AutoClassificationSearch

  • AutoRegressor 已重命名为 AutoRegressionSearch

  • AutoClassificationSearch.resultsAutoRegressionSearch.results 现在是一个字典,包含 pipeline_resultssearch_order 键。pipeline_results 可用于访问与旧 .results 字典相同的字典。而 search_order 返回按 pipeline_id 表示的搜索顺序列表。

  • Pipelines 现在要求 component_list 中的最后一个组件是 estimator。现在对 pipelines 进行切片会抛出 NotImplementedError,以避免返回没有 estimator 的 pipelines。

v0.5.2 2019年11月18日
  • 增强功能
    • 添加了基本的 pipeline 结构可视化 #211

  • 文档变更
    • 将 notebooks 添加到构建过程 #212

v0.5.1 2019年11月15日
  • 增强功能
    • 添加了基本异常值检测 guardrail #151

    • 添加了基本 ID 列 guardrail #135

    • 添加了对具有 max_time 限制的无限 pipelines 的支持 #70

    • 更新了 .readthedocs.yaml 以成功构建 #188

  • 修复
    • 从默认附加目标中移除了 MSLE #203

    • 修复了 pipelines 中传递的 random_state #204

    • 修复了 RFRegressor 中的性能下降问题 #206

  • 变更
    • 从 pipeline 新的 describe 方法中获取 describe_pipeline 的信息 #190

    • 重构了 pipelines #108

    • 从 Auto(*) 中移除了 guardrails #202, #208

  • 文档变更
    • 更新了文档以显示 max_time 的增强功能 #189

    • 更新了 RTD 的发布说明 #193

    • 将 notebooks 添加到构建过程 #212

    • 添加了贡献说明 #213

    • 添加了新内容 #222

v0.5.0 2019年10月29日
  • 增强功能
    • 添加了基本的 one hot encoding #73

    • 为 model_type 使用枚举 #110

    • 支持分割回归数据集 #112

    • 自动推断多类别分类 #99

    • 添加了对 max_time 中其他单位的支持 #125

    • 检测高度缺失列 #121

    • 添加了额外的回归目标 #100

    • 使用 fit() 时显示交互式的迭代 vs. 分数图 #134

  • 修复
    • 重新排序了 describe_pipeline #94

    • model_type 添加了类型检查 #109

    • 修复了设置字符串 max_time 时的 s 单位错误 #132

    • 修复了 objectives 未显示在 API 文档中的问题 #150

  • 变更
    • 重新组织了测试 #93

    • 将日志记录移至单独的模块 #119

    • 显示进度条历史记录 #111

    • 使用 cloudpickle 而非 pickle,以允许卸载自定义 objectives #113

    • 移除了 render.py #154

  • 文档变更
    • 更新发布说明 #140

    • 包含 additional_objectives 参数 #124

    • 添加了 Changelog #136

  • 测试变更
    • 代码覆盖率 #90

    • 添加了针对其他 Python 版本的 CircleCI 测试 #104

    • 将 doc notebooks 添加为测试 #139

    • CircleCI 和 2 核并行性的测试元数据 #137

v0.4.1 2019年9月16日
  • 增强功能
    • 使用 Autobase 和 Skopt 添加了用于分类和回归的 AutoML #7 #9

    • 实现了标准分类和回归指标 #7

    • 添加了逻辑回归、随机森林和 XGBoost pipelines #7

    • 实现了对自定义 objectives 的支持 #15

    • pipelines 的特征重要性 #18

    • pipelines 的序列化 #19

    • 允许对 objectives 进行拟合以获得最优阈值 #27

    • 添加了检测标签泄漏功能 #31

    • 实现了回调 #42

    • 允许进行多类别分类 #21

    • 添加了对附加 objectives 的支持 #79

  • 修复
    • 修复了 pipelines 中的特征选择问题 #13

    • 使 random_seed 的用法保持一致 #45

  • 文档变更
    • 文档变更

    • 添加了 docstrings #6

    • 为 docs 创建了 notebooks #6

    • 初始化了 readthedocs EvalML #6

    • 添加了 favicon #38

  • 测试变更
    • 添加了加载数据的测试 #39

v0.2.0 2019年8月13日
  • 增强功能
    • 创建了欺诈检测目标 #4

v0.1.0 2019年7月31日
  • 首次发布

  • 增强功能
    • 添加了 lead scoring 目标 #1

    • 添加了基本分类器 #1

  • 文档变更
    • 为 docs 初始化了 Sphinx #1