发行说明#

未来版本

增强功能
修复
变更
文档变更
测试变更

警告

重大变更

v0.84.0 2024年6月6日

增强功能
- 使用更新的 black 版本重新格式化文件 #4395
修复
- 修复了与 pypi 发布 github action 失败相关的 token 问题 #4446
变更
- 停止支持 Python 3.8 #4414
- 移除 vowpalwabbit #4427
- 取消 holidays 版本上限 #4428
- 取消 kaleido 版本绑定 #4423
- 取消 shap 和 scipy 版本绑定 #4436
- 取消了 project.optional-dependencies 下大部分已绑定的依赖版本 #4431
文档变更
测试变更
- 增加了在 Python 3.9 中运行 airflow 测试的能力 #4391
- 从 airflow 运行中移除迭代测试 #4424
- 更新了 GH actions 以改进对潜在不安全变量的处理 #4417
- 修复安装测试 #4423

警告

重大变更

停止支持 Python 3.8 #4414
移除 vowpalwabbit #4427

v0.83.0 2024年2月2日

增强功能
- 为多序列数据集增加了对额外估算器的支持 #4385
修复
- 修复了 _downcast_nullable_y 中的 bug，该 bug 导致 woodwork 初始化问题 #4369
- 修复了多序列预测区间标签 #4377
变更
- 绑定 scipy 版本低于 1.12.0 #4380
文档变更
测试变更

警告

重大变更

v0.82.0 2023年11月3日

增强功能
- 更改了目标名称/序列 ID 分隔符，并增加了在预测中返回序列 ID 列的能力 #4357
修复
变更
- 绑定 networkx 版本低于 3.2 以保证 Python 版本兼容性 #4351
文档变更
- 在文档用户指南中增加了多序列时间序列部分 #4355
- 更新了发布指南，包含关于修复 github actions 的 FAQ 部分 #4346
测试变更

警告

重大变更

v0.81.1 2023年10月16日

增强功能
修复
- 修复了与 pypi 发布 github action 失败相关的 bug #4330
- 修复了与 conda build github action 相关的 bug #4335 #4337, #4338, #4340
变更
文档变更
测试变更
- 更新了最新依赖更新的评审者 #4309

警告

重大变更

v0.81.0 2023年10月5日

增强功能
- 扩展 STLDecomposer 以支持多序列 #4253
- 扩展 TimeSeriesImputer 以支持多序列 #4291
- 增加了数据检查以检查多序列中不匹配的序列长度 #4296
- 将 STLDecomposer 添加到多序列管道中 #4299
- 扩展 DateTimeFormatCheck 数据检查以支持多序列 #4300
- 扩展 TimeSeriesRegularizer 以支持多序列 #4303
修复
- 修复了多序列的预测期生成函数 #4320
- 修复了 STLDecomposer.inverse_transform 中的 bug，该 bug 导致季节性预测不正确 #4328
变更
- 更新了 split_data 以在传递堆叠多序列数据时调用 split_multiseries_data #4312
- 绑定 pandas 版本低于 2.1.0 #4315
- 提高了最低 numpy 版本 #4321
文档变更
- 移除了 LightGBM 过多的警告 #4308
测试变更
- 移除了旧的性能测试工作流程 #4318

警告

重大变更

v0.80.0 2023年8月30日

增强功能
- 为 VARMAX 回归器增加了预测区间支持 #4267
- 将多序列时间序列集成到 AutoMLSearch 中 #4270
修复
- 修复了在堆叠没有外生变量的数据时出现的错误 #4275
变更
- 更新了 ARIMARegressor 以兼容 sktime v0.22.0 及更高版本 #4283
- 更新了 graph_prediction_vs_actual_over_time() 以兼容多序列时间序列 #4284
- 更新了 excluded_model_families 以接受包含 str 和 ModelFamily 数据类型的列表 #4287
- 取消 ipywidgets 版本绑定 #4288
文档变更
- 移除了数据检查用户指南页面中的错误警告，并移除了所有笔记本中的 tqdm 警告 #4274
测试变更

警告

重大变更

v0.79.0 2023年8月11日

增强功能
- 更新了回归指标，使其能够处理多输出数据框以及单输出序列 #4233
- 为多序列时间序列问题增加了基线回归器 #4246
- 增加了堆叠和反堆叠实用函数以处理多序列数据 #4250
- 增加了多序列回归管道类 #4256
- 增加了多序列 VARMAX 回归器 #4238
修复
- 增加了对 pandas 2 的支持 #4216
- 修复了时间序列管道因 MASE 在评分时需要 y_train 而失败的 bug #4258
- 更新了文档图片的 s3 bucket #4260
- 修复了 deps checker 包含名称中带有 post 的任何包的问题 #4268
变更
- 取消 sktime 版本绑定 #4214
- 提高了 lightgbm 的最低版本至 4.0.0 以支持可空类型处理 #4237
- 由于与绑定的 imbalanced-learn 不兼容，绑定了 scikit-learn 版本 #4248
文档变更
测试变更

警告

重大变更

v0.78.0 2023年7月10日

增强功能
- 向 AutoMLSearch 和 Default Algorithm 添加了 run_feature_selection #4210
- 将 SMAPE 添加到时间序列问题的标准指标中 #4220
- 向目标中添加了 MASE 指标和 y_train 参数 #4221
修复
- IDColumnsDataCheck 现在支持 Unknown 数据类型 #4203
变更
- 将最低 SHAP 版本升级到 0.42.0 并取消了 numpy 版本绑定 #4228
文档变更
- 更新了 API 参考 #4213

警告

重大变更

从 AutoML search 中移除了 Decision Tree 和 CatBoost 估算器 #4205
从默认算法中移除了第一个批次 #4215

v0.77.0 2023年6月7日

增强功能
- 增加了 check_distribution 函数，用于确定预测分布是否与真实分布匹配 #4184
- 增加了 get_recommendation_score_breakdown 函数，用于获取推荐得分的详细信息 #4188
- 向 AutoMLSearch() 中添加了 excluded_model_families 参数 #4196
- 增加了在 IDColumnsDataCheck 中排除时间索引的选项 #4194
修复
- 修复了 ARIMARegressor 实现中的小错误 #4186
- 修复了 get_forecast_period 以正确处理 gap 参数 #4200
变更
文档变更
测试变更
- 通过 Airflow 在合并时运行 looking glass 性能测试 #4198

v0.76.0 2023年5月9日

增强功能
- 向 AutoMLSearch 中添加了可选的 recommendation_score 用于对管道进行排名 #4156
- 为 PipelinBase.load() 添加了 BytesIO 支持 #4179
修复
- 将 numpy 版本上限临时限制在 <=1.23.5 作为对 SHAP 的临时措施 #4172
- 更新了我们的 readthedocs 配置以重新启用构建 #4177

v0.75.0 2023年5月1日

修复
- 修复了重置保留数据集索引导致时间序列 predict_in_sample 不正确的 bug #4161
变更
- 将每个管道的计时更改为存储为浮点数 #4160
- 更新了 pyproject.toml 中的 Dask 安装命令 #4164
- 将 IPython 版本上限限制在 < 8.12.1 以兼容 readthedocs 和 plotly #3987

v0.74.0 2023年4月18日

增强功能
- 将搜索期间计算的 additional_objectives 保存到 AutoML 对象 #4141
- 移除额外的朴素管道 #4142
修复
- 修复了 uploader 弃用后 codecov 的使用问题 #4144
- 修复了由于索引错误导致预测区间变为 NaNs 的问题 #4154
变更
- 限制了用于确定是否在管道中包含 STLDecomposer 的季节期大小 #4147

v0.73.0 2023年4月10日

增强功能
- 允许 InvalidTargetDataCheck 返回 DROP_ROWS DataCheckActionOption #4116
- 使用朴素方法为非时间序列原生管道实现了预测区间 #4127
变更
- 在处理可空类型之前，移除了 imputer 组件中不必要的逻辑 #4038, #4043
- 在需要时，在组件的 fit、transform 和 predict 方法中添加了对 _handle_nullable_types 的调用 #4046, #4043
- 移除了 AutoMLSearch 中现有的可空类型处理，仅使用新的处理方式 #4085, #4043
- 处理了 Decomposer 中的可空类型不兼容性问题 #4105, #4043
- 移除了 ARIMA 和 ExponentialSmoothingRegressor 的可空类型不兼容性处理 #4129
- 将 InvalidTargetDataCheck 中 null_strategy 的默认值更改为 drop #4131
- 将 sktime 版本绑定到 0.17.0 以支持可空类型 #4137
测试变更
- 修复了 linux nightly 测试中 prophet 的安装问题 #4114

v0.72.0 2023年3月27日

增强功能
- 更新了 pipeline.get_prediction_intervals() 以添加来自 STL 分解器的趋势预测区间信息 #4093
- 为 TargetLeakageDataCheck 添加了 method=all 支持 #4106
修复
- 修复了集成管道无法与 generate_pipeline_example 一起工作的 bug #4102
变更
- 将 ipywidgets 版本绑定在 8.0.5 以下 #4097
- 通过四舍五入而不是截断分数值来计算整数数据的偏依赖网格值 #4096
测试变更
- 更新了 GitHub 工作流程中的 graphviz 安装以修复 windows nightlies 问题 #4088

v0.71.0 2023年3月17日*

修复
- 修复了 PipelineBase._supports_fast_permutation_importance 在堆叠集成管道中出现的错误 #4083

v0.70.0 2023年3月16日

变更
- 添加了 Oversampler 在 X 中的可空类型不兼容性 #4068
- 从目标函数、roc_curve 和 correlation_matrix 中移除了可空处理 #4072
- 直接从 prophet-prebuilt 切换到 prophet #4045

v0.69.0 2023年3月15日

增强功能
- 将 black 移至常规依赖项，并将其用于 generate_pipeline_code #4005
- 实现了 generate_pipeline_example #4023
- 为组件特定的可空类型处理添加了新的 downcast 工具，并开始在目标和组件基类上实现 #4024
- 为需要可空类型不兼容性属性的组件添加了这些属性 #4031
- 添加了 get_evalml_requirements_file #4034
- 如果 DFS 特征预先存在，带有 DFS Transformers 的管道将运行快速置换重要性 #4037
- 在管道级别添加了 get_prediction_intervals() #4052
修复
- 修复了 generate_pipeline_example 在包含 DFSTransformer 的管道中出错的 bug #4059
- 移除了 OverSampler 的可空类型处理 #4064
变更
- 取消了 pmdarima 版本上限并更新了最低版本 #4027
- 提高了 catboost 最低版本至 1.1.1 和 xgboost 最低版本至 1.7.0，以增加对这些估算器的可空类型支持 #3996
- 取消了 networkx 版本绑定并更新了最低版本 #4035
- 提高了 scikit-learn 版本至 1.2.2 #4064
- 将 holidays 最大版本限制在 0.21 #4064
- 停止允许将 knn 作为布尔值的填充策略 #4058
- 将 nbsphinx 版本上限限制在 < 0.9.0 #4071
测试变更
- 在合并到主分支时使用 release.yaml 进行性能测试 #4007
- 将 github-action-check-linked-issues 版本绑定在 v1.4.5 #4042
- 更新了测试以支持 Woodwork 对数值列的对象 dtype 推断 #4066
- 更新了 TargetLeakageDataCheck 测试以正确处理布尔目标 #4066

v0.68.0 2023年2月15日

增强功能
- 将 determine_periodicity 集成到 AutoMLSearch 中 #3952
- 移除了使用 STLDecomposer 进行分解的频率限制 #3952
变更
- 移除 requirements-parser 要求 #3978
- 更新了 SKOptTuner，改用梯度提升回归器进行调优，而不是使用 extra trees #3983
- 取消了 sktime 低于 1.2 的版本绑定，并将最低版本提高到 1.2.1 #3983
测试变更
- 向 CI 工作流程添加了链接问题的 pull request 检查 #3970, #3980
- 将最低 IPython 版本升级到 8.10.0 #3987

v0.67.0 2023年1月31日

修复
- 重新添加了 TimeSeriesPipeline.should_skip_featurization，以修复数据被不必要地特征化的 bug #3964
- 允许将浮点类别传递给 CatBoost 估算器 #3966
变更
- 更新 pyproject.toml 以正确指定数据文件路径 #3967
文档变更
- 添加了预测区间的演示 #3954

v0.66.1 2023年1月26日

修复
- 更新了 LabelEncoder 以存储原始类型信息 #3960
- 修复了全为 null 的 BooleanNullable 列会在 transform 期间破坏 imputer 的 bug #3959

v0.66.0 2023年1月24日

增强功能
- 改进了 decomposer determine_periodicity 功能，以更好地猜测周期 #3912
- 为时间序列管道添加了 dates_needed_for_prediction #3906
- 添加了 RFClassifierRFESelector 和 RFRegressorRFESelector 组件，用于使用递归特征消除进行特征选择 #3934
- 为时间序列管道添加了 dates_needed_for_prediction_range #3941
修复
- 修复了 set_period() 未更新 decomposer 参数的 bug #3932
- 移除了 DefaultAlgorithm 中时间序列问题的第二个相同批次 #3936
- 修复了 alteryx-open-src-update-checker 的安装命令 #3940
- 修复了 test_components_can_be_used_for_partial_dependence_fast_mode 的非 prophet 情况 #3949
变更
- 更新了 PolynomialDecomposer 以兼容 sktime v0.15.1 #3930
- 添加 ruff 并使用 pyproject.toml (不再使用 setup.cfg) #3928
- 将 category-encoders` 版本绑定到 2.5.1.post0 #3933
- 从核心要求中移除 requirements-parser 和 tomli #3948

v0.65.0 2023年1月3日

增强功能
- 为支持时间序列回归的估算器增加了获取预测区间的能力 #3876
- 增加了用于处理阈值调优目标和数据重分逻辑的工具 #3888
- 将 OrdinalEncoder 集成到 AutoMLSearch 中 #3765
修复
- 修复了 ARIMA 未考虑训练数据结束时的预测间隔的 bug #3884
- 修复了当未选择分类列时 DefaultAlgorithm 添加了额外的 OneHotEncoder 的 bug #3914
变更
- 向 DateTimeFormatDataCheck 添加了阈值，以考虑过多的重复或 nan 值 #3883
- 更改了 SimpleImputer 和 ClassImbalanceDataCheck 对 Boolean 列的处理方式，以兼容新的 Woodwork 推断 #3892
- 将 decomposer 的 seasonal_period 参数拆分为 seasonal_smoother 和 period 参数 #3896
- 由于 403 错误，从断链检查工作流程中排除了 catboost #3899
- 将 scikit-learn 版本绑定在 1.2.0 以下 #3901
- 将新创建的 one hot encoded 列转换为 bool dtype #3913
文档变更
- 在时间序列文档中隐藏了非必要的警告消息 #3890
测试变更

v0.64.0 2022年12月8日

增强功能
修复
- 允许 DFS Transformer 计算 dataframe_name 不为 "X" 的特征的特征值 #3873
- 在偏依赖快速模式下，停止将 DFS Transformer 特征的完整列表传递给克隆的管道 #3875
变更
- 更新排行榜名称以显示 ranking_score 而不是 validation_score #3878
- 在 Pandas 1.5 升级后移除 Int64Index #3825
- 降低了在 AutoMLSearch 中为 ARIMA 模型设置 use_covariates 为 False 的阈值 #3868
- 将 woodwork 版本绑定在 <=0.19.0 #3871
- 将最低 Pandas 版本更新到 1.5.0 #3808
- 从自动化依赖更新评审人员中移除 dsherry 并添加 tamargrey #3870
文档变更
测试变更

v0.63.0 2022年11月23日

增强功能
- 为偏依赖添加了快速模式 #3753
- 增加了将 featuretools 特征序列化到时间序列管道中的能力 #3836
修复
- 修复了 TimeSeriesFeaturizer 可能选择特征工程窗口之外的滞后项的 bug #3773
- 修复了 TimeSeriesFeaturizer 无法编码具有非数值类别的 Ordinal 列的 bug #3812
- 更新了演示数据集链接指向新的端点 #3826
- 更新了 STLDecomposer，使其在时间索引频率不存在时进行推断 #3829
- 更新了 _drop_time_index，将时间索引从 X 移动到 X.index 和 y.index #3829
- 修复了在偏依赖中，工程特征丢失其 origin 属性导致失败的 bug #3830
- 修复了偏依赖快速模式处理 DFS Transformer 时无法处理多输出特征的 bug #3830
- 允许目标在偏依赖的 DFS Transformer 快速模式处理中存在但被忽略 #3830
变更
- 将分解频率验证逻辑整合到 Decomposer 类中 #3811
- 移除了 Featuretools 版本上限并阻止 Woodwork 0.20.0 的安装 #3813
- 将 Featuretools 最低版本更新到 0.16.0，nlp-primitives 最低版本更新到 2.9.0，Dask 最低版本更新到 2022.2.0 #3823
- 将 issue 模板 config.yaml 重命名为 config.yml #3844
- 撤销了向时间序列管道添加 should_skip_featurization 标志的更改 #3862
文档变更
- 向时间序列文档添加了关于 STL 分解的信息 #3835
- 移除了 Read the Docs 因警告而失败的设置 #3864

v0.62.0 2022年11月1日

修复
- 修复了 get_time_index 中的 datetime 转换 bug #3792
- 修复了无效的锚定或偏移频率将 STLDecomposer 包含在管道中的 bug #3794
- 修复了不规则 datetime 频率导致 make_pipeline 出错的 bug #3800
变更
- 将 dask 版本上限限制在 < 2022.10.1 #3797
- 取消了 dask 版本上限并排除了 2022.10.1 作为可行版本 #3803
- 移除了所有对 XGBoost 已弃用的 _use_label_encoder 参数的引用 #3805
- 将 featuretools 版本上限限制在 < 1.17.0 #3805
- 将 woodwork 版本上限限制在 < 0.21.0 #3805

v0.61.1 2022年10月27日

修复
- 修复了 TimeSeriesBaselinePipeline 未保留输入特征索引名称的 bug #3788
- 修复了 TimeSeriesBaselinePipeline 中引用静态字符串而不是时间索引变量的 bug #3788
文档变更
- 更新了发行说明 #3788

v0.61.0 2022年10月25日

增强功能
- 添加了 STL Decomposer #3741
- 将 STLDecomposer 集成到 AutoMLSearch 中用于时间序列回归问题 #3781
- 将 PolynomialDecomposer 与 STLDecomposer 对齐 #3768
变更
- 将 Featuretools 版本上限限制在 < 1.15.0 #3775
- 移除了 Featuretools 版本上限限制并修复了 nlp-primitives 导入语句 #3778

v0.60.0 2022年10月19日

增强功能
- 向时间序列回归管道添加了 forecast 函数 #3742
修复
- 修复了允许 IDColumnsDataCheck 处理 IntegerNullable 输入的问题 #3740
- 修复了主要性能测试的数据集名称 #3743
变更
- 使用 Woodwork 的 dependence_dict 方法计算 TargetLeakageDataCheck #3728
文档变更
测试变更

警告

重大变更

TargetLeakageDataCheck 现在使用参数 mutual_info 而不是 mutual #3728

v0.59.0 2022年9月27日

增强功能
- 增强了 Decomposer，增加了 determine_periodicity 函数，自动确定季节性目标的周期性。 #3729
- 增强了 Decomposer，增加了 set_seasonal_period 函数，自动设置 Decomposer 对象的季节期。 #3729
- 添加了 OrdinalEncoder 组件 #3736
修复
- 修复了使用默认参数时显示保留集警告消息的 bug #3727
- 修复了 Oversampler 中分类 dtype 会失败的 bug #3732
变更
- 在运行 DataChecks 之前自动对 time_index 进行排序的功能已被禁用 #3723
文档变更
测试变更
- 更新作业以使用新的 looking glass report 命令 #3733

v0.58.0 2022年9月20日

增强功能
- 为 PolynomialDecomposer 定义了 get_trend_df()，以允许将目标数据分解为趋势、季节性和残差。 #3720
- 更新后支持 Woodwork >= 0.18.0 #3700
- 将时间索引列传递给时间序列原生估算器，否则丢弃 #3691
- 向 AutoMLSearch 添加了 errors 属性，以便进行有用的调试 #3702
修复
- 移除了由 DefaultAlgorithm 生成的管道中出现的多个采样器 #3696
- 修复了使用 DefaultAlgorithm 时搜索顺序改变的 bug #3704
变更
- 将 sktime 的最低版本提高到 0.12.0。 #3720
- 添加了抽象 Decomposer 类作为 PolynomialDecomposer 的父类，以支持其他 decomposer。 #3720
- 将 pmdarima 版本绑定在 < 2.0.0 #3679
- 增加了对 Series 和 DataFrames 使用 downcast_nullable_types 的支持 #3697
- 区分了排名和优化目标 #3721
文档变更
测试变更
- 更新了 pytest fixtures 和易碎测试文件，显式设置 woodwork 类型信息 #3697
- 添加了 github 工作流程，在合并到主分支时运行 looking glass 性能测试 #3690
- 修复了 looking glass 性能测试脚本 #3715
- 从 looking glass slack 消息中移除 commit 消息 #3719

v0.57.0 2022年9月6日

增强功能
- 添加了 KNNImputer 类，并为 Imputer 创建了新的 knn 参数 #3662
修复
- IDColumnsDataCheck 现在仅在第一列包含唯一值时返回将第一列设为主键的动作码 #3639
- IDColumnsDataCheck 现在可以处理包含“整数”值但类型为 double 的主键列 #3683
- 为 EvalML 管道和 imputer 中的 BooleanNullable 列添加了支持 #3678
- 更新了 StandardScaler，使其仅应用于数值列 #3686
变更
- 取消了 sktime 版本绑定，允许使用 0.13.2 版本 #3685
- 将 pmdarima 版本绑定在 < 2.0.0 #3679

v0.56.1 2022年8月19日

修复
- IDColumnsDataCheck 现在仅在第一列包含唯一值时返回将第一列设为主键的动作码 #3639
- 撤销了 make_pipeline 中有条件地包含 imputer 的更改 #3672

v0.56.0 2022年8月15日

增强功能
- 在 Mac 中为安装工作流程添加了 CI 测试环境 #3646
- 更新了 make_pipeline，使其仅在数据中存在 NaNs 时才在管道中包含 Imputer #3657
- 更新后支持 Woodwork >= 0.17.2 #3626
- 向 AutoMLSearch 添加了 exclude_featurizers 参数，用于指定应从所有管道中排除的 featurizer #3631
- 向管道和组件图中添加了 fit_transform 方法 #3640
- 更改了时间序列问题保留集评估的数据分割默认值 #3650
修复
- 由于性能回归，撤销了 Woodwork 0.17.x 兼容性工作 #3664
变更
- 默认禁用 AutoML 搜索中的保留集 #3659
- 由于时间序列建模变慢，将 sktime 版本绑定在 >=0.7.0,<0.13.1 #3658
- 为 Python 3.10 添加了额外的测试支持 #3609
文档变更
- 更新了断链检查器，排除 stackoverflow 域名 #3633
- 添加了将新用户添加到 evalml-core-feedstock 的说明 #3636

v0.55.0 2022年7月24日

增强功能
- 增加了在 transformer 中调用 ww.init() 时传递给 Woodwork 的逻辑类型信息量 #3604
- 增加了在 automl.search() 中记录每个批次和管道耗时长的能力 #3577
- 添加了为 ARIMA 模型设置 sp 参数的选项 #3597
- 更新了时间序列问题的交叉验证分割大小，以匹配预测范围，从而提高性能 #3616
- 将保留集评估作为 AutoML 搜索和管道排名的一部分 #3499
- 添加了 Dockerfile.arm 和 .dockerignore，用于 Python 版本和 M1 测试 #3609
- 添加了 test_gen_utils::in_container_arm64() fixture #3609
修复
- 修复了迭代图表未出现在文档中的 bug #3592
- 更新了 load_diabetes() 方法，以考虑 scikit-learn 1.1.1 对数据集的更改 #3591
- 将 woodwork 版本上限限制在 < 0.17.0 #3612
- 将 scikit-optimize 的最低版本提高到 0.9.0 #3614
- 涉及回归和不支持数据类型的无效目标数据检查现在会生成不同的 DataCheckMessageCode #3630
- 更新了 test_data_checks.py::test_data_checks_raises_value_errors_on_init - 更宽松的文本检查 #3609
变更
- 添加了用于 linting 的 pre-commit hooks #3608
- 为 TimeSeriesRegularizer 和 DatetimeFormatDataCheck 实现了较低的阈值和窗口大小 #3627
- 更新了 IDColumnsDataCheck，如果第一列被标识为 ID 列，则返回一个动作将其设置为主键 #3634
文档变更
测试变更
- 绑定了 Windows CI 测试的 GraphViz 版本 #3596
- 移除了针对 Python 3.9 环境跳过 PolynomialDecomposer 测试的设置。 #3720
- 移除了 pytest.mark.skip_if_39 pytest marker #3602 #3607
- 更新了 pytest==7.1.2 #3609
- 添加了 Dockerfile.arm 和 .dockerignore，用于 Python 版本和 M1 测试 #3609
- 添加了 test_gen_utils::in_container_arm64() fixture #3609

警告

重大变更

重构了遍历所有组件的测试用例，使用 pytest.mark.parametrise，并将相应的 if...continue 块更改为 pytest.mark.xfail #3622

v0.54.0 2022年6月23日

修复
- 更新了 Imputer 和 SimpleImputer，使其兼容 scikit-learn 1.1.1。 #3525
- 将 scikit-learn 的最低版本提高到 1.1.1，imbalanced-learn 的最低版本提高到 0.9.1。 #3525
- 在未实例化的 ComponentGraph 上调用 describe 时，添加了更清晰的错误消息 #3569
- 在时间序列的 predict 方法的 X_train 或 y_train 参数设置为 None 时，添加了更清晰的错误消息 #3579
变更
- 不要将 time_index 作为 kwargs 传递给 sktime ARIMA 实现，以兼容最新版本 #3564
- 从接受的依赖版本中移除不兼容的 nlp-primitives 版本 2.6.0 #3572, #3574
- 更新了 evalml 作者 #3581
文档变更
- 修复了 setup.cfg 中 long_description 字段的拼写错误 #3553
- 更新安装页面，移除 Python 3.7 的提及 #3567

v0.53.1 2022年6月9日

变更
- 在 setup.cfg 中将开发状态设置为 4 - Beta #3550

v0.53.0 2022年6月9日

增强功能
- 将 n_jobs 传递给默认算法 #3548
修复
- 修复了 featuretools 和 woodwork 的 github 工作流程，使其能够针对 evalml 测试其主分支。 #3517
- 抑制 TargetEncoder 中因默认参数即将更改而引发的警告 #3540
- 修复了 XGBoost 和 LightGBM 模型在列重命名时未保留 schema 的 bug #3496
变更
- 过渡到使用 pyproject.toml 和 setup.cfg，不再使用 setup.py #3494, #3536
文档变更
- 更新了时间序列用户指南页面，包含提前已知特征并修复拼写错误 #3521
- 在页脚添加 slack 和 stackoverflow 图标 #3528
- 添加了 M1 Mac 的安装说明 #3543
测试变更
- 将 GitHub Actions 中的 yml 重命名为 yaml #3522
- 移除 noncore_dependency pytest marker #3541
- 更改了 test_smotenc_category_features，以响应新的 woodwork 类型验证，使用有效的邮政编码值 #3544

v0.52.0 2022年5月12日

变更
- 添加了 featuretools 和 woodwork 的 github 工作流程，使其能够针对 evalml 测试其主分支。 #3504
- 将 pmdarima 添加到 conda recipe。 #3505
- 在对 null 值发出警告之前，为 NullDataCheck 添加了阈值 #3507
- 将 NoVarianceDataCheck 更改为仅输出警告 #3506
- 撤销了 XGBoost Classifier/Regressor 的补丁，该补丁要求所有布尔列需要转换为 int。 #3503
- 更新了 roc_curve() 和 conf_matrix()，使其能够处理 IntegerNullable 和 BooleanNullable 类型。 #3465
- 将 ComponentGraph._transform_features 更改为引发 PipelineError 而不是 ValueError。这不是一个重大变更，因为 PipelineError 是 ValueError 的子类。 #3497
- 将 sklearn 版本上限限制在 1.1.0 #3518
文档变更
- 更新后在 Read the Docs 中安装 prophet extras。 #3509
测试变更
- 将 test recipe 中的 vowpal wabbit 从 evalml-core 包移到 evalml 包 #3502

v0.51.0 2022年4月28日

增强功能
- 更新了 make_pipeline_from_data_check_output，使其能够处理时间序列问题。 #3454
修复
- 将 PipelineBase.graph_json() 更改为返回一个 python 字典，并重命名为 graph_dict() #3463
变更
- 将 vowpalwabbit 添加到 local recipe，并从相关测试中移除 is_using_conda pytest skip markers #3481
文档变更
- 修复了贡献指南中的断链 #3464
- 改进了开发说明 #3468
- 将 TimeSeriesRegularizer 和 TimeSeriesImputer 添加到用户指南的时间序列部分 #3473
- 更新了 OSS slack 链接 #3487
- 修复了文档中模型理解 plotly 图表的渲染问题 #3460
测试变更
- 更新了单元测试以支持 woodwork 0.16.2 #3482
- 修复了在 vowpal wabbit 添加到 conda recipe 后的一些单元测试 #3486

警告

重大变更

将 PipelineBase.graph_json() 重命名为 PipelineBase.graph_dict() #3463
最低支持的 woodwork 版本现在是 0.16.2 #3482

v0.50.0 2022年4月12日

增强功能
- 添加了 TimeSeriesImputer 组件 #3374
- 在 AutoMLSearch 中将 pipeline_parameters 和 custom_hyperparameters 替换为 search_parameters #3373, #3427
- 添加了 TimeSeriesRegularizer，用于平滑时间序列问题中无法推断的日期范围 #3376
- 在 DefaultAlgorithm 中将 ensembling 作为参数启用 #3435, #3444
修复
- 修复了 DefaultAlgorithm 未处理 Email 和 URL 特征的 bug #3419
- 添加了测试以确保 LabelEncoder 参数在 AutoMLSearch 期间保留 #3326
变更
- 更新了 DateTimeFormatDataCheck，使用 woodwork 的 infer_frequency 函数 #3425
- 将 graphs.py 重命名为 visualizations.py #3439
文档变更
- 更新了用户指南的模型理解部分，包含遗漏的函数 #3446
- 重新组织了用户指南模型理解页面，以便于导航 #3457
- 更新 README 文本至 Alteryx #3462

警告

重大变更

将 graphs.py 重命名为 visualizations.py #3439
在 AutoMLSearch 中将 pipeline_parameters 和 custom_hyperparameters 替换为 search_parameters #3373

v0.49.0 2022年3月31日

增强功能
- 向 ARIMARegressor 添加了 use_covariates 参数 #3407
- 当数据集较大时，AutoMLSearch 将为 ARIMA 设置 use_covariates 为 False #3407
- 添加了通过 get_component_input_logical_types 获取图中组件的逻辑类型的能力 #3428
- 添加了通过 last_component_input_logical_types 获取传递给最后一个组件的逻辑类型的能力 #3428
修复
- 修复了 PR 3407 后的 conda build #3429
变更
- 将模型理解指标从 graph.py 移至单独的文件 #3417
- 取消 click 依赖的版本绑定 #3420
- 对于 IterativeAlgorithm，将时间序列算法放在首位 #3407
- 使用 prophet-prebuilt 在 extras 中安装 prophet #3407

警告

重大变更

将模型理解指标从 graph.py 移至 metrics.py #3417

v0.48.0 2022年3月25日

增强功能
- 增加了对时间序列分类问题中过采样（oversampling）的支持 #3387
修复
- 修复了 TimeSeriesFeaturizer，使其在创建和选择列时具有确定性 #3384
- 修复了带有缺失值的 Email/URL 特征会导致 imputer 出错的 bug #3388
变更
- 更新维护者，添加 Frank #3382
- 允许安装 woodwork 0.14.0 版本 #3381
- 将偏依赖函数从 graph.py 移至单独的文件 #3404
- 由于与 black 不兼容，将 click 版本绑定在 8.0.4 #3413
文档变更
- 添加了涵盖搜索算法的 AutoML 用户指南部分 #3394
- 更新了断链并添加了自动化断链检测 #3398
- 升级了 nbconvert #3402, #3411
测试变更
- 更新了计划工作流，使其仅在 Alteryx 拥有的仓库中运行 (#3395)
- 排除最新版本以外的文档版本不进行断链检查 #3401

警告

重大变更

将部分依赖函数从 graph.py 移动到 partial_dependence.py #3404

v0.47.0 2022年3月16日

增强功能
- 将 TimeSeriesFeaturizer 添加到基于 ARIMA 的管道中 #3313
- 在 AutoMLSearch 期间添加了集成训练的缓存功能 #3257
- 在 NoVarianceDataCheck 中为零个唯一值添加了新的错误代码 #3372
修复
- 修复了 get_pipelines，使其能够为二分类情况重置管道阈值 #3360
变更
- 更新维护者 #3365
- 回滚 pandas 1.3.0 兼容性补丁 #3378
文档变更
- 修复了文档链接，使其指向正确的页面 #3358
测试变更
- 在 build_conda_pkg 任务中检出 main 分支 #3375

v0.46.0 2022年3月3日

增强功能
- 向 ClassImbalanceDataCheck 添加了 test_size 参数 #3341
- 使 NoVarianceDataCheck 的目标可选 #3339
变更
- 从 sktime 依赖项中移除了 python_version<3.9 环境标记 #3332
- 更新了 DatetimeFormatDataCheck，使其返回所有消息，并且在检测到 NaNs 时不提前返回 #3354
文档变更
- 为文档添加了内联选项卡和复制粘贴功能，并全面改进了安装页面 #3353

v0.45.0 2022年2月17日

增强功能
- 添加了对 pandas >= 1.4.0 的支持 #3324
- 标准化了估计器的特征重要性 #3305
- 用 Woodwork 的公共方法 get_subset_schema 替换了私有方法的用法 #3325
变更
- 向使用的数据分割器添加了 is_cv 属性 #3297
- 更改了 SimpleImputer，使其忽略自然语言列 #3324
- 向一些时间序列管道添加了删除 NaN 组件 #3310
文档变更
- 更新 README.md，添加 Alteryx 链接 (#3319)
- 向 AutoML 用户指南添加了格式，以缩短结果输出 #3328
测试变更
- 添加每30分钟自动批准依赖项工作流的计划 #3312

v0.44.0 2022年2月4日

增强功能
- 更新了 DefaultAlgorithm，使其也限制长时间运行的多分类问题的估计器使用 #3099
- 添加了 make_pipeline_from_data_check_output() 工具方法 #3277
- 更新了 AutoMLSearch，使其使用 DefaultAlgorithm 作为默认的 AutoML 算法 #3261, #3304
- 向 DatetimeFormatDataCheck 添加了更具体的数据检查错误 #3288
- 向 AutoMLSearch 添加了 features 参数，并在存在 features 时将 DFSTransformer 添加到管道中 #3309
修复
- 更新了二分类管道的 optimize_thresholds 方法，使其使用 Nelder-Mead #3280
- 修复了时间序列管道上特征重要性仅显示时间索引为 0 的错误 #3285
变更
- 移除了 DateTimeNaNDataCheck 和 NaturalLanguageNaNDataCheck，转而使用 NullDataCheck #3260
- 放弃对 Python 3.7 的支持 #3291
- 更新了 woodwork 的最低版本至 v0.12.0 #3290
文档变更
- 更新了时间序列问题的 validate_holdout_datasets 的文档和 docstring #3278
- 修复了文档中的错误，即使用了错误的目标函数来计算比基线更好的百分比 #3285

警告

重大变更

移除了 DateTimeNaNDataCheck 和 NaturalLanguageNaNDataCheck，转而使用 NullDataCheck #3260
放弃了对 Python 3.7 的支持 #3291

v0.43.0 2022年1月25日

增强功能
- 更新了新的 NullDataCheck，使其返回警告并建议对具有 null 值的列进行填充操作 #3197
- 更新了 make_pipeline_from_actions，使其能够处理 null 列的填充 #3237
- 更新了数据检查操作 API，使其返回选项而非操作，并添加了对具有 null 值的列进行建议和采取操作的功能 #3182
修复
- 修复了分类数据泄露到 DefaultAlgorithm 中非分类子管道的错误 #3209
- 通过更新 requirements 中 pmdarima 的版本，修复了 prophet 在 Python 3.9 中的安装问题 #3268
- 允许 DateTime 列通过 PerColumnImputer 而不中断 #3267
变更
- 更新了 DataCheck 的 validate() 输出，使其操作返回字典而不是列表 #3142
- 更新了 DataCheck 的 validate() API，使其使用新的 DataCheckActionOption 类而不是 DataCheckAction #3152
- 取消了 numba 版本的上限，并将其从 requirements 中移除 #3263
- 将 HighlyNullDataCheck 重命名为 NullDataCheck #3197
- 更新了数据检查 validate() 输出，使其返回警告和错误列表而不是字典 #3244
- 将 pandas 版本上限设置为 < 1.4.0 #3274
测试变更
- 根据 dependabot 反馈，在 test-requirements.txt 中将 IPython 的最低版本提高到 7.16.3 #3269

警告

重大变更

将 HighlyNullDataCheck 重命名为 NullDataCheck #3197
更新了数据检查 validate() 输出，使其返回警告和错误列表而不是字典。请参阅数据检查或数据检查操作页面（在用户指南下）获取示例。 #3244
从 PerColumnImputer 中移除了 impute_all 和 default_impute_strategy 参数 #3267
更新了 PerColumnImputer，使其不再对 impute_strategies 字典中未指定的列进行填充 #3267

v0.42.0 2022年1月18日

增强功能
- 要求时间序列问题的训练数据和测试数据间隔 gap + 1 个单位，并通过 time_index 进行验证 #3208
- 为 ARIMARegressor 添加了对布尔类型特征的支持 #3187
- 更新了依赖项机器人工作流，移除了过时描述，并添加了自动删除分支的新配置 #3212
- 向 TimeSeriesParametersDataCheck 错误详情添加了 n_obs 和 n_splits #3246
修复
- 修复了分类管道仅接受具有适当类别数量的目标数据的错误 #3185
- 在 DefaultAlgorithm 中添加了对时间序列的支持 #3177
- 标准化了特征化组件的名称 #3192
- 移除了 text_input.ipynb 中的空单元格 #3234
- 移除了管道预测概率为 1 的类别时可能出现的预测解释失败 #3221
- 在生成部分依赖网格之前删除了 NaNs #3235
- 允许预测解释可进行 json 序列化 #3262
- 修复了 InvalidTargetDataCheck 不会检查时间序列回归目标的错误 #3251
- 修复了 are_datasets_separated_by_gap_time_index 中的错误 #3256
变更
- 为解决安全问题，将最低兼容 numpy 版本提高到 1.21.0 #3207
- 将时间序列回归的默认目标函数从 R2 更改为 MedianAE #3205
- 在 infer_feature_types 中移除了全 nan Unknown 到 Double 的逻辑转换 #3196
- 在调用 predict 之前，可以通过调用 pipelines.utils.validate_holdout_datasets 来检查时间序列问题的保留数据的有效性 #3208
测试变更
- 更新自动批准工作流触发器，并在合并后删除分支 #3265

警告

重大变更

将 DateTime Featurizer Component 重命名为 DateTime Featurizer，将 Natural Language Featurization Component 重命名为 Natural Language Featurizer #3192

v0.41.0 2022年1月6日

增强功能
- 添加了对 DataCheckActionCode 的字符串支持 #3167
- 添加了 DataCheckActionOption 类 #3134
- 为 GitHub 添加了错误、功能请求和文档改进的问题模板 #3199
修复
- 修复了布尔型目标预测解释中 class_name 显示为浮点数的错误 #3179
- 修复了每晚 Linux 测试中的错误 #3189
变更
- 移除了对 scikit-learn 的 LabelEncoder 的使用，转而使用我们自己的 #3161
- 从 infer_feature_types 中移除了可空类型检查 #3156
- 修复了 AutoMLSearch.rankings 中 mean_cv_data 和 validation_score 的值，使其适当地反映 cv 分数或 NaN #3162
测试变更
- 更新了测试，使其使用新的管道 API 而不是定义自定义管道类 #3172
- 添加工作流以在状态检查通过时自动合并依赖项 PR #3184

v0.40.0 2021年12月22日

增强功能
- 向 DefaultDataChecks 添加了 TimeSeriesSplittingDataCheck，用于验证时间序列分类问题中充足的类别表示 #3141
- 添加了在 DFSTransformer 中接受序列化特征并跳过计算的能力 #3106
- 添加了对预知特征的支持 #3149
- 为时间序列回归问题添加了 Holt-Winters ExponentialSmoothingRegressor #3157
- 要求时间序列问题的训练数据和测试数据间隔 gap + 1 个单位，并通过 time_index 进行验证 #3160
修复
- 修复了时间序列二分类调整阈值时导致的错误 #3140
变更
- 向时间序列问题的 DefaultDataChecks 添加了 TimeSeriesParametersDataCheck #3139
- 在时间序列问题的 problem_configuration 中，将 date_index 重命名为 time_index #3137
- 更新了 nlp-primitives 的最低版本到 2.1.0 #3166
- 更新了 woodwork 的最低版本到 v0.11.0 #3171
- 回滚 3160，直到可以在流程早期解决无法推断的频率问题 #3198
文档变更
- 添加了注释以提供对 doctests 的清晰说明 #3155
测试变更
- 在 test_datasets.py 中参数化了测试 #3145

警告

重大变更

在时间序列问题的 problem_configuration 中，将 date_index 重命名为 time_index #3137

v0.39.0 2021年12月9日

增强功能
- 将 DelayedFeatureTransformer 重命名为 TimeSeriesFeaturizer，并增强其以计算滚动特征 #3028
- 添加了仅在 PerColumnImputer 中填充特定列的能力 #3123
- 添加了 TimeSeriesParametersDataCheck，用于验证给定交叉验证分割次数的时间序列参数是否有效 #3111
修复
- 修复了 RFRegressorSelectFromModel 和 RFClassifierSelectFromModel 的默认参数，以避免选择所有特征 #3110
变更
- 移除了 ARIMARegressor 和 ProphetRegressor 对 datetime 索引的依赖 #3104
- 在拟合 ARIMARegressor 时包含了目标泄露检查，以考虑基于 ARIMARegressor 的管道中缺乏 TimeSeriesFeaturizer 的情况 #3104
- 清理和重构了 InvalidTargetDataCheck 的实现和 docstring #3122
- 从 HighlyNullDataCheck 的 validate() 方法输出中移除了索引信息 #3092
- 添加了 ReplaceNullableTypes 组件，为处理 pandas 可空类型做准备。 #3090
- 更新了 make_pipeline，用于处理预处理管道中的 pandas 可空类型。 #3129
- 移除了未使用的 EnsembleMissingPipelinesError 异常定义 #3131
测试变更
- 重构了测试以避免使用 importorskip #3126
- 添加了 skip_during_conda 测试标记，用于跳过不应在 conda 构建期间运行的测试 #3127
- 添加了 skip_if_39 测试标记，用于跳过不应在 python 3.9 期间运行的测试 #3133

警告

重大变更

将 DelayedFeatureTransformer 重命名为 TimeSeriesFeaturizer #3028
ProphetRegressor 现在要求 X 中有一个由 date_index 参数表示的 datetime 列 #3104
将模块 evalml.data_checks.invalid_target_data_check 重命名为 evalml.data_checks.invalid_targets_data_check #3122
移除了未使用的 EnsembleMissingPipelinesError 异常定义 #3131

v0.38.0 2021年11月27日

增强功能
- 向数据检查操作类添加了 data_check_name 属性 #3034
- 向 TextFeaturizer 添加了 NumWords 和 NumCharacters 原语，并将 TextFeaturizer 重命名为 NaturalLanguageFeaturizer #3030
- 添加了对 scikit-learn > 1.0.0 的支持 #3051
- 要求在 AutoMLSearch 中为时间序列问题指定 date_index 参数 #3041
- 允许时间序列管道预测测试数据集，其长度小于或等于 forecast_horizon。还允许测试集的索引从 0 开始。 #3071
- 使时间序列管道能够预测包含非预知特征的数据 #3094
修复
- 在 fit 和 predict/predict_proba 数据类型不同时添加了错误消息 #3036
- 修复了集成组件无法转换为 JSON 格式的错误 #3049
- 修复了具有调优整数超参数的组件无法转换为 JSON 格式的错误 #3049
- 修复了力图未显示正确特征值的错误 #3044
- 在 find_confusion_matrix_per_threshold 中包含了管道阈值处的混淆矩阵 #3080
- 修复了 One Hot Encoder 在非分类特征具有缺失值时会出错的错误 #3083
- 修复了 Delayed Feature Transformer 从分类列创建的特征会被推断为分类的错误 #3083
变更
- 删除了 predict_uses_y 估计器属性 #3069
- 更改了 DateTimeFeaturizer，使其使用相应的 Featuretools 原语 #3081
- 更新了 TargetDistributionDataCheck，使其将元数据详情作为浮点数而不是字符串返回 #3085
- 移除了对 psutil 包的依赖 #3093
文档变更
- 更新了文档，使其使用数据检查操作方法而不是手动清理数据 #3050
测试变更
- 更新了集成测试，使其使用 make_pipeline_from_actions 而不是私有方法 #3047

警告

重大变更

向数据检查操作类添加了 data_check_name 属性 #3034
将 TextFeaturizer 重命名为 NaturalLanguageFeaturizer #3030
更新了 Pipeline.graph_json 函数，使其返回“from”和“to”边的字典而不是元组 #3049
删除了 predict_uses_y 估计器属性 #3069
更改了 AutoMLSearch 中的时间序列问题，使其需要一个非 None 的 date_index #3041
更改了 DelayedFeatureTransformer，使其在拟合时如果 date_index 为 None 则抛出 ValueError #3041
将 X=None 传递给 DelayedFeatureTransformer 已弃用 #3041

v0.37.0 2021年11月9日

增强功能
- 向模型理解添加了 find_confusion_matrix_per_threshold #2972
- 在 AutoMLSearch 期间，限制某些多分类问题的计算密集型模型，允许通过参数 allow_long_running_models 选择启用 #2982
- 向预测解释模块添加了对堆叠集成管道的支持 #2971
- 为数据检查和数据检查操作工作流添加了集成测试 #2883
- 更改了管道结构，以便在 DefaultAlgorithm 中单独处理分类列 #2986
- 向 DelayedFeatureTransformer 添加了算法以选择更好的滞后 #3005
- 添加了测试以确保序列化管道保留阈值 #3027
- 添加了 AutoML 函数以访问集成管道的输入管道 ID #3011
- 添加了在二分类情况下定义哪个类为“正”类的能力，用于标签编码器 #3033
修复
- 修复了 Oversampler 未将布尔列视为分类列的错误 #2980
- 修复了目标为分类时排列重要性失败的错误 #3017
- 更新了估计器和管道的 predict、predict_proba、transform、inverse_transform 方法，以保留输入索引 #2979
- 更新了每日最低温度的演示数据集链接 #3023
变更
- 更新了 OutliersDataCheck 和 UniquenessDataCheck，并允许暂停可空类型错误 #3018
文档变更
- 修复了成本效益矩阵演示的格式问题 #2990
- 更新 ReadMe.md，添加新的徽章链接和更新的 conda 安装说明 #2998
- 添加了更全面的 doctests #3002

v0.36.0 2021年10月27日

增强功能
- 将 LIME 作为 explain_predictions 和 explain_predictions_best_worst 的算法选项添加 #2905
- 标准化了数据检查消息，并向数据检查消息详情字典添加了默认的“rows”和“columns” #2869
- 向管道工具添加了 rows_of_interest #2908
- 添加了对 woodwork 版本 0.8.2 的支持 #2909
- 增强了 DateTimeFeaturizer，使其能够处理日期特征中的 NaNs #2909
- 在模型理解工具中添加了对 woodwork 逻辑类型 PostalCode、SubRegionCode 和 CountryCode 的支持 #2946
- 添加了 Vowpal Wabbit 回归器和分类器 #2846
- 为未来的无监督学习搜索添加了 NoSplit 数据分割器 #2958
- 添加了将操作转换为预处理管道的方法 #2968
修复
- 修复了部分依赖不尊重 ww 模式的错误 #2929
- 修复了 StandardScaler 上 datetimes 的 calculate_permutation_importance #2938
- 修复了 SelectColumns，使其在 DefaultAlgorithm 中仅选择可用特征进行特征选择 #2944
- 修复了 DropColumns 组件在 DefaultAlgorithm 中未接收参数的错误 #2945
- 修复了 get_pipeline 或 clone 未返回训练后的二分类阈值的错误 #2948
- 修复了 Oversampler 选择了 ww 逻辑分类而不是 ww 语义分类的错误 #2946
变更
- 更改了 make_pipeline 函数，将 DateTimeFeaturizer 置于 Imputer 之前，以便可以填充 NaN 日期 #2909
- 重构了 OutliersDataCheck 和 HighlyNullDataCheck，以添加更具描述性的元数据 #2907
- 将 dask 的最低版本从 2021.2.0 提高到 2021.10.0 #2978
文档变更
- 将未来版本部分添加回发布说明 #2927
- 更新了 CI，以运行 doctest (docstring 测试) 并对 docstrings 应用必要的修复 #2933
- 添加了 BinaryClassificationPipeline 阈值处理的文档 #2937
测试变更
- 修复了依赖项检查器以捕获包的全名 #2930
- 重构了 build_conda_pkg，使其可以使用本地 recipe #2925
- 重构了不同环境的组件测试 #2957

警告

重大变更

标准化了数据检查消息，并向数据检查消息详情字典添加了默认的“rows”和“columns”。这可能会改变数据检查返回的消息数量。 #2869

v0.35.0 2021年10月14日

增强功能
- 向模型理解添加了人类可读的管道解释 #2861
- 更新以支持 Featuretools 1.0.0 和 nlp-primitives 2.0.0 #2848
修复
- 修复了顶级搜索方法的 long 模式未被尊重的错误 #2875
- 在 cmdstan-builder 中将 cmdstan 锁定在 0.28.0 版本，以防止未来破坏对 Prophet 的支持 #2880
- 向 TargetDistributionDataCheck 添加了 Jarque-Bera #2891
变更
- 更新了管道，使其使用标签编码器组件而不是在管道级别进行编码 #2821
- 删除了 scikit-learn 集成器 #2819
- 将管道构建逻辑从 AutoMLSearch 重构到 IterativeAlgorithm #2854
- 重构了 ComponentGraph 和 PipelineBase 中的方法名称 #2902
文档变更
- 更新了 install.ipynb，以反映 cmdstan 版本安装的灵活性 #2880
- 更新了贡献指南中的 conda 部分 #2899
测试变更
- 更新了 test_all_estimators，以考虑 Prophet 在 Python 3.9 中被允许的情况 #2892
- 更新了 Linux 测试，使其使用 cmdstan-builder==0.0.8 #2880

警告

重大变更

更新了管道，使其使用标签编码器组件而不是在管道级别进行编码。这意味着管道将不再自动编码非数值目标。如果您处理分类问题和非数值目标，请使用标签编码器。 #2821
删除了 scikit-learn 集成器 #2819
IterativeAlgorithm 现在需要 X、y、problem_type 作为必需参数，以及 sampler_name、allowed_model_families、allowed_component_graphs、max_batches 和 verbose 作为可选参数 #2854
在 ComponentGraph 中，将 fit_features 和 compute_final_component_features 的方法名称更改为 fit_and_transform_all_but_final 和 transform_all_but_final；在管道类中，将 compute_estimator_features 更改为 transform_all_but_final #2902

v0.34.0 2021年9月30日

增强功能
- 更新以与 Woodwork 0.8.1 配合使用 #2783
- 在预测解释中添加了 training_data 和 training_target 不为 None 的验证 #2787
- 在管道和组件图中添加了对仅训练组件的支持 #2776
- 为 ComponentGraph.instantiate 的 parameters 值添加了默认参数 #2796
- 向 LightGBMRegressor's 的支持问题类型添加了 TIME_SERIES_REGRESSION #2793
- 提供了管道 DAG 结构的 JSON 表示 #2812
- 对传递给时间序列 predict 和 predict_proba 的保留数据添加了验证 #2804
- 在 OutliersDataCheck 中添加了关于哪些行索引是异常值的信息 #2818
- 向顶级 search() 方法添加了 verbose 标志 #2813
- 添加了对 linting jupyter notebook 并清除已执行单元格和空单元格的支持 #2829 #2837
- 向 OutliersDataCheck.validate() 的输出添加了“DROP_ROWS”操作 #2820
- 添加了 AutoMLSearch 接受 SequentialEngine 实例作为引擎输入的能力 #2838
- 向 EvalML 添加了新的标签编码器组件 #2853
- 添加了我们自己的部分依赖实现 #2834
修复
- 修复了 calculate_permutation_importance 对于带有目标转换器的管道未计算正确值的错误 #2782
- 修复了时间序列管道中，转换后的目标值未在 fit 中使用的错误 #2780
- 修复了 AutoMLSearch 的 score_pipelines 方法不适用于时间序列问题的错误 #2786
- 移除了 TargetTransformer 类 #2833
- 添加了测试以验证管道对 ComponentGraph 的支持 #2830
- 修复了 AutoMLSearch 中基线回归管道的错误参数 #2847
- 修复了 IterativeAlgorithm 中未遵守期望的估计器族顺序的错误 #2850
变更
- 更改了 woodwork 初始化，使其使用部分模式 #2774
- 将 Transformer.transform() 设为抽象方法 #2744
- 删除了 EmptyDataChecks 类 #2794
- 移除了 make_pipeline 中检查对数分布的数据检查 #2806
- 将 woodwork 的最低版本更改为 0.8.0 #2783
- 将 woodwork 版本锁定到 0.8.0 #2832
- 从 ComponentBase 和转换器中移除了 model_family 属性 #2828
- 限制了 scikit-learn，直到可以解决新特性和错误 #2842
- 在调用 Sklearn 集成器时显示 DeprecationWarning #2859
测试变更
- 更新了多项式去趋势测试中关于单调索引的匹配断言消息 #2811
- 添加了测试以确保 pip 版本与 conda 版本匹配 #2851

警告

重大变更

将 Transformer.transform() 设为抽象方法 #2744
删除了 EmptyDataChecks 类 #2794
移除了 make_pipeline 中检查对数分布的数据检查 #2806

v0.33.0 2021年9月15日

修复
- 修复了 make_pipeline 期间的警告未向用户抛出的错误 #2765
变更
- 重构并移除了 SamplerBase 类 #2775
文档变更
- 向 make-lint 命令添加了 docstring linting 包 pydocstyle 和 darglint #2670

v0.32.1 2021年9月10日

增强功能
- 向 AutoMLSearch 添加了 verbose 标志，默认情况下以静默模式运行搜索 #2645
- 向 XGBoostClassifier 添加了标签编码器以消除警告 #2701
- 将 XGBoostClassifier 的 eval_metric 设置为 logloss #2741
- 添加了对 woodwork 版本 0.7.0 和 0.7.1 的支持 #2743
- 更改了 explain_predictions 函数，使其显示原始特征值 #2759
- 向 graph_prediction_vs_actual_over_time 和 get_prediction_vs_actual_over_time_data 添加了 X_train 和 y_train #2762
- 将 forecast_horizon 作为时间序列管道和 AutoMLSearch 的必需参数添加 #2697
- 向时间序列管道添加了 predict_in_sample 和 predict_proba_in_sample 方法，用于预测目标已知的数据（例如交叉验证） #2697
修复
- 修复了 _catch_warnings 假定所有警告都是 PipelineNotUsed 的错误 #2753
- 修复了 Imputer.transform 在将数据交给 SimpleImputer 之前会擦除 ww 类型信息的错误 #2752
- 修复了 Oversampler 无法复制的错误 #2755
变更
- 删除了 drop_nan_target_rows 工具方法 #2737
- 移除了默认日志记录设置和调试日志文件 #2645
- 将 XGBoostClassifier 和 XGBoostRegressor 的默认 n_jobs 值更改为 12 #2757
- 将 TimeSeriesBaselineEstimator 更改为仅适用于带有 DelayedFeaturesTransformer 的时间序列管道 #2697
- 将 X_train 和 y_train 作为可选参数添加到管道的 predict、predict_proba 方法中。仅用于时间序列管道 #2697
- 将 training_data 和 training_target 作为可选参数添加到 explain_predictions 和 explain_predictions_best_worst 中，以支持时间序列管道 #2697
- 更改了时间序列管道预测，使其不再输出填充 NaNs 的 series/dataframe。对于 X 输入中的每一行，都将返回一个预测结果 #2697
文档变更
- 指定了 Prophet 的安装步骤 #2713
- 添加了关于数据检查操作的数据探索文档 #2696
- 添加了时间序列建模的用户指南条目 #2697
测试变更
- 修复了针对 very_lognormal 分布的 TargetDistributionDataCheck 测试不稳定问题 #2748

警告

重大变更

移除了默认日志记录设置和调试日志文件 #2645
向 graph_prediction_vs_actual_over_time 和 get_prediction_vs_actual_over_time_data 添加了 X_train 和 y_train #2762
将 forecast_horizon 作为时间序列管道和 AutoMLSearch 的必需参数添加 #2697
将 TimeSeriesBaselineEstimator 更改为仅适用于带有 DelayedFeaturesTransformer 的时间序列管道 #2697
将 X_train 和 y_train 作为时间序列管道中 predict 和 predict_proba 的必需参数添加 #2697
将 training_data 和 training_target 作为时间序列管道中 explain_predictions 和 explain_predictions_best_worst 的必需参数添加 #2697

v0.32.0 2021年8月31日

增强功能
- 允许 AutoMLSearch 的 engine 参数使用字符串 #2667
- 将 ProphetRegressor 添加到 AutoML #2619
- 将 DefaultAlgorithm 集成到 AutoMLSearch 中 #2634
- 移除了 SVM 的“linear”和“precomputed”核超参数选项，并改进了默认参数 #2651
- 更新了 ComponentGraph 初始化，当用户尝试对不产生元组输出的组件使用 .y 时抛出 ValueError #2662
- 更新以支持 Woodwork 0.6.0 #2690
- 更新了管道 graph()，以区分 X 和 y 边 #2654
- 添加了 DropRowsTransformer 组件 #2692
- 将 DROP_ROWS 添加到 _make_component_list_from_actions 并清理元数据 #2694
- 添加了新的集成器组件 #2653
修复
- 更新了 Oversampler 逻辑，使其基于组件输入而不是管道输入选择最佳 SMOTE #2695
- 添加了明确关闭 DaskEngine 资源的能力，以改善运行时并减少 Dask 警告 #2667
- 修复了集成管道的部分依赖错误 #2714
- 更新了 TargetLeakageDataCheck，以保留用户选择的逻辑类型 #2711
变更
- 将 SMOTEOversampler、SMOTENOversampler 和 SMOTENCOversampler 替换为合并的 Oversampler 组件 #2695
- 由于性能不佳，从默认的 AutoMLSearch 估计器列表中移除了 LinearRegressor #2660
文档变更
- 添加了使用 ComponentGraph 的用户指南文档，并将 ComponentGraph 添加到 API 参考 #2673
- 更新了文档，使 AutoML 的并行化更清晰 #2667
测试变更
- 从 test_cancel_job 测试中移除了进程级并行 #2666
- 在 windows CI 中安装了 numba 0.53，以防止安装版本 0.54 时出现问题 #2710

警告

重大变更

将当前顶级 search 方法重命名为 search_iterative，并为 DefaultAlgorithm 定义了一个新的 search 方法 #2634
将 SMOTEOversampler、SMOTENOversampler 和 SMOTENCOversampler 替换为合并的 Oversampler 组件 #2695
由于性能不佳，从默认的 AutoMLSearch 估计器列表中移除了 LinearRegressor #2660

v0.31.0 2021年8月19日

增强功能
- 更新了 AutoMLSearch 中的高方差检查，使其对各种目标函数和 cv 分数具有鲁棒性 #2622
- 对 OutliersDataCheck 使用 Woodwork 的异常值检测 #2637
- 添加了在创建管道时使用已实例化组件的能力 #2643
- 加快了 infer_feature_types 中的全 Nan 和未知检查 #2661
修复
变更
- 删除了 _put_into_original_order 辅助函数 #2639
- 使用时间序列管道基类重构了时间序列管道代码 #2649
- 将 dask_tests 重命名为 parallel_tests #2657
- 移除了 pipeline_meta.py 中的注释代码 #2659
文档变更
- 在 README 和安装部分添加了完整的安装命令 #2627
- 清理了 MulticollinearityDataCheck 的文档 #2664
测试变更
- 通过在 GitHub 中将 Prophet 测试拆分到单独的工作流来加快 CI 速度 #2644

警告

重大变更

TimeSeriesRegressionPipeline 不再继承自 TimeSeriesRegressionPipeline #2649

v0.30.2 2021年8月16日

修复
- 更新了更新日志和版本号以匹配发布。版本 0.30.1 是错误发布的，没有更改版本号。0.30.2 将取代它。

v0.30.1 2021年8月12日

增强功能
- 为时间序列问题添加了 DatetimeFormatDataCheck #2603
- 将 ProphetRegressor 添加到估计器中 #2242
- 更新了 ComponentGraph，使其在预测期间不调用采样器的 transform 方法，并更新了采样器的 transform 方法，使得 fit_transform 等同于 fit(X, y).transform(X, y) #2583
- 更新了 ComponentGraph 的 _validate_component_dict 逻辑，对输入值要求更严格 #2599
- 修补了 xgboost 估计器中的错误，即仅对布尔类型特征矩阵进行预测时会抛出异常。 #2602
- 更新了 ARIMARegressor，使其使用相对预测来预测值 #2613
- 添加了创建没有估计器作为最终组件的管道的支持，并向管道和组件图添加了 transform(X, y) 方法 #2625
- 更新以支持 Woodwork 0.5.1 #2610
修复
- 更新了 AutoMLSearch，如果在检测到不兼容的频率时，从 allowed_estimators 中移除 ARIMARegressor #2632
- 更新了 get_best_sampler_for_data，使其将所有非数值数据类型视为 SMOTE 的分类类型 #2590
- 修复了 TargetDistributionDataCheck 测试结果不一致的问题 #2608
- 采用矢量化 pd.NA 检查以支持 Woodwork 0.5.1 #2626
- 将 astroid 的最高版本锁定为 2.6.6，以保持 ReadTheDocs 正常工作。 #2638
变更
- 将 SMOTE 采样器重命名为 SMOTE 过采样器 #2595
- 将 partial_dependence 和 graph_partial_dependence 更改为抛出 PartialDependenceError 而不是 ValueError。这不是一个破坏性更改，因为 PartialDependenceError 是 ValueError 的子类 #2604
- 清理了 ComponentGraph 中的代码重复 #2612
- 在 ComponentGraph 中将中间估计器的 predict_proba 结果存储在 .x 中 #2629
文档变更
- 为避免本地文档构建错误，仅在 ReadTheDocs 构建中添加警告禁用和下载头文件，不在本地添加 #2617
测试变更
- 更新了 partial_dependence 测试，以根据 Plotly 5.2.1 升级更改逐元素比较 #2638
- 将 lint CI 作业更改为仅通过 -t 标志检查 Python 3.9 #2586
- 在 linux nightly 测试中安装了 Prophet，并修复了 test_all_components #2598
- 重构并修复了所有 make_pipeline 测试，以断言正确的顺序并解决新的 Woodwork Unknown 类型推断 #2572
- 移除了 test_component_graphs.py 中的 component_graphs 作为全局变量 #2609

警告

重大变更

将 SMOTE 采样器重命名为 SMOTE 过采样器。请使用 SMOTEOversampler、SMOTENCOversampler、SMOTENOversampler 代替 SMOTESampler、SMOTENCSampler 和 SMOTENSampler #2595

v0.30.0 2021 年 8 月 3 日

增强功能
- 新增 LogTransformer 和 TargetDistributionDataCheck #2487
- 当传入的 pipeline 参数未在 pipeline 中使用时，向用户发出警告 #2564
- 新增 Gini 系数作为目标函数 #2544
- 为 ComponentGraph 新增 repr #2565
- 新增组件，用于从 URL 和 EmailAddress Logical Types 中提取特征 #2550
- 为 TextFeaturizer 中的 NaN 值添加支持 #2532
- 新增 SelectByType 转换器 #2531
- 在 HighlyNullDataCheck 中为 null 行和 null 列的百分比设置了单独的阈值 #2562
- 为 NaN 自然语言值添加支持 #2577
修复
- 在 partial_dependence 中为 URL、NaturalLanguage 和 EmailAddress 类型提高了错误消息级别 #2573
变更
- 更新了 PipelineBase 实现，以从组件列表中创建 pipelines #2549
- 将 get_hyperparameter_ranges 从 automl/utils 模块移动到 PipelineBase 类 #2546
- 将 ComponentGraph 的 get_parents 重命名为 get_inputs #2540
- 移除了 ComponentGraph.linearized_component_graph 和 ComponentGraph.from_list #2556
- 更新了 ComponentGraph，强制要求图中的每个组件都必须有 .x 和 .y 输入 #2563
- 将现有集成分类器的实现从 StackedEnsemblers 重命名为 SklearnStackedEnsemblers #2578
文档变更
- 为 DaskEngine 和 CFEngine 并行引擎添加了文档 #2560
- 改进了 TextFeaturizer 文档字符串和教程的细节 #2568
测试变更
- 新增测试，确保 split_data 在处理时间序列问题时不打乱数据 #2552

警告

重大变更

将 get_hyperparameter_ranges 从 automl/utils 模块移动到 PipelineBase 类 #2546
将 ComponentGraph 的 get_parents 重命名为 get_inputs #2540
移除了 ComponentGraph.linearized_component_graph 和 ComponentGraph.from_list #2556
更新了 ComponentGraph，强制要求图中的每个组件都必须有 .x 和 .y 输入 #2563

v0.29.0 2021 年 7 月 21 日

增强功能
- 更新了日期时间特征的一维局部依赖性支持 #2454
- 添加了关于如何修复由损坏的 ww schema 引起的错误的详细信息 #2466
- 添加了使用内置 pickle 保存 AutoMLSearch 的能力 #2463
- 更新了我们的组件和组件图，以使用 ww 0.4.1 的最新功能，例如 concat_columns 和原地删除。 #2465
- 新增了基于 concurrent.futures 的并行 AutoML 引擎 #2506
- 为 AutoMLSearch 中的新 Woodwork Unknown 类型添加了支持 #2477
- 更新了我们的组件，增加了一个属性，描述它们是否修改特征或目标，并且可以在 pipeline 初始化的 list API 中使用 #2504
- 更新了 ComponentGraph 以接受 X 和 y 作为输入 #2507
- 从 DataCheckMessageCode 枚举中删除了未使用的 TARGET_BINARY_INVALID_VALUES，并修复了目标函数文档的格式 #2520
- 新增 EvalMLAlgorithm #2525
- 为 TextFeaturizer 中的 NaN 值添加支持 #2532
修复
- 修复了 FraudCost 目标函数，并将二元分类的阈值优化方法恢复为 Golden #2450
- 为尺度过小的特征添加了自定义部分依赖异常消息 #2455
- 确保 Ordinal 和 Datetime ltypes 的类型通过 _retain_custom_types_and_initalize_woodwork 传递 #2461
- 更新以支持 Pandas 1.3.0 #2442
- 更新以支持 sktime 0.7.0 #2499
变更
- 更新了 XGBoost 依赖项至 >=1.4.2 #2484, #2498
- 添加了关于弃用 ComponentGraph 的 list API 的 DeprecationWarning #2488
- 更新了 AutoML 的 make_pipeline 以创建字典而非列表来初始化 pipelines #2504
- 由于 release 0.17 破坏了 windows 3.7，不再在我们的 CI pipelines 中安装 graphviz on windows #2516
文档变更
- 将文档字符串从 __init__ 移动到类页面，为缺失的类添加了缺失的文档字符串，并更新了缺失的默认值 #2452
- 使用 sphinx-autoapi 构建文档 #2458
- 将 autoapi_ignore 更改为仅忽略 evalml/tests/* 中的文件 #2530
测试变更
- 修复了不稳定的 dask 测试 #2471
- 从 build_conda_pkg action 中移除了 shellcheck action #2514
- 添加了一个 tmp_dir fixture，测试运行后删除其内容 #2505
- 添加了一个测试，确保 AutoMLSearch 中的所有 pipelines 获得相同的数据分割 #2513
- 精简了测试日志中的警告输出 #2521

警告

重大变更

由于 pandas 升级，Imputer 不再支持 Natural Language 类型中的 NaN 值。 #2477

v0.28.0 2021 年 7 月 2 日

增强功能
- 为部分依赖性可视化时显示个体条件期望 (Individual Conditional Expectations) 图添加了支持 #2386
- 将 Catboost 估计器的 thread_count 作为 n_jobs 参数公开 #2410
- 更新了 Objectives API 以允许样本加权 #2433
修复
- 删除了 IterativeAlgorithm 中无法到达的代码行 #2464
变更
- 将 Woodwork 版本锁定在 0.4.1 和 0.4.2 之间 #2460
- 更新了 requirements 中的 psutils 最低版本 #2438
- 更新了 log_error_callback，使其不包含日志消息中的文件路径 #2429
文档变更
- 加快了文档生成速度 #2430
- 从文档中删除了 DataTable 和 DataColumn 的提及 #2445
测试变更
- 为 nightlies 测试添加了 slack 集成 #2436
- 将 build_conda_pkg CI 作业更改为仅在依赖项更新时运行 #2446
- 更新了 workflow，将 pytest 运行时存储为测试 artifacts #2448
- 添加了 AutoMLTestEnv 测试 fixture，方便模拟 automl 测试 #2406

v0.27.0 2021 年 6 月 22 日

增强功能
- 为预测解释添加了力图 (force plots) #2157
- 移除了 AutoMLSearch 的自引用 #2304
- 为 generate_pipeline_code 添加了对非线性 pipelines 的支持 #2332
- 为 pipelines 添加了 inverse_transform 方法 #2256
- 添加了可选的自动更新检查器 #2350
- 在 AutoMLSearch 的 rankings 和 full_rankings 表中添加了 search_order #2345
- 更新了二元分类的阈值优化方法 #2315
- 更新了 demos，从 S3 拉取数据而非在包中包含 demo 数据 #2387
- 升级 woodwork 版本到 v0.4.1 #2379
修复
- 在整个 pipeline fit/predict 过程中保留用户指定的 woodwork 类型 #2297
- 修复了 ComponentGraph 在有组件同时返回 X 和 y 时将 target 追加到 final_component_features 的 bug #2358
- 修复了多分类问题中当类别标签是数字时，部分依赖关系图方法失效的 bug #2372
- 为二元分类问题添加了 thresholding_objective 参数到 AutoMLSearch #2320
- 在 SMOTE Oversamplers 中为 k_neighbors 参数添加了更改，以自动处理小样本 #2375
- 更改了 Logistic Regression Classifier 文件命名 #2399
- 固定 pytest-timeout 版本以修复最低依赖检查器 #2425
- 将 Elastic Net Classifier 基类替换为 Logistsic Regression 以避免 NaN 输出 #2420
变更
- 清理了 PipelineBase 的 component_graph 和 _component_graph 属性。更新了 PipelineBase 的 __repr__，并为 ComponentGraph 添加了 __eq__ #2332
- 在 EvalML 仓库中添加并应用了 black linting 包，取代 autopep8 #2306
- 将 custom_hyperparameters 从 pipelines 中分离，并作为参数添加到 AutoMLSearch #2317
- 将 allowed_pipelines 替换为 allowed_component_graphs #2364
- 从 PipelineBase 中移除了私有方法 _compute_features_during_fit #2359
- 更新了 ComponentGraph 中的 compute_order，使其成为只读属性 #2408
- 取消固定 requirements.txt 中的 PyZMQ 版本 #2389
- 取消限制 requirements.txt 中的 LightGBM 版本 #2405
- 更新了 plotly 的最低版本 #2415
- 从核心目标中移除了 SensitivityLowAlert 目标 #2418
文档变更
- 修复了 demos 文档中的潜在客户评分权重 #2315
- 修复了起始页代码和描述数据集命名不一致的问题 #2370
测试变更
- 更新了在所有 pull request 上运行的最低单元测试 #2314
- 传递 token 以授权上传 codecov 报告 #2344
- 新增 pytest-timeout。所有运行时间超过 6 分钟的测试都将失败。 #2374
- 将 dask 测试分离到单独的 GitHub action 作业中，以隔离 dask 故障。 #2376
- 重构了 dask 测试 #2377
- 重新添加了合并后的 dask/非 dask 单元测试，并重命名了仅包含 dask 的单元测试。 #2382
- 加快了单元测试速度并将其拆分为单独的作业 #2365
- 更改 CI 作业名称，为 python 3.9 运行 lint，在美东时间凌晨 3 点为 python 3.8 运行 nightlies #2395 #2398
- 将运行于 PRs 的 CI 作业的 fail-fast 设置为 false #2402

警告

重大变更

AutoMLSearch 将接受 allowed_component_graphs 而非 allowed_pipelines #2364
移除了 PipelineBase 的 _component_graph 属性。更新了 PipelineBase 的 __repr__，并为 ComponentGraph 添加了 __eq__ #2332
pipeline_parameters 将不再接受 skopt.space 变量，因为超参数范围现在将通过 custom_hyperparameters 指定 #2317

v0.25.0 2021 年 6 月 1 日

增强功能
- 升级了 woodwork 最低版本至 0.3.1。之前的版本将不再受支持 #2181
- 为 explain_predictions_best_worst 添加了一个新的回调参数 #2308
修复
变更
- 删除了我们 demo 数据加载器中的 return_pandas 标志 #2181
- 将 default_parameters 从 PipelineBase 移动到 ComponentGraph #2307
文档变更
- 更新了发布流程文档 #2230
测试变更
- 在构建 conda 包时忽略 test_saving_png_file #2323

警告

重大变更

删除了我们 demo 数据加载器中的 return_pandas 标志 #2181
升级了 woodwork 最低版本至 0.3.1。之前的版本将不再受支持 #2181
由于 woodwork 中的弱引用，在访问 woodwork 之前将 infer_feature_types 的结果设置到一个变量 #2181

v0.24.2 2021 年 5 月 24 日

增强功能
- 将 oversamplers 添加到 AutoMLSearch #2213 #2286
- 为 Undersampler 组件添加了字典输入功能 #2271
- 更改了 Elastic Net Classifier 和 Elastic Net Regressor 的默认参数值 #2269
- 为 Oversampler 组件添加了字典输入功能 #2288
修复
- 在找到 sklearn stacking 中基于文本的并行性的修复之前，将 StackedEnsembleClassifier 和 StackedEnsembleRegressor 的默认 n_jobs 设置为 1 #2295
变更
- 更新了 start_iteration_callback，使其接受 pipeline 实例而不是 pipeline 类，并且不再接受 pipeline parameters 作为参数 #2290
- 重构了 calculate_permutation_importance 方法，并添加了按列计算排列重要性的方法 #2302
- 更新了 AutoMLSearch.__init__ 中的日志信息，以澄清 pipeline 生成 #2263
文档变更
- 发布流程的微小更改 #2230
测试变更
- 使用 codecov action 更新覆盖率报告 #2238
- 从 requirements.txt 中移除了 MarkupSafe 依赖项版本限制，并将其移动到 RTD 文档构建 CI 中 #2261

警告

重大变更

更新了 start_iteration_callback，使其接受 pipeline 实例而不是 pipeline 类，并且不再接受 pipeline parameters 作为参数 #2290
将 default_parameters 从 PipelineBase 移动到 ComponentGraph。现在可以通过 pipeline.component_graph.default_parameters 访问 pipeline 的 default_parameters #2307

v0.24.1 2021 年 5 月 16 日

增强功能
- 将 ARIMARegressor 集成到 AutoML #2009
- 更新了 HighlyNullDataCheck，使其也执行 null 行检查 #2222
- 将 featuretools dfs 调用中的 max_depth 设置为 1 #2231
修复
- 移除了训练期间的数据分割采样器调用 #2253
- 设置了 pyzmq, colorama 和 docutils 的最低所需版本 #2254
- 将 BaseSampler 更改为返回 None 而非 y #2272
变更
- 移除了 AutoMLSearch 中的集成分割和索引 #2260
- 更新了 pipeline 的 repr() 和 generate_pipeline_code，使其返回 pipeline 实例而不生成自定义 pipeline 类 #2227
文档变更
- 将 Sphinx 版本限制在 4.0.0 以下 #2244
测试变更
- 将 pytest 的核心数从 4 更改为 2 #2266
- 添加最低依赖检查器以生成最低要求文件 #2267
- 使用最低依赖项添加单元测试 #2277

v0.24.0 2021 年 5 月 4 日

增强功能
- 将 date_index 添加为时间序列问题的必填参数 #2217
- 让 OneHotEncoder 将转换后的列作为布尔值而不是浮点数返回 #2170
- 将 Oversampler 转换器组件添加到 EvalML #2079
- 将 Undersampler 添加到 AutoMLSearch，以及参数 _sampler_method 和 sampler_balanced_ratio #2128
- 更新了预测解释函数，允许使用带有 XGBoost 估计器的 pipelines #2162
- 添加了日期时间列的部分依赖支持 #2180
- 更新了精确率-召回率曲线，添加了正标签索引参数，并修复了二维预测概率 #2090
- 在 HighlyNullDataCheck 中添加了 pct_null_rows #2211
- 添加了一个独立的 AutoML search 方法以方便使用，该方法运行数据检查然后运行 AutoML #2152
- 使 AutoML 的第一个批次具有预定义的顺序，线性模型优先，复杂模型最后 #2223 #2225
- 为 BalancedClassficationSampler 添加了采样字典支持 #2235
修复
- 修复了部分依赖没有遵守数值特征的网格分辨率参数的 bug #2180
- 为多分类问题启用了 catboost 的预测解释 #2224
变更
- 删除了基线 pipeline 类 #2202
- 恢复了用户指定的日期特征 PR #2155，直到找到 pmdarima 安装修复为止 #2214
- 更新了 pipeline API 以接受 component graph 和其他类属性作为实例参数。旧的 pipeline API 仍然有效，但不会长期支持。 #2091
- 移除了 EvalML 中所有旧的数据分割器 #2193
- 删除了 make_pipeline_from_components #2218
文档变更
- 重命名了数据集，以澄清它是 gzipped 但不是 tarball #2183
- 更新了文档，以使用 pipeline 实例而不是 pipeline 子类 #2195
- 更新了贡献指南，增加了关于 GitHub Actions 权限的说明 #2090
- 更新了 automl 和模型理解用户指南 #2090
测试变更
- 使用 machineFL 用户 token 进行依赖项更新 bot，并添加更多审阅者 #2189

警告

重大变更

所有基线 pipeline 类（BaselineBinaryPipeline、BaselineMulticlassPipeline、BaselineRegressionPipeline 等）均已删除 #2202
更新了 pipeline API，以接受 component graph 和其他类属性作为实例参数。旧的 pipeline API 仍然有效，但不会长期受支持。现在可以通过将 component graph 指定为第一个参数，然后传入可选参数（如 custom_name、parameters 等）来初始化 pipelines。例如：BinaryClassificationPipeline(["Random Forest Classifier"], parameters={})。 #2091
移除了 EvalML 中所有旧的数据分割器 #2193
删除了工具方法 make_pipeline_from_components #2218

v0.23.0 2021 年 4 月 20 日

增强功能
- 重构了 EngineBase 和 SequentialEngine API。新增 DaskEngine #1975。
- 为 AutoMLSearch 添加了可选的 engine 参数 #1975
- 当用户向 AutoMLSearch 传入时间序列问题时，添加了关于时间序列支持仍处于测试阶段的警告 #2118
- 新增 NaturalLanguageNaNDataCheck 数据检查 #2122
- 在 partial_dependence 中添加了 ValueError，以防止用户计算所有 NaNs 列上的部分依赖性 #2120
- 在排名表中添加了交叉验证分数的标准差 #2154
修复
- 修复了 BalancedClassificationDataCVSplit、BalancedClassificationDataTVSplit 和 BalancedClassificationSampler，使其使用 minority:majority 比例而不是 majority:minority #2077
- 修复了带有分类变量的双向部分依赖图无法正常工作的 bug #2117
- 修复了使用 list component_graph 和重复组件的 pipelines 中，hyperparameters 未正确显示的 bug #2133
- 修复了 AutoMLSearch 中的 pipeline_parameters 参数未应用于作为 allowed_pipelines 传入的 pipelines 的 bug #2133
- 修复了 AutoMLSearch 未将自定义超参数应用于具有 list component_graph 和重复组件的 pipelines 的 bug #2133
变更
- 移除了 Undersampler 中的 hyperparameter_ranges，并将采样器的 balanced_ratio 重命名为 sampling_ratio #2113
- 将 TARGET_BINARY_NOT_TWO_EXAMPLES_PER_CLASS 数据检查消息代码重命名为 TARGET_MULTICLASS_NOT_TWO_EXAMPLES_PER_CLASS #2126
- 修改了分类特征的一维部分依赖图，以条形图形式显示数据 #2117
- 将 automl.rankings 的 score 列重命名为 mean_cv_score #2135
- 移除文档工具输出中的“warning” #2031
文档变更
- 修复了 conf.py 文件 #2112
- 在 automl 用户指南中添加了一句话，说明我们对时间序列问题的支持仍处于测试阶段。 #2118
- 修复了文档 demos #2139
- 更新 README 中的测试徽章以使用 GitHub Actions #2150
测试变更
- 修复了针对 pandas v1.2.4 的 test_describe_pipeline #2129
- 添加了一个 GitHub Action 来构建 conda 包 #1870 #2148

警告

重大变更

将 BalancedClassificationDataCVSplit、BalancedClassificationDataTVSplit、BalancedClassficationSampler 和 Undersampler 的 balanced_ratio 重命名为 sampling_ratio #2113
删除了 automl 结果中的“errors”键 #1975
删除了 raise_and_save_error_callback 和 log_and_save_error_callback #1975
修复了 BalancedClassificationDataCVSplit、BalancedClassificationDataTVSplit 和 BalancedClassificationSampler，使其使用 minority:majority 比例而不是 majority:minority #2077

v0.22.0 2021 年 4 月 6 日

增强功能
- 添加了用于 linux_unit_tests 的 GitHub Action #2013
- 为 InvalidTargetDataCheck 添加了推荐操作，更新了 _make_component_list_from_actions 以处理新操作，并添加了 TargetImputer 组件 #1989
- 更新了 AutoMLSearch._check_for_high_variance，使其不发出 RuntimeWarning #2024
- 当传递给 explain_predictions 的 pipeline 是 Stacked Ensemble pipeline 时，添加了异常 #2033
- 添加了低警报率下的敏感性作为目标函数 #2001
- 新增 Undersampler 转换器组件 #2030
修复
- 更新了 Engine 的 train_batch 以应用欠采样 #2038
- 修复了时间序列分类 pipelines 在 predict 和 predict_proba 中未编码目标的 bug #2040
- 修复了分类问题中如果目标是浮点数导致数据分割错误的问题 #2050
- 将 docutils 固定为 <0.17，以修复 ReadtheDocs 警告问题 #2088
变更
- 移除了 AutoMLSearch 中列表作为可接受的超参数范围的功能 #2028
- 将数据检查操作的“details”重命名为“metadata” #2008
文档变更
- 捕获并抑制文档中的警告 #1991 #2097
- 更改 start.ipynb 中的间距，以提高 AutoMLSearch 的清晰度 #2078
- 修复了 README 上的启动代码 #2108
测试变更

v0.21.0 2021 年 3 月 24 日

增强功能
- 将 AutoMLSearch 的 optimize_thresholds 默认值更改为 True #1943
- 添加了多种过采样和欠采样方法作为不平衡分类的数据分割器 #1775
- 为平衡分类数据分割器添加了 params 以提高可见性 #1966
- 更新了 make_pipeline，如果输入数据没有数值或分类列，则不添加 Imputer #1967
- 更新了 ClassImbalanceDataCheck 以更好地处理多类不平衡问题 #1986
- 为数据检查的 validate 方法的输出添加了推荐的操作 #1968
- 为 partial_dependence 添加了错误消息，用于特征值大部分相同的情况 #1994
- 更新了 OneHotEncoder，默认删除具有两个类别的特征的一个冗余特征 #1997
- 新增了 PolynomialDecomposer 组件 #1992
- 新增 DateTimeNaNDataCheck 数据检查 #2039
修复
- 将最佳 pipeline 更改为在整个数据集上训练，而不是仅对集成问题使用集成索引 #2037
- 更新了二元分类 pipelines，在评估自定义目标函数时使用目标函数决策函数 #1934
变更
- 从 AutoMLSearch 中移除了 data_checks 参数、data_check_results 和数据检查逻辑 #1935
- 删除了 random_state 参数 #1985
- 将 Woodwork 版本要求更新至 v0.0.11 #1996
文档变更
测试变更
- 删除了 build_docs CI 作业，改为 RTD GH 构建器 #1974
- 添加了测试以确认支持 Python 3.9 #1724
- 新增了测试以支持 Dask AutoML/Engine #1990
- 将 build_conda_pkg 作业更改为使用 feedstock 中的 latest_release_changes 分支。 #1979

警告

重大变更

将 AutoMLSearch 的 optimize_thresholds 默认值更改为 True #1943
移除了 AutoMLSearch 中的 data_checks 参数、data_check_results 和数据检查逻辑。要运行之前在 AutoMLSearch 中默认运行的数据检查，请调用 DefaultDataChecks().validate(X_train, y_train) 或查看我们的文档了解更多示例。 #1935
删除了 random_state 参数 #1985

v0.20.0 2021 年 3 月 10 日

增强功能
- 添加了用于检测依赖项更改的 GitHub Action #1933
- 为 AutoMLSearch 创建单独的 CV split 来训练堆叠集成模型 #1814
- 添加了用于 Linux 单元测试的 GitHub Action #1846
- 新增 ARIMARegressor 估计器 #1894
- 新增 DataCheckAction 类和 DataCheckActionCode 枚举 #1896
- 更新了 Woodwork 要求至 v0.0.10 #1900
- 将 BalancedClassificationDataCVSplit 和 BalancedClassificationDataTVSplit 添加到 AutoMLSearch #1875
- 更新默认分类数据分割器，对高度不平衡数据使用欠采样 #1875
- 更新了 describe_pipeline 以返回更多信息，包括用于集成模型的 pipeline 的 id #1909
- 添加了工具方法，用于根据 DataCheckAction 列表创建组件列表 #1907
- 更新了 validate 方法，在所有 DataCheck``and ``DataChecks 的返回字典中包含 action 键 #1916
- 聚合了我们知道来源的预测的 shap 值，例如 OHE、文本和日期时间。 #1901
- 改进了在 pipeline.score 中将自定义目标作为字符串传入时的错误消息 #1941
- 为 AutoMLSearch 添加了 score_pipelines 和 train_pipelines 方法 #1913
- 为 pandas 1.2.0 版本添加了支持 #1708
- 为 EngineBase 添加了抽象方法 score_batch 和 train_batch，并在 SequentialEngine 中实现了它们 #1913
- 添加了在 AutoMLSearch 和 DataChecks 中处理索引列的能力 #2138
修复
- 移除了 check_dependencies_updated_linux 的 CI 检查 #1950
- 为时间序列 pipelines 添加了元类，并修复了二元分类 pipeline predict 在目标函数作为命名参数传入时不使用目标函数的 bug #1874
- 修复了由混合字符串/数字 pandas 列名导致的预测解释函数中的堆栈跟踪问题 #1871
- 修复了将具有重复名称的 pipelines 传递给 AutoMLSearch 导致的堆栈跟踪问题 #1932
- 修复了 AutoMLSearch.get_pipelines 返回具有相同属性的 pipelines 的 bug #1958
变更
- 恢复了 Linux 单元测试的 GitHub Action，直到找到报告生成修复为止 #1920
- 更新了 AutoMLAlgorithm 中的 add_results，使其接受来自 AutoMLSearch 的整个 pipeline 结果字典 #1891
- 更新了 ClassImbalanceDataCheck 以寻找严重的类不平衡场景 #1905
- 删除了 explain_prediction 函数 #1915
- 移除了 HighVarianceCVDataCheck 并将其转换为 AutoMLSearch 方法 #1928
- 移除了 InvalidTargetDataCheck 中当数字二元分类目标不是 (0, 1) 时返回的警告 #1959
文档变更
- 更新了 model_understanding.ipynb 以演示双向部分依赖功能 #1919
测试变更

警告

重大变更

删除了 explain_prediction 函数 #1915
移除了 HighVarianceCVDataCheck 并将其转换为 AutoMLSearch 方法 #1928
为 EngineBase 添加了抽象方法 score_batch 和 train_batch。这些需要在 Engine 子类中实现 #1913

v0.19.0 2021 年 2 月 23 日

增强功能
- 添加了用于 Python windows 单元测试的 GitHub Action #1844
- 添加了用于检查更新的发布说明的 GitHub Action #1849
- 添加了用于 Python lint 检查的 GitHub Action #1837
- 调整了 explain_prediction、explain_predictions 和 explain_predictions_best_worst 以处理时间序列问题。 #1818
- 更新了 InvalidTargetDataCheck，以检查目标和特征中不匹配的索引 #1816
- 更新了组件返回的 Woodwork 结构，以支持用户设置的 Woodwork 逻辑类型覆盖 #1784
- 更新了 estimators，使其在 fit() 期间跟踪输入特征名称 #1794
- 更新了 visualize_decision_tree，在输出中包含特征名称 #1813
- 为目标函数添加了 is_bounded_like_percentage 属性。如果为 True，则 calculate_percent_difference 方法将返回绝对差而不是相对差 #1809
- 为 AutoMLSearch 日志文件添加了完整的错误堆栈跟踪 #1840
- 更改了 TargetEncoder 以保留数据中的自定义索引 #1836
- 重构了 explain_predictions 和 explain_predictions_best_worst，以便只对需要解释的所有行计算一次特征 #1843
- 为分类问题添加了自定义随机欠采样器数据分割器 #1857
- 更新了 OutliersDataCheck 实现，以计算没有异常值的概率 #1855
- 添加了 Engines pipeline 处理 API #1838
修复
- 将 EngineBase random_state 参数更改为 random_seed，用户指南文档中也做了相同更改 #1889
变更
- 修改了 calculate_percent_difference，现在除以 0 的结果为 inf 而非 nan #1809
- 从 LSA 和 TextFeaturizer 组件中移除了 text_columns 参数 #1652
- 在我们的 automl/pipeline/component API 中添加了 random_seed 参数。使用 random_state 将发出警告 #1798
- 在 InvalidTargetDataCheck 中添加了 DataCheckError 消息，如果输入目标为 None，并移除了引发的异常 #1866
文档变更
测试变更
- 在移除了 text_columns 后，重新为 TextFeaturizer 中的 _get_feature_provenance 添加了覆盖率 #1842
- 固定 Windows 构建的 graphviz 版本 #1847
- 取消固定 Windows 构建的 graphviz 版本 #1851

警告

重大变更

为 explain_prediction 添加了弃用警告。它将在下一次发布中被删除。 #1860

v0.18.2 2021 年 2 月 10 日

增强功能
- 新增唯一性得分数据检查 #1785
- 为预测解释添加了“dataframe”输出格式 #1781
- 更新了 LightGBM 估计器以处理 pandas.MultiIndex #1770
- 加快了某些 pipeline 的排列重要性计算 #1762
- 新增稀疏性数据检查 #1797
- 确认支持对二元时间序列分类问题进行阈值调优 #1803
修复
变更
文档变更
- 在贡献指南中添加了关于 conda 的部分 #1771
- 更新了发布流程，以反映性能测试前冻结 main #1787
- 将一些 PR 移动到发布说明的正确部分 #1789
- 修改 README.md。 #1800
- 修复了安装页面文档上的后退箭头 #1795
- 修复了 ClassImbalanceDataCheck.validate() 的文档字符串 #1817
测试变更

v0.18.1 2021 年 2 月 1 日

增强功能
- 新增 graph_t_sne 作为高维数据可视化工具 #1731
- 新增查看线性模型项中特征线性系数的能力 #1738
- 新增对 scikit-learn v0.24.0 的支持 #1733
- 新增对 scipy v1.6.0 的支持 #1752
- 将 SVM 分类器和回归器添加到 estimators #1714 #1761
修复
- 解决了 partial_dependence 和类别多于网格分辨率的分类数据之间的 bug #1748
- 从 AutoMLSearch 的 get_pipelines 中移除了 random_state 参数 #1719
- 将 pyzmq 版本锁定在小于 22.0.0，直到我们添加支持 #1756
变更
- 更新了组件和 pipelines 以返回 Woodwork 数据结构 #1668
- 更新了 pipelines 和组件的 clone()，使其自动复制随机状态 #1753
- 放弃了对 Python 3.6 版本的支持 #1751
- 从 AutoMLSearch 参数中移除了弃用的 verbose 标志 #1772
文档变更
- 在文档工具栏中添加了 Twitter 和 Github 链接 #1754
- 为文档添加了 Open Graph 信息 #1758
测试变更

警告

重大变更

组件和 pipelines 返回 Woodwork 数据结构而不是 pandas 数据结构 #1668
由于 EvalML 依赖项停止支持，将不再积极支持 Python 3.6。
移除了 AutoMLSearch 中弃用的 verbose 标志 #1772

v0.18.0 2021 年 1 月 26 日

增强功能
- 在 invalid_targets_data_check 中检查负目标值的同时，将 RMSLE、MSLE 和 MAPE 添加到核心目标函数 #1574
- 在 invalid_targets_data_check 中为具有回归式数据集的二元问题和没有真正多类目标的多元问题添加了验证检查 #1665
- 新增对 make_pipeline 的时间序列支持 #1566
- 新增 pipeline predict 方法输出的目标名称 #1578
- 在 InvalidTargetDataCheck 中添加了多类检查，以确保每个类有两个示例 #1596
- 新增对 graphviz v0.16 的支持 #1657
- 增强了时间序列 pipelines 以接受空特征 #1651
- 将 KNN 分类器添加到 estimators 中。 #1650
- 为目标函数的列表输入添加了支持 #1663
- 为 AutoMLSearch 添加了对处理时间序列分类 pipelines 的支持 #1666
- 增强了 DelayedFeaturesTransformer，使其在延迟分类特征和目标之前对其进行编码 #1691
- 新增了双向依赖图。 #1690
- 新增了直接迭代 Pipelines 中组件的能力 #1583
修复
- 修复了不一致的属性，并在文档中添加了 Exceptions #1673
- 修复了 TargetLeakageDataCheck，改用 Woodwork 的 mutual_information 而非 Pandas 的 Pearson 相关性 #1616
- 修复了 AutoMLSearch 中管道的阈值设定，使其仅对二元分类管道设定阈值 #1622 #1626
- 更新了 load_data，使其返回 Woodwork 结构，并将 index 参数的默认值更新为 None #1610
- 暂时限制 scipy 版本低于 1.6.0，同时我们正在努力添加支持 #1629
- 修复了 AutoMLSearch 中的数据检查消息格式 #1633
- 通过将默认交叉验证的 shuffle 设置为 True，解决了对 scikit-learn v0.24 支持的堆叠集成组件问题 #1613
- 修复了 Imputer 重置 X 索引的错误 #1590
- 修复了在将自定义目标作为主要目标或附加目标传入时 AutoMLSearch 的堆栈跟踪问题 #1575
- 修复了 MAPE 目标函数的自定义索引错误 #1641
- 修复了 TextFeaturizer 和 LSA 组件的索引错误 #1644
- 限制了加载到 automl.ipynb 中的 load_fraud 数据集大小 #1646
- 在必要时，add_to_rankings 会更新 AutoMLSearch.best_pipeline #1647
- 修复了时间序列基线估计器在 AutoMLSearch 中未接收 gap 和 max_delay 参数的错误 #1645
- 修复了 jupyter notebooks，以帮助减少 RTD 构建时间 #1654
- 将 positive_only 目标添加到了 non_core_objectives #1661
- 修复了 IterativeAlgorithm 的堆叠参数 n_jobs #1706
- 更新了 CatBoost 估计器，使其在 .fit() 中返回自身而非底层模型，以保持一致性 #1701
- 添加了在 AutoMLSearch 构造函数中初始化管道参数的功能 #1676
变更
- 为 graph_confusion_matrix 添加了标签 #1632
- 重新运行 AutoMLSearch 搜索时将抛出消息而非使搜索失败，并移除了 has_searched 属性 #1647
- 更改了调优器类，使其允许并忽略单个参数值作为输入 #1686
- 限制 LightGBM 版本上限，以消除文档中的错误 #1711
- 移除了 EvalML 中对 np.random.RandomState 的支持 #1727
文档变更
- 更新用户指南中的模型理解部分，包含了 visualize_decision_tree #1678
- 更新文档，包含了 AutoMLSearch 回调参数和方法的信息 #1577
- 更新文档，提示用户在 Mac 上安装 graphviz #1656
- 在 start.ipynb 指南中添加了 infer_feature_types #1700
- 在 API 参考和文档中添加了多重共线性数据检查 #1707
测试变更

警告

重大变更

从 AutoMLSearch 中移除了 has_searched 属性 #1647
组件和 pipelines 返回 Woodwork 数据结构而不是 pandas 数据结构 #1668
移除了 EvalML 中对 np.random.RandomState 的支持。在组件和管道的 random_state 值方面，我们改用整数 random_seed，而非传入 np.random.RandomState #1727

v0.17.0 2020 年 12 月 29 日

增强功能
- 添加了 save_plot，允许保存来自不同后端的图表 #1588
- 将 LightGBM Regressor 添加到回归组件中 #1459
- 添加了用于决策树可视化的 visualize_decision_tree，并添加了 decision_tree_data_from_estimator 和 decision_tree_data_from_pipeline 来重新格式化树结构输出 #1511
- 将 DFS Transformer 组件添加到转换器组件中 #1454
- 将 MAPE 添加到时间序列问题的标准评估指标中，并更新了目标函数 #1510
- 将 graph_prediction_vs_actual_over_time 和 get_prediction_vs_actual_over_time_data 添加到时间序列问题的模型理解模块中 #1483
- 添加了一个 ComponentGraph 类，它将支持未来的管道作为有向无环图 #1415
- 更新了数据检查，使其接受 Woodwork 数据结构 #1481
- 为 InvalidTargetDataCheck 添加了一个参数，使其仅显示顶部唯一值而非所有唯一值 #1485
- 添加了多重共线性数据检查 #1515
- 为时间序列回归问题添加了基线管道和组件 #1496
- 向用户提供了更多关于 AutoMLSearch 中集成行为的信息 #1527
- 添加 woodwork 支持以提供更多实用工具和图方法 #1544
- 更改了 DateTimeFeaturizer，使其将特征编码为整数 #1479
- 从 AutoMLSearch.best_pipeline 返回训练好的管道 #1547
- 添加了一个实用方法，用户无需直接了解 Woodwork 即可设置特征类型 #1555
- 添加了用于降维的线性判别分析转换器 #1331
- 为 partial_dependence 和 graph_partial_dependence 添加了多类别支持 #1554
- 添加了 TimeSeriesBinaryClassificationPipeline 和 TimeSeriesMulticlassClassificationPipeline 类 #1528
- 添加了 make_data_splitter 方法，以便更轻松地自定义 automl 数据分割 #1568
- 将 ComponentGraph 类集成到 Pipelines 中，以完全支持非线性管道 #1543
- 更新 AutoMLSearch 构造函数，使其接受训练数据而非 search 和 add_to_leaderboard #1597
- 更新 split_data 辅助方法的参数 #1597
- 添加问题类型工具方法 is_regression、is_classification、is_timeseries #1597
- 将 AutoMLSearch 的 data_split 参数重命名为 data_splitter #1569
修复
- 修复 AutoML 未将交叉验证折叠传递给 DefaultDataChecks 以供 ClassImbalanceDataCheck 使用的问题 #1619
- 修复 Windows CI 作业：通过 conda 安装 numba，这是 shap 所必需的 #1490
- 为 reset-index-get_prediction_vs_actual_over_time_data 添加了自定义索引支持 #1494
- 修复 generate_pipeline_code，使其考虑 Python 和 JSON 之间布尔值和 None 的差异 #1524 #1531
- 设置 plotly 和 xgboost 版本上限，同时我们正在调试较新版本引起的 CI 失败 #1532
- 取消对 plotly 的版本限制 #1533
- 通过更新 setuptools 版本修复 ReadTheDocs 构建 #1561
- 在 AutoMLSearch 中将数据分割器的 random_state 设置为接受整数，以保持分割结果的一致性 #1579
- 暂时限制 sklearn 版本，同时我们正在努力添加支持 #1594
- 暂时限制 pandas 版本低于 1.2.0，同时我们正在努力添加支持 #1609
- 暂时限制 graphviz 版本低于 0.16，同时我们正在努力添加支持 #1609
变更
- 恢复 save_graph #1550，以解决 kaleido 构建问题 #1585
- 更新 circleci 徽章，使其应用于 main 分支 #1489
- 添加了生成 GitHub 发布 markdown 的脚本 #1487
- 更新了使用 pandas dtypes 进行选择的方法，改为使用 Woodwork 逻辑类型进行选择 #1551
- 更新了依赖项，以修复 ImportError: cannot import name 'MaskedArray' from 'sklearn.utils.fixes' 错误，并解决了 Woodwork 和 Featuretool 的依赖问题 #1540
- 将 get_prediction_vs_actual_data() 方法公开 #1553
- 将 Woodwork 版本要求更新至 v0.0.7 #1560
- 将数据分割器从 evalml.automl.data_splitters 移动到 evalml.preprocessing.data_splitters #1597
- 将 automl 日志输出中的“# Testing”重命名为“# Validation” #1597
文档变更
- 在 API 参考中添加了偏依赖方法 #1537
- 更新了混淆矩阵方法的文档 #1611
测试变更
- 在大多数单元测试中将 n_jobs 设置为 1，以减少内存占用 #1505

警告

重大变更

更新了最低依赖项：numpy>=1.19.1、pandas>=1.1.0、scikit-learn>=0.23.1、scikit-optimize>=0.8.1
更新了 AutoMLSearch.best_pipeline，使其返回一个已训练的管道。如需返回未训练的管道，请在 AutoMLSearch 中传入 train_best_pipeline=False。
管道组件实例无法再通过 Pipeline.component_graph 进行迭代 #1543
更新 AutoMLSearch 构造函数，使其接受训练数据而非 search 和 add_to_leaderboard #1597
更新 split_data 辅助方法的参数 #1597
将数据分割器从 evalml.automl.data_splitters 移动到 evalml.preprocessing.data_splitters #1597
将 AutoMLSearch 的 data_split 参数重命名为 data_splitter #1569

v0.16.1 2020 年 12 月 1 日

增强功能
- 将 woodwork 版本固定为 v0.0.6，以避免重大更改 #1484
- 在 core-requirements.txt 中将 Woodwork 更新至 >=0.0.5 #1473
- 移除了 Woodwork 的 copy_dataframe 参数，并在 core-requirements.txt 中将 Woodwork 更新至 >=0.0.6 #1478
- 更新了 detect_problem_type，使其使用 pandas.api.is_numeric_dtype #1476
变更
- 更改了 make clean 命令，使其删除覆盖率报告，方便开发者 #1464
- 默认将堆叠集成组件的 n_jobs 设置为 -1 #1472
文档变更
- 更新了管道和组件文档以及演示，使其使用 Woodwork #1466
测试变更
- 更新了依赖项更新检查器，使其使用核心和可选依赖项中的所有内容 #1480

v0.16.0 2020 年 11 月 24 日

增强功能
- 更新了管道和 make_pipeline，使其接受 Woodwork 输入 #1393
- 更新了组件，使其接受 Woodwork 输入 #1423
- 添加了冻结 AutoMLSearch 超参数的功能 #1284
- 将 Target Encoder 添加到转换器组件中 #1401
- 在 AutoMLSearch 中添加了用于错误处理的回调 #1403
- 在 explain_predictions_best_worst 输出中添加了索引 ID，以帮助用户识别其数据中包含哪些行 #1365
- explain_predictions_* 函数中显示的 top_k 特征现在根据 shap 值的幅度确定，而不是根据 top_k 最大和最小的 shap 值确定。 #1374
- 添加了时间序列回归问题类型 #1386
- 向 ObjectiveBase 添加了 is_defined_for_problem_type 方法 #1386
- 向 make_pipeline_from_components 函数添加了 random_state 参数 #1411
- 添加了 DelayedFeaturesTransformer #1396
- 添加了一个 TimeSeriesRegressionPipeline 类 #1418
- 从包分发中移除了 core-requirements.txt #1429
- 更新了数据检查消息，使其包含“code”和“details”字段 #1451, #1462
- 为时间序列问题添加了一个 TimeSeriesSplit 数据分割器 #1441
- 向 AutoMLSearch 添加了 problem_configuration 参数 #1457
修复
- 修复了在 ensembling = True 但只有一个管道可迭代时 AutoMLSearch 中引发的 IndexError #1397
- 修复了 AutoMLSearch 中的堆叠集成输入错误以及 LightGBM 警告和错误 #1388
- 更新了枚举类，使其将可能的枚举值显示为属性 #1391
- 更新了对 Woodwork 的 to_pandas() 的调用，改为调用 to_series() 和 to_dataframe() #1428
- 修复了 OHE 中列名无法保证唯一性的错误 #1349
- 修复了 ExpVariance 目标函数在目标高度偏斜的数据上的百分比改进计算错误 #1467
- 修复了当所有特征都是布尔类型时 SimpleImputer 发生的错误 #1215
变更
- 更改了 OutliersDataCheck，使其返回包含离群值的列列表，而非行列表 #1377
- 简化并清理了代码生成的输出 #1371
- 恢复了 #1337 中的更改 #1409
- 更新了数据检查，使其返回警告和错误的字典而非列表 #1448
- 更新了 AutoMLSearch，使其将 Woodwork 数据结构传递给每个管道（而非 pandas DataFrames） #1450
- 更新 AutoMLSearch，使其默认 max_batches=1 而非 max_iterations=5 #1452
- 更新了 _evaluate_pipelines，以合并副作用 #1410
文档变更
- 在贡献指南中添加了 CLA 的描述，更新了草稿 PR 的描述 #1402
- 更新了文档，包含了所有数据检查、DataChecks 以及 AutoML 中数据检查的使用 #1412
- 更新了文档字符串，将 np.array 改为 np.ndarray #1417
- 在 AutoMLSearch 文档中添加了关于堆叠集成的部分 #1425
测试变更
- 从 test-requirements.txt 中移除了 category_encoders #1373
- 再次调整 codecov.io 设置以避免不稳定性 #1413
- 修改了 make lint，使其检查文档中的 notebook 版本 #1431
- 修改了 make lint-fix，使其标准化文档中的 notebook 版本 #1431
- 使用新版本的 Pull Request Github Action 进行依赖项检查 (#1443)
- 将测试工作进程数减少到 4 #1447

警告

重大变更

explain_predictions_* 函数中的 top_k 和 top_k_features 参数现在返回 k 个特征，而不是 2 * k 个特征 #1374
在 RegressionObjective、BinaryClassificationObjective 和 MulticlassClassificationObjective 中将 problem_type 重命名为 problem_types #1319
数据检查现在返回一个警告和错误的字典，而不是一个列表 #1448

v0.15.0 2020 年 10 月 29 日

增强功能
- 添加了堆叠集成组件类 (StackedEnsembleClassifier, StackedEnsembleRegressor) #1134
- 在 AutoMLSearch 中添加了堆叠集成组件 #1253
- 将 DecisionTreeClassifier 和 DecisionTreeRegressor 添加到 AutoML 中 #1255
- 在 model_understanding 中为回归问题添加了 graph_prediction_vs_actual #1252
- 为 OneHotEncoder 添加了一个参数，以启用对要编码特征的过滤 #1249
- 将所有目标函数的优于基线百分比添加到了 automl.results #1244
- 添加了 HighVarianceCVDataCheck，并替换了 AutoMLSearch 中的同义警告 #1254
- 添加了用于降维的 PCA Transformer 组件 #1270
- 添加了 generate_pipeline_code 和 generate_component_code，允许根据管道或组件实例生成代码 #1306
- 添加了用于降维的 PCA Transformer 组件 #1270
- 更新了 AutoMLSearch，使其支持 Woodwork 数据结构 #1299
- 将 cv_folds 添加到 ClassImbalanceDataCheck，并将此检查添加到了 DefaultDataChecks #1333
- 使 AutoMLSearch.search 的 max_batches 参数公开 #1320
- 为 automl 搜索添加了文本支持 #1062
- 将 _pipelines_per_batch 作为私有参数添加到了 AutoMLSearch #1355
修复
- 修复了有序数据集的机器学习性能问题：在 automl 的默认交叉验证分割中始终对数据进行洗牌 #1265
- 修复了损坏的 evalml info CLI 命令 #1293
- 修复了 LightGBM Classifier 的 boosting type='rf' 问题以及 num_leaves 错误 #1302
- 修复了 explain_predictions_best_worst 中目标变量中的自定义索引会导致 ValueError 的错误 #1318
- 将堆叠集成估计器添加到了 evalml.pipelines.__init__ 文件 #1326
- 修复了 OHE 中的一个错误，当 top_n 小于列中的类别数时，调用 transform 不具有确定性 #1324
- 修复了 AutoMLSearch 期间 LightGBM 的警告消息 #1342
- 修复了 HighVarianceCVDataCheck 在 AutoMLSearch 期间抛出的警告 #1346
- 修复了 TrainingValidationSplit 对带有自定义索引的 dataframe 返回无效位置索引的错误 #1348
- 修复了 AutoMLSearch 的 random_state 未传递给创建的管道的错误 #1321
变更
- 允许在调用 AutoMLSearch 之前调用 add_to_rankings #1250
- 从 test-requirements 中移除 Graphviz 并添加到 requirements.txt #1327
- 从 AutoMLSearch 中移除了 max_pipelines 参数 #1264
- 在所有安装 make 目标中包含可编辑安装 #1335
- 将 pip 依赖项 featuretools 和 nlp_primitives 设为核心依赖项 #1062
- 从 TextFeaturizer 转换原语中移除了 PartOfSpeechCount #1062
- 当特征包含空值时，为 partial_dependency 添加了警告 #1352
文档变更
- 修复和更新了发布说明中的代码块 #1243
- 在 API 参考中添加了 DecisionTree 估计器 #1246
- 更改了类继承显示，使其垂直排列 #1248
- 更新了成本效益教程，使其使用留出/测试集 #1159
- 在文档中添加了 evalml info 命令 #1293
- 其他文档更新 #1269
- 从发布流程文档中移除了 conda 预发布测试 #1282
- 更新了贡献指南 #1310
- 在文档中添加了 Alteryx 页脚，包含 Twitter 和 Github 链接 #1312
- 添加了 Python 3.6 的 evalml 安装文档 #1322
- 添加了文档更改，使 API 文档更易于理解 #1323
- 修复了 feature_importance 的文档 #1353
- 添加了使用文本数据运行 AutoML 的教程 #1357
- 添加了 woodwork 与 automl 搜索集成的文档 #1361
测试变更
- 添加了 jupyter_check 的测试以处理 IPython #1256
- 清理了 make_pipeline 测试，使其测试所有估计器 #1257
- 添加了一个测试，检查合并到主分支后的 conda 构建 #1247
- 移除了 __main__.py 中缺少 codecov 且不必要的代码 #1293
- Codecov：将覆盖率向上取整而非向下取整 #1334
- 将 DockerHub 凭据添加到 CI 测试环境 #1356
- 将 DockerHub 凭据添加到 conda 测试环境 #1363

警告

重大变更

将 LabelLeakageDataCheck 重命名为 TargetLeakageDataCheck #1319
AutoMLSearch 中的 max_pipelines 参数已被移除。请改用 max_iterations。 #1264
如果输入不是 Woodwork 数据结构（pandas、numpy），AutoMLSearch.search() 现在将记录警告 #1299
使 AutoMLSearch.search 的 max_batches 参数公开 #1320
从 AutoMLSearch.search 中移除了未使用的参数 feature_types #1062

v0.14.1 2020 年 9 月 29 日

增强功能
- 更新了偏依赖方法，以支持计算包含非数值列的数据集中的数值列 #1150
- 在 OneHotEncoder 上添加了 get_feature_names #1193
- 将 detect_problem_type 添加到 problem_type/utils.py 中，以便根据目标自动检测问题类型 #1194
- 将 LightGBM 添加到 AutoMLSearch 中 #1199
- 更新了 scikit-learn 和 scikit-optimize，分别使用最新版本 - 0.23.2 和 0.8.1 #1141
- 为管道和组件添加了 __str__ 和 __repr__ 方法 #1218
- 在 AutoMLSearch 中包含了对训练和验证数据的内部目标检查 #1226
- 添加了 ProblemTypes.all_problem_types 辅助方法，用于获取支持的问题类型列表 #1219
- 添加了 DecisionTreeClassifier 和 DecisionTreeRegressor 类 #1223
- 添加了 ProblemTypes.all_problem_types 辅助方法，用于获取支持的问题类型列表 #1219
- DataChecks 现在可以通过传递 DataCheck 类列表和参数字典来进行参数化 #1167
- 在 AutoMLSearch.rankings 中将第一个交叉验证折叠得分添加为验证得分 #1221
- 更新了 flake8 配置，使其能够对 __init__.py 文件进行 linting #1234
- 完善了 make_pipeline_from_components 的实现 #1204
修复
- 迁移到 Alteryx GitHub 组织后更新了 GitHub URL #1207
- 更改了问题类型枚举，使其更类似于字符串名称 #1208
- 将对 scikit-learn 偏依赖方法的调用封装在 try/finally 块中 #1232
变更
- 将 allow_writing_files 作为命名参数添加到了 CatBoost 估计器。 #1202
- 将 solver 和 multi_class 作为命名参数添加到了 LogisticRegressionClassifier #1202
- 用 .compute_estimator_features 替换了管道的 ._transform 方法，用于评估管道的所有预处理步骤 #1231
- 更改了大型数据集训练/测试分割的默认行为 #1205
文档变更
- 在管道用户指南中包含了如何访问组件实例和特征的描述 #1163
- 更新了 API 文档，在非分类任务中将 target 称为“target”而非“labels”，并进行了少量文档清理 #1160
- 将类别不平衡数据检查添加到了 api_reference.rst #1190 #1200
- 在 API 参考中添加了管道属性 #1209
- 在 AutoML API 参考和 AutoML 用户指南中澄清了 AutoML 中的 objective 参数的用途 #1222
- 更新了 API 文档，包含了用于组件超参数范围定义的 skopt.space.Categorical 选项 #1228
- 添加了用于在 Mac 上使用 LightGBM 的 libomp 安装文档 #1233
- 改进了文档中对 max_iterations 的描述 #1212
- 移除了 sphinx 配置中未使用的代码 #1235
测试变更

警告

重大变更

DefaultDataChecks 现在接受必须指定的 problem_type 参数 #1167
管道的 ._transform 方法（用于评估管道的所有预处理步骤）已被 .compute_estimator_features 替换 #1231
get_objectives 已重命名为 get_core_objectives。此函数现在将返回一个有效的目标实例列表 #1230

v0.13.2 2020 年 9 月 17 日

增强功能
- 向解释预测函数添加了 output_format 字段 #1107
- 修改了 get_objective 和 get_objectives，使其能够返回 evalml.objectives 中的任何目标 #1132
- 向 get_objective 添加了一个 return_instance 布尔参数 #1132
- 添加了 ClassImbalanceDataCheck，用于确定目标不平衡是否低于给定阈值 #1135
- 为 LightGBM 添加了用于二元分类的标签编码器 #1152
- 为混淆矩阵的行索引添加了标签 #1154
- 将 AutoMLSearch 对象作为另一个参数添加到了搜索回调中 #1156
- 为 graph_roc_curve 中显示的每个点添加了相应的概率阈值 #1161
- 为 ComponentBase 和 PipelineBase 添加了 __eq__ 方法 #1178
- 为 roc_curve 添加了多类别分类支持 #1164
- 为 OneHotEncoder 添加了 categories 访问器，用于列出与特征关联的类别 #1182
- 添加了实用函数，用于从组件实例列表创建管道实例 #1176
修复
- 修复了偏依赖方法的 XGBoost 列名问题 #1104
- 从 TextFeaturizer 中移除了用于验证列类型的死代码 #1122
- 修复了当类别或布尔列中存在 None 值时 Imputer 无法拟合的问题 #1144
- OneHotEncoder 保留输入数据中的自定义索引 #1146
- 修复了 ModelFamily 的表示问题 #1165
- 移除了 dev-requirements.txt 中重复的 nbsphinx 依赖项 #1168
- 用户现在可以将任何有效的 kwargs 传递给所有估计器 #1157
- 移除了损坏的访问器 OneHotEncoder.get_feature_names 和不需要的基类 #1179
- 从 AutoML 模型中移除了 LightGBM 估计器 #1186
变更
- 将 scikit-optimize 版本固定为 0.7.4 #1136
- 移除了 tqdm 作为依赖项 #1177
- 将 lightgbm 版本 3.0.0 添加到 latest_dependency_versions.txt #1185
- 将 max_pipelines 重命名为 max_iterations #1169
文档变更
- 修复了 AutoMLSearch 的 add_result_callback 的 API 文档 #1113
- 在我们的发布流程中添加了一个步骤，用于将最新版本推送到 conda-forge #1118
- 为在 Jupyterlab 上使用 PipelineSearchPlots 时缺少 ipywidgets 依赖项添加了警告 #1145
- 更新了 README.md 示例，使其加载演示数据集 #1151
- 交换了 model_understanding.ipynb 中乳腺癌目标的映射 #1170
测试变更
- 添加了测试以确认 TextFeaturizer 不会输出空值 #1122
- 将 Update Dependencies Action 的 Python 版本更改为 3.8.x #1137
- 修复了 Update Dependencies Action 的发布说明签入测试 #1172

警告

重大变更

get_objective 现在默认返回类定义而非实例 #1132
删除了 evalml.objectives.utils.py 中的 OPTIONS 字典 #1132
如果通过字符串指定目标，则该字符串现在必须与目标的 name 字段（不区分大小写）匹配 #1132
传入“Cost Benefit Matrix”、“Fraud Cost”、“Lead Scoring”、“Mean Squared Log Error”、
“Recall”、“Recall Macro”、“Recall Micro”、“Recall Weighted”或“Root Mean Squared Log Error”给 AutoMLSearch 现在将导致 ValueError 而非 ObjectiveNotFoundError #1132
搜索回调 start_iteration_callback 和 add_results_callback 已更改，将包含 AutoMLSearch 对象的副本作为第三个参数 #1156
删除了已损坏一段时间的 OneHotEncoder.get_feature_names 方法，转而使用管道的 input_feature_names #1179
删除了 OneHotEncoder 组件曾继承的空基类 CategoricalEncoder #1176
roc_curve 的结果现在将以字典列表的形式返回，每个字典代表一个类别 #1164
max_pipelines 现在会引发 DeprecationWarning，并将在下一版本中移除。应改用 max_iterations。 #1169

v0.13.1 2020 年 8 月 25 日

增强功能
- 添加了用于二元分类的 Cost-Benefit Matrix 目标函数 #1038
- 为 Imputer 将 fill_value 分割为 categorical_fill_value 和 numeric_fill_value #1019
- 添加了 explain_predictions 和 explain_predictions_best_worst，用于使用 SHAP 解释多个预测 #1016
- 添加了用于文本特征化的新 LSA 组件 #1022
- 添加了使用 conda 安装的指南 #1041
- 添加了一个“成本效益曲线”实用方法，用于绘制成本效益矩阵得分与二元分类阈值的关系图 #1081
- 标准化了管道在拟合前调用 transform/predict 时的错误处理 #1048
- 将 percent_better_than_baseline 添加到了 AutoML 搜索排名和完整排名表中 #1050
- 添加了单向偏依赖和偏依赖图 #1079
- 向预测解释报告中添加了“特征值”列。 #1064
- 添加了 LightGBM 分类估计器 #1082, #1114
- 向 AutoMLSearch 添加了 max_batches 参数 #1087
修复
- 更新了 TextFeaturizer 组件，使其运行不再需要互联网连接 #1022
- 修复了 TextFeaturizer 转换的非确定性部分 #1022
- 为所有 ElasticNet 管道添加了 StandardScaler #1065
- 更新了成本效益矩阵以标准化得分 #1099
- 修复了 calculate_percent_difference 中的逻辑，使其可以处理负值 #1100
变更
- 向 ComponentBase 添加了 needs_fitting 属性 #1044
- 更新了数据类型的引用，使其使用 evalml.utils.gen_utils 中定义的数据类型列表 #1039
- 移除了 SciPy 依赖项的最大版本限制 #1051
- 将 all_components 和其他组件导入器移动到运行时方法中 #1045
- 将图形实用方法整合到 evalml.utils.graph_utils 下 #1060
- 对 TextFeaturizer 如何使用 featuretools 进行了一些微调，并对其和 LSA 进行了一些重构 #1090
- 将 show_all_features 参数更改为 importance_threshold，这允许对特征重要性进行阈值处理 #1097, #1103
文档变更
- 更新 setup.py URL，使其指向 GitHub 仓库 #1037
- 添加了使用成本效益矩阵目标函数的教程 #1088
- 更新了 model_understanding.ipynb，包含了在 Jupyter Lab 上使用 plotly 的文档 #1108
测试变更
- 重构 CircleCI 测试，使其使用矩阵作业 (#1043)
- 添加了一个测试，检查所有测试目录都包含在 evalml 包中 #1054

警告

重大变更

confusion_matrix 和 normalize_confusion_matrix 已移动到 evalml.utils #1038
之前在 evalml.pipelines.graph_utils 下的所有图形实用方法已移动到 evalml.utils.graph_utils #1060

v0.12.2 2020 年 8 月 6 日

增强功能
- 向组件添加了保存/加载方法 #1023
- 将 pickle protocol 作为可选参数暴露给保存/加载方法 #1023
- 更新了 AutoML 中使用的估计器，包含了 ExtraTrees 和 ElasticNet 估计器 #1030
修复
变更
- 移除了 SimpleImputer 的 DeprecationWarning #1018
文档变更
- 在发布流程文档中添加了关于版本号的说明 #1034
测试变更
- 测试文件现在包含在 evalml 包中 #1029

v0.12.0 2020 年 8 月 3 日

增强功能
- 添加了二元和多类别管道的字符串和类别目标支持，并为 DetectLabelLeakage 数据检查添加了数值目标检查 #932
- 为回归管道添加了清晰的异常，如果目标数据类型是字符串或类别 #960
- 在管道的 predict 和 predict_proba 输出中添加了目标列名和类别标签 #951
- 将 _compute_shap_values 和 normalize_values 添加到 pipelines/explanations 模块 #958
- 添加了 explain_prediction 功能，使用 SHAP 解释单个预测 #974
- 添加了 Imputer，允许对数值和类别数据类型采用不同的 imputation 策略 #991
- 添加了使用环境变量配置日志文件路径的支持，并在文件系统错误时不再创建 logger #975
- 更新了 catboost 估计器的默认参数和 automl 超参数范围，以加快拟合时间 #998
修复
- 修复了 ReadtheDocs 关于嵌入 gif 的警告失败问题 #943
- 移除了在 _add_baseline_pipelines 中传递给管道类的错误参数 #941
- 添加了在拟合前调用 predict、predict_proba、transform 和 feature_importances 的通用错误处理 #969, #994
- 将 TextFeaturizer 组件和 pip 依赖项 featuretools 和 nlp_primitives 设为可选 #976
- 更新了 automl 中的 imputation 策略，如果存在任何类别列，不再将所有特征的 impute 策略限制为 most_frequent #991
- 修复了 automl 搜索出错时 cv_pipeline 的 UnboundLocalError #996
- 修复了 Imputer 重置 dataframe 索引的问题，以保留 SimpleImputer 预期的行为 #1009
变更
- 将 get_estimators 移动到 evalml.pipelines.components.utils #934
- 修改了 Pipelines，使其在评分过程中遇到错误时引发 PipelineScoreError #936
- 将 evalml.model_families.list_model_families 移动到 evalml.pipelines.components.allowed_model_families #959
- 将 DateTimeFeaturization 重命名为 DateTimeFeaturizer #977
- 添加了检查，如果批次中所有管道都返回 NaN 分数，则停止搜索并引发错误 #1015
文档变更
- 更新了 README.md #963
- 重写了搜索中数据检查返回错误时的消息 #982
- 在用户指南中添加了关于使用 explain_prediction 理解模型预测的部分 #981
- 在用户指南和 api 参考中添加了一部分关于 XGBoost 和 CatBoost 未完全支持的说明。 #992
- 在用户指南中添加了自定义组件部分 #993
- 更新了 FAQ 部分格式 #997
- 更新了发布流程文档 #1003
测试变更
- 将关于字符串/类别目标的 predict_proba 和 predict 测试移动到 test_pipelines.py #972
- 通过将 python 版本更新到 3.7 修复了依赖更新机器人，以避免频繁的 GitHub 版本更新 #1002

警告

重大变更

get_estimators 已移动到 evalml.pipelines.components.utils (之前在 evalml.pipelines.utils 下) #934
移除了 AutoML 搜索中的 raise_errors 标志。管道评估期间的所有错误将被捕获并记录。 #936
evalml.model_families.list_model_families 已移动到 evalml.pipelines.components.allowed_model_families #959
TextFeaturizer：安装 evalml 后必须安装 featuretools 和 nlp_primitives 包才能使用此组件 #976
将 DateTimeFeaturization 重命名为 DateTimeFeaturizer #977

v0.11.2 2020 年 7 月 16 日

增强功能
- 将 NoVarianceDataCheck 添加到 DefaultDataChecks #893
- 添加了文本处理和特征化组件 TextFeaturizer #913, #924
- 向 InvalidTargetDataCheck 添加了额外检查，以处理无效目标数据类型 #929
- AutoMLSearch 现在将处理 KeyboardInterrupt 并提示用户确认 #915
修复
- 将 automl 结果设为只读属性 #919
变更
- 删除了静态管道并重构了涉及静态管道的测试，移除了 all_pipelines() 和 get_pipelines() #904
- 将 list_model_families 移动到 evalml.model_family.utils #903
- 更新了 all_pipelines、all_estimators、all_components，使其使用相同的机制动态生成其元素 #898
- 将 master 分支重命名为 main #918
- 添加了 pypi 发布 GitHub action #923
- 更新了 AutoMLSearch.search 的标准输出和日志记录，并移除了 tqdm 进度条 #921
- 将之前在 search() 中的 automl 配置检查移动到 init 方法中 #933
文档变更
- 重组并重写了文档 #937
- 更新为使用 pydata sphinx 主题 #937
- 更新文档，使用 release_notes 代替 changelog #942
测试变更
- 清理了测试中的 fixture 名称和用法 #895

警告

重大变更

list_model_families 已移至 evalml.model_family.utils（之前在 evalml.pipelines.utils 下） #903
get_estimators 已移动到 evalml.pipelines.components.utils (之前在 evalml.pipelines.utils 下) #934
静态 pipeline 定义已移除，但仍可通过创建 PipelineBase 的实例来构建类似的 pipeline #904
all_pipelines() 和 get_pipelines() 工具方法已移除 #904

v0.11.0 2020年6月30日

增强功能
- 添加了 ROC 曲线绘图的多类别支持 #832
- 添加了预处理组件，用于删除 NaN 值百分比超过指定阈值的特征 #834
- 添加了数据检查功能，用于检查有问题的目标标签 #814
- 添加了 PerColumnImputer，允许按列指定 imputed 策略 #824
- 添加了用于删除特定列的转换器 #827
- 在 OneHotEncoder 中添加了对 categories, handle_error 和 drop 参数的支持 #830 #897
- 添加了用于处理 DateTime 列特征化的预处理组件 #838
- 添加了克隆 pipelines 和 components 的功能 #842
- 定义了 component parameters 的 getter 方法 #847
- 添加了用于计算和绘制置换重要性的工具方法 #860, #880
- 添加了生成动态预处理 pipelines 所需的新工具函数 #852
- 为所有 components 添加了 kwargs #863
- 更新了 AutoSearchBase 以使用动态生成的预处理 pipelines #870
- 添加了 SelectColumns 转换器 #873
- 添加了评估用于 automl 搜索的额外 pipelines 的功能 #874
- 为 components 和 pipelines 添加了 default_parameters 类属性 #879
- 添加了在 automl 搜索中禁用数据检查的更好支持 #892
- 添加了将 AutoML 对象保存和加载到文件的功能 #888
- 更新了 AutoSearchBase.get_pipelines 以返回未经训练的 pipeline 实例 #876
- 在 automl 结果的 cv 数据字典中保存了习得的二元分类阈值 #876
修复
- 修复了 SimpleImputer 无法处理已删除列的错误 #846
- 修复了 PerColumnImputer 无法处理已删除列的错误 #855
- 强制要求内置 components 在其 parameters 字典中保存所有输入的值 #847
- 在 all_components 输出中不列出基类 #847
- 标准化所有 components 输出 pandas 数据结构，并接受 pandas 或 numpy 输入 #853
- 修复了搜索未运行时 rankings 和 full_rankings 报错的问题 #894
变更
- 更新 all_pipelines 和 all_components，尝试初始化 pipelines/components，失败时将其排除 #849
- 将 handle_components 重构为 handle_components_class，标准化为 ComponentBase 子类而非实例 #850
- 将“黑名单”/“白名单”重构为“允许”/“排除”列表 #854
- 将 AutoClassificationSearch 和 AutoRegressionSearch 替换为 AutoMLSearch #871
- 将 feature_importances 和 permutation_importances 方法重命名为单数形式 (feature_importance 和 permutation_importance) #883
- 更新了 automl 默认数据分割器，对于大型数据集使用训练/验证集分割 #877
- 添加了开源许可，更新了一些仓库元数据 #887
- 移除了 _get_preprocessing_components 中的无用代码 #896
文档变更
- 修复了一些错别字并更新了 EvalML 徽标 #872
测试变更
- 更新 changelog 检查任务，以适应依赖更新 bot 的新分支模式 #836
- 检查所有 components 是否输出 pandas 数据结构，并能接受 pandas 或 numpy 输入 #853
- 将 AutoClassificationSearch 和 AutoRegressionSearch 替换为 AutoMLSearch #871

警告

重大变更

Pipelines 的静态字段 component_graph 必须包含 ComponentBase 子类或 str，而不是 ComponentBase 子类的实例 #850
将 handle_component 重命名为 handle_component_class。现在标准化为 ComponentBase 子类，而不是 ComponentBase 子类的实例 #850
将 automl 的 cv 参数重命名为 data_split #877
Pipelines 和分类器的 feature_importances 重命名为 feature_importance，graph_feature_importances 重命名为 graph_feature_importance #883
在 automl 搜索中传递 data_checks=None 将不执行任何数据检查，而不是执行默认检查。 #892
AutoML 中要搜索的 Pipelines 现在会自动确定，而不是使用静态定义的 pipeline 类。 #870
更新了 AutoSearchBase.get_pipelines，以返回未经训练的 pipeline 实例，而不是恰好在最终交叉验证折叠上训练过的实例 #876

v0.10.0 2020年5月29日

增强功能
- 添加了分类和回归的基线模型，添加了在 AutoML 中搜索之前计算基线模型的功能 #746
- 将高度缺失值 guardrail 作为数据检查移植过来，并定义 DefaultDataChecks 和 DisableDataChecks 类 #745
- 更新 Tuner 类以直接使用 pipeline 参数字典，而不是扁平的参数列表 #779
- 添加 Elastic Net 作为 pipeline 选项 #812
- 添加了新的 Pipeline 选项 ExtraTrees #790
- 在 evalml.pipeline.graph_utils 中为二元分类问题添加了精确率-召回率曲线指标和绘图 #794
- 更新了默认 automl 算法，使其分批搜索，从每个 pipeline 的默认参数开始迭代 #793
- 添加了 AutoMLAlgorithm 类和 IterativeAlgorithm 实现，与 AutoSearchBase 分离 #793
修复
- 更新 pipeline 的 score 方法，对于在评分过程中抛出异常的任何目标，返回 nan 分数 #787
- 修复了引入自 #787 的 bug，该 bug 导致需要预测概率的二元分类指标在评分时出错 #798
- CatBoost 和 XGBoost 分类器和回归器的学习率不能再为 0 #795
变更
- 清理 pipeline 的 score 代码，并清理 codecov #711
- 为 codecov 移除抽象方法的 pass 语句 #730
- 为 AutoSearch 对象添加了 __str__ 方法 #675
- 添加了用于绘制 ROC 和混淆矩阵的工具方法 #720
- 将 AutoBase 重构为 AutoSearchBase #758
- 更新 AutoBase，添加了 data_checks 参数，移除了先前的 detect_label_leakage 参数，并添加了在 AutoML 中搜索之前运行数据检查的功能 #765
- 更新了我们的 logger，以使用 Python 的 logging 工具 #763
- 将 AutoSearchBase._do_iteration 的大部分实现重构到 AutoSearchBase._evaluate 中 #762
- 将所有 guardrails 移植过来，使用新的 DataCheck API #789
- 扩展了 import_or_raise，使其能捕获所有异常 #759
- 添加 RMSE, MSLE, RMSLE 作为标准指标 #788
- 不允许将 Recall 用作 AutoML 的目标 #784
- 从 pipelines 中移除了特征选择 #819
- 更新了默认的 estimator 参数，以使 automl 搜索更快更准确 #793
文档变更
- 在 release.md 中添加冻结 master 的说明 #726
- 更新发布说明，包含更多细节 #727 #733
- 将 objective 基类添加到 API 参考 #736
- 修复 components API 以匹配其他模块 #747
测试变更
- 删除 codecov yml，使用 codecov.io 的默认设置 #732
- 添加了 fraud cost, lead scoring 和标准指标目标的单元测试 #741
- 更新 codecov 客户端 #782
- 更新了 AutoBase 的 __str__ 测试，包含了无参数的情况 #783
- 添加了 ExtraTrees pipeline 的单元测试 #790
- 如果 codecov 上传失败，则构建失败 #810
- 更新了依赖 action 的 Python 版本 #816
- 更新依赖更新 bot，在创建分支时使用后缀 #817

警告

重大变更

AutoML 类的 detect_label_leakage 参数已移除，并被 data_checks 参数取代 #765
将 ROC 和混淆矩阵方法从 evalml.pipeline.plot_utils 移至 evalml.pipeline.graph_utils #720
Tuner 类需要 pipeline 超参数范围字典作为 init 参数，而不是空间定义 #779
Tuner.propose 和 Tuner.add 直接使用 pipeline 参数字典，而不是扁平的参数列表 #779
PipelineBase.hyperparameters 和 custom_hyperparameters 使用 pipeline 参数字典格式，而不是表示为扁平列表 #779
之前在 evalml.guardrails.utils 下的所有 guardrail 函数将被移除，并由数据检查取代 #789
Recall 不允许用作 AutoML 的目标 #784
AutoSearchBase 参数 tuner 已重命名为 tuner_class #793
AutoSearchBase 参数 possible_pipelines 和 possible_model_families 已重命名为 allowed_pipelines 和 allowed_model_families #793

v0.9.0 2020年4月27日

增强功能
- 添加 Accuracy 作为标准目标 #624
- 为 load_fraud 添加了 verbose 参数 #560
- 添加了 Balanced Accuracy 指标，用于二元和多类别 #612 #661
- 添加了 XGBoost 回归器和 XGBoost 回归 pipeline #666
- 添加了 Accuracy 指标，用于多类别 #672
- 在 AutoBase.describe_pipeline 中添加了目标名称 #686
- 添加了 DataCheck 和 DataChecks, Message 类以及相关的子类 #739
修复
- 移除了对 cls.component_graph 的直接访问 #595
- 将测试文件添加到 .gitignore #625
- 移除 Makefile 中的循环依赖 #637
- 为 normalize_confusion_matrix() 添加了错误处理情况 #640
- 修复了 XGBoostClassifier 和 XGBoostRegressor 处理包含 [, ], 或 < 的特征名称时的 bug #659
- 更新 make_pipeline_graph，使其在测试路径是否有效时不会意外创建空文件 #649
- 修复 pip 安装关于 docsutils 版本（来自 boto 依赖）的警告 #664
- 移除了 F1/精确率/召回率指标的零除警告 #671
- 修复了没有 estimator 的 pipelines 的 summary 方法 #707
变更
- 更新了二元/多类别分类的默认目标为 log loss #613
- 创建了分类和回归 pipeline 子类，并移除了 objective 作为 pipeline 类的属性 #405
- 将 score 的输出更改为返回一个字典 #429
- 创建了二元和多类别 objective 子类 #504
- 更新了 objectives API #445
- 从 AutoML 中移除了对 get_plot_data 的调用 #615
- 将 AutoML 类的 raise_error 默认设置为 True #638
- 移除了某些 unicode 字符串上不必要的“u”前缀 #641
- 将 one-hot encoder 更改为返回 uint8 dtypes 而不是 ints #653
- Pipeline 的 _name 字段更改为 custom_name #650
- 移除了 graphs.py 并将方法移至 PipelineBase #657, #665
- 移除 s3fs 作为开发依赖 #664
- 将 requirements-parser 更改为核心依赖 #673
- 将 pipelines 上的 supported_problem_types 字段替换为基类上的 problem_type 属性 #678
- 将 AutoML 更改为在 rankings 中仅显示给定 pipeline 模板的最佳结果，添加了 full_rankings 属性以显示所有结果 #682
- 更新 ModelFamily 值：现在我们有了 xgboost/catboost 的回归 pipelines，不再将其列为分类器 #677
- 将 AutoML 的 describe_pipeline 更改为从 pipeline 获取问题类型 #685
- 标准化 import_or_raise 错误消息 #683
- 更新了 objective 的参数顺序，使其与 sklearn 对齐 #698
- 将 pipeline.feature_importance_graph 重命名为 pipeline.graph_feature_importances #700
- 将 ROC 和混淆矩阵方法移至 evalml.pipelines.plot_utils #704
- 将 MultiClassificationObjective 重命名为 MulticlassClassificationObjective，以与 pipeline 命名方案对齐 #715
文档变更
- 修复了一些 sphinx 警告 #593
- 修复了 AutoClassificationSearch 的 docstring，使用了正确的命令 #599
- 将 readthedocs 格式限制为 pdf，而不是 htmlzip 和 epub #594 #600
- 清理 objectives API 文档 #605
- 修复了“探索搜索结果”页面上的函数 #604
- 更新发布流程文档 #567
- AutoClassificationSearch 和 AutoRegressionSearch 在 API 参考中显示继承的方法 #651
- 修复了 changelog 中破坏性更改部分格式不正确的代码 #655
- 添加了将 Sphinx 警告视为错误的配置 #660
- 移除了 API 参考中 pipelines 的独立绘图部分 #657, #665
- 让 leads 示例 notebook 使用 https 加载 S3 文件，这样我们就可以删除 s3fs 开发依赖 #664
- 在 API 参考中对 components 进行了分类，并为每个类别添加了描述 #663
- 修复了 Sphinx 关于 BalancedAccuracy 目标的警告 #669
- 更新了 API 参考，包含缺失的 components 并清理了 pipeline 的 docstrings #689
- 重组 API 参考，并澄清 pipeline 子标题 #688
- 在 API 参考中添加和更新了预处理工具 #687
- 添加了继承图到 API 参考 #695
- 文档说明了 AutoML 优化的默认目标 #699
- 创建了单独的安装页面 #701
- 在 API 参考中包含更多工具，如 import_or_raise #704
- 为 pipeline 文档添加更多颜色 #705
测试变更
- 使 check_latest_dependencies 测试的安装命令与其 GitHub action 的命令匹配 #578
- 添加了 Github 应用，自动将 PR 作者分配为经办人 #477
- 移除了 windows checkin 测试中对 xgboost 不必要的 conda 安装 #618
- 更新 graph 测试，始终使用 tmpfile 目录 #649
- Changelog checkin 测试针对 release PRs 的临时方案：如果“未来发布”部分没有 PR 引用，则检查通过 #658
- 为 dep-update 分支添加 changelog checkin 测试异常 #723

警告

重大变更

Pipelines 现在实例化时不再接受 objective 参数，也不再具有 objective 属性。
fit() 和 predict() 现在使用可选的 objective 参数，该参数仅在二元分类 pipelines 中用于针对特定 objective 进行拟合。
score() 现在将使用一个必需的 objectives 参数，该参数用于确定所有要评分的目标。这与以前的行为不同，以前无论如何都会对 pipeline 的 objective 进行评分。
score() 现在将返回包含所有 objective 分数的一个字典。
通过 Auto(*).plot 访问的 ROC 和 ConfusionMatrix 绘图方法已在 #615 中移除，并在 #704 中被 evamlm.pipelines.plot_utils 中的 roc_curve 和 confusion_matrix 取代
normalize_confusion_matrix 已移至 evalml.pipelines.plot_utils #704
Pipelines 的 _name 字段更改为 custom_name
Pipelines 的 supported_problem_types 字段被移除，因为它不再需要 #678
更新了 objectives 的 objective_function 参数顺序，使其与 sklearn 对齐 #698
pipeline.feature_importance_graph 在 #700 中已重命名为 pipeline.graph_feature_importances
移除了不支持的 MSLE 目标 #704

v0.8.0 2020年4月1日

增强功能
- 为混淆矩阵添加归一化选项和信息 #484
- 添加工具函数以删除包含 NaN 值的行 #487
- 将 PipelineBase.name 重命名为 PipelineBase.summary，并将 PipelineBase.name 重新定义为类属性 #491
- 通过 PipelineBase.parameters 添加了对 Pipelines 参数的访问（以前是 PipelineBase.describe 的返回值） #501
- 为 SimpleImputer 添加了 fill_value 参数 #509
- 添加了覆盖组件超参数的功能，并使 pipelines 从组件获取超参数 #516
- 允许将 numpy.random.RandomState 用于 random_state 参数 #556
修复
- 移除了未使用的依赖 matplotlib，并将 category_encoders 移至测试要求 #572
变更
- 撤销在 #402 中对 XGBoost 设置的版本上限，并允许所有发布的 XGBoost 版本 #407
- 支持 pandas 1.0.0 #486
- 将所有对 logger 的引用更改为静态 #503
- 将 components 和 pipelines 的 model_type 参数重构为 model_family #507
- 将 pipelines 和 components 的 problem_types 重构为 supported_problem_types #515
- 将 pipelines/utils.save_pipeline 和 pipelines/utils.load_pipeline 移至 PipelineBase.save 和 PipelineBase.load #526
- 限制 OneHotEncoder 编码的类别数量 #517
文档变更
- 更新了 API 参考，移除了 PipelinePlot 并添加了移至 PipelineBase 的绘图方法 #483
- 添加了代码风格和 github issue 指南 #463 #512
- 更新了 API 参考，以显示 pipelines 和 components 的类变量 #537
- 修复了 README 文档链接 #535
- 解除了 changelog 中 PR 引用的隐藏 #656
测试变更
- 添加了自动化依赖检查 PR #482, #505
- 更新了自动化依赖检查注释 #497
- 让 build_docs job 使用 python executor，以便正确设置环境变量 #547
- 添加了简单测试，确保 OneHotEncoder 的 top_n 在类别数量很大时也能正常工作 #552
- 在 PR 上运行 windows 单元测试 #557

警告

重大变更

AutoClassificationSearch 和 AutoRegressionSearch 的 model_types 参数已重构为 allowed_model_families
ModelTypes 枚举已更改为 ModelFamily
Components 和 Pipelines 现在具有 model_family 字段，而不是 model_type
get_pipelines 工具函数现在接受 model_families 作为参数，而不是 model_types
PipelineBase.name 不再返回 pipeline 结构，已被 PipelineBase.summary 取代
PipelineBase.problem_types 和 Estimator.problem_types 已重命名为 supported_problem_types
pipelines/utils.save_pipeline 和 pipelines/utils.load_pipeline 已移至 PipelineBase.save 和 PipelineBase.load

v0.7.0 2020年3月9日

增强功能
- 将 emacs 缓冲区添加到 .gitignore #350
- 添加 CatBoost (梯度提升树) 分类和回归组件及 pipelines #247
- 添加了 Tuner 抽象基类 #351
- 为 AutoClassificationSearch 和 AutoRegressionSearch 添加了 n_jobs 参数 #403
- 将混淆矩阵的颜色更改为蓝色调，并更新了轴顺序以匹配 scikit-learn 的顺序 #426
- 添加了 PipelineBase 的 .graph 和 .feature_importance_graph 方法，从之前的位置移过来 #423
- 添加了对 python 3.8 的支持 #462
修复
- 修复了用户传递自己的 additional_objectives 时 ROC 和混淆矩阵图未计算的 bug #276
- 修复了 ReadtheDocs 对于 fraud 数据集的 FileNotFoundError 异常 #439
变更
- 为 XGBoost 添加了 n_estimators 作为可调参数 #307
- 移除了未使用的参数 ObjectiveBase.fit_needs_proba #320
- 移除了所有 components 中多余的参数 component_type #361
- 移除了未使用的 rankings.csv 文件 #397
- 下载了 demo 和测试数据集，以便单元测试可以离线运行 #408
- 移除了 Components 中的 _needs_fitting 属性 #398
- 将 plot.feature_importance 更改为默认仅显示非零特征重要性，添加了可选参数以显示所有特征重要性 #413
- 将 PipelineBase 重构为接受参数字典，并将 pipeline 元数据移至类属性 #421
- 放弃了对 Python 3.5 的支持 #438
- 移除了未使用的 apply.py 文件 #449
- 清理 requirements.txt，移除未使用的依赖 #451
- 支持在不安装所有必需依赖项的情况下进行安装 #459
文档变更
- 更新 release.md，包含发布到内部许可证 key 的说明 #354
测试变更
- 为 utils 添加了测试（并将当前 utils 移至 gen_utils） #297
- 在 Windows 上使用 Conda 将 XGBoost 安装移至单独的步骤 #313
- 回退 pandas 版本到 1.0.0 之前，以诊断该版本的测试失败问题 #325
- 添加了依赖更新 checkin 测试 #324
- 回退 XGBoost 版本到 1.0.0 之前，以诊断该版本的测试失败问题 #402
- 更新依赖检查，使用白名单 #417
- 更新单元测试 job，不安装开发依赖 #455

警告

重大变更

将不再主动支持 Python 3.5。

v0.6.0 2019年12月16日

增强功能
- 添加了绘制特征重要性图表的功能 #133
- 使用 patience 和 tolerance 参数为 AutoML 添加了早停功能 #241
- 添加了 ROC 和混淆矩阵指标及用于分类问题的图表，并引入了 PipelineSearchPlots 类 #242
- 增强了 AutoML 结果，增加了搜索顺序 #260
- 添加了用于显示系统和环境信息的工具函数 #300
修复
- 降低了 botocore 要求 #235
- 修复了 FraudCost 目标中 decision_function 的计算 bug #254
- 修复了 Recall 指标的返回值 bug #264
- Components 在 fit 时返回 self #289
变更
- 将 automl 类重命名为 AutoRegressionSearch 和 AutoClassificationSearch #287
- 更新 demo 数据集以保留列名 #223
- 将 pipeline 可视化移至 PipelinePlot 类 #228
- 将输入标准化为 pd.Dataframe / pd.Series #130
- 强制要求 pipelines 必须以 estimator 作为最后一个组件 #277
- 在 requirements.txt 中添加了 ipywidgets 作为依赖项 #278
- 添加了 Random 和 Grid Search Tuners #240
文档变更
- 将类属性添加到 API 参考 #244
- 修复并过滤来自 scikit-learn 的 FutureWarnings #249, #257
- 将 Linear Regression 添加到 API 参考，并清理了一些 Sphinx 警告 #227
测试变更
- 添加了使用 CircleCI 在 Windows 上进行测试的支持 #226
- 添加了对 doctests 的支持 #233

警告

重大变更

AutoClassifier 和 AutoRegressor 的 fit() 方法已重命名为 search()。
AutoClassifier 已重命名为 AutoClassificationSearch
AutoRegressor 已重命名为 AutoRegressionSearch
AutoClassificationSearch.results 和 AutoRegressionSearch.results 现在是一个字典，包含 pipeline_results 和 search_order 键。pipeline_results 可用于访问与旧 .results 字典相同的字典。而 search_order 返回按 pipeline_id 表示的搜索顺序列表。
Pipelines 现在要求 component_list 中的最后一个组件是 estimator。现在对 pipelines 进行切片会抛出 NotImplementedError，以避免返回没有 estimator 的 pipelines。

v0.5.2 2019年11月18日

增强功能
- 添加了基本的 pipeline 结构可视化 #211
文档变更
- 将 notebooks 添加到构建过程 #212

v0.5.1 2019年11月15日

增强功能
- 添加了基本异常值检测 guardrail #151
- 添加了基本 ID 列 guardrail #135
- 添加了对具有 max_time 限制的无限 pipelines 的支持 #70
- 更新了 .readthedocs.yaml 以成功构建 #188
修复
- 从默认附加目标中移除了 MSLE #203
- 修复了 pipelines 中传递的 random_state #204
- 修复了 RFRegressor 中的性能下降问题 #206
变更
- 从 pipeline 新的 describe 方法中获取 describe_pipeline 的信息 #190
- 重构了 pipelines #108
- 从 Auto(*) 中移除了 guardrails #202, #208
文档变更
- 更新了文档以显示 max_time 的增强功能 #189
- 更新了 RTD 的发布说明 #193
- 将 notebooks 添加到构建过程 #212
- 添加了贡献说明 #213
- 添加了新内容 #222

v0.5.0 2019年10月29日

增强功能
- 添加了基本的 one hot encoding #73
- 为 model_type 使用枚举 #110
- 支持分割回归数据集 #112
- 自动推断多类别分类 #99
- 添加了对 max_time 中其他单位的支持 #125
- 检测高度缺失列 #121
- 添加了额外的回归目标 #100
- 使用 fit() 时显示交互式的迭代 vs. 分数图 #134
修复
- 重新排序了 describe_pipeline #94
- 为 model_type 添加了类型检查 #109
- 修复了设置字符串 max_time 时的 s 单位错误 #132
- 修复了 objectives 未显示在 API 文档中的问题 #150
变更
- 重新组织了测试 #93
- 将日志记录移至单独的模块 #119
- 显示进度条历史记录 #111
- 使用 cloudpickle 而非 pickle，以允许卸载自定义 objectives #113
- 移除了 render.py #154
文档变更
- 更新发布说明 #140
- 包含 additional_objectives 参数 #124
- 添加了 Changelog #136
测试变更
- 代码覆盖率 #90
- 添加了针对其他 Python 版本的 CircleCI 测试 #104
- 将 doc notebooks 添加为测试 #139
- CircleCI 和 2 核并行性的测试元数据 #137

v0.4.1 2019年9月16日

增强功能
- 使用 Autobase 和 Skopt 添加了用于分类和回归的 AutoML #7 #9
- 实现了标准分类和回归指标 #7
- 添加了逻辑回归、随机森林和 XGBoost pipelines #7
- 实现了对自定义 objectives 的支持 #15
- pipelines 的特征重要性 #18
- pipelines 的序列化 #19
- 允许对 objectives 进行拟合以获得最优阈值 #27
- 添加了检测标签泄漏功能 #31
- 实现了回调 #42
- 允许进行多类别分类 #21
- 添加了对附加 objectives 的支持 #79
修复
- 修复了 pipelines 中的特征选择问题 #13
- 使 random_seed 的用法保持一致 #45
文档变更
- 文档变更
- 添加了 docstrings #6
- 为 docs 创建了 notebooks #6
- 初始化了 readthedocs EvalML #6
- 添加了 favicon #38
测试变更
- 添加了加载数据的测试 #39

v0.2.0 2019年8月13日

增强功能
- 创建了欺诈检测目标 #4

v0.1.0 2019年7月31日

首次发布
增强功能
- 添加了 lead scoring 目标 #1
- 添加了基本分类器 #1
文档变更
- 为 docs 初始化了 Sphinx #1