outliers_data_check#

一个数据检查,通过使用 IQR 确定分数异常来检查输入数据中是否存在任何异常值。

模块内容#

类摘要#

OutliersDataCheck

通过使用 IQR 确定分数异常来检查输入数据中是否存在任何异常值。

目录#

class evalml.data_checks.outliers_data_check.OutliersDataCheck[source]#

通过使用 IQR 确定分数异常来检查输入数据中是否存在任何异常值。

具有分数异常的列被认为包含异常值。

方法

get_boxplot_data

返回给定数据的箱线图信息。

name

返回描述此数据检查的名称。

validate

通过使用 IQR 确定列异常来检查数据帧中是否存在任何异常值。具有异常的列被认为包含异常值。

static get_boxplot_data(data_)[source]#

返回给定数据的箱线图信息。

参数

data (pd.Series, np.ndarray) – 输入数据。

返回

箱线图统计信息的载荷。

返回类型

dict

示例

>>> import pandas as pd
...
>>> df = pd.DataFrame({
...     "x": [1, 2, 3, 4, 5],
...     "y": [6, 7, 8, 9, 10],
...     "z": [-1, -2, -3, -1201, -4]
... })
>>> box_plot_data = OutliersDataCheck.get_boxplot_data(df["z"])
>>> box_plot_data["score"] = round(box_plot_data["score"], 2)
>>> assert box_plot_data == {
...     "score": 0.89,
...     "pct_outliers": 0.2,
...     "values": {"q1": -4.0,
...                "median": -3.0,
...                "q3": -2.0,
...                "low_bound": -7.0,
...                "high_bound": -1.0,
...                "low_values": [-1201],
...                "high_values": [],
...                "low_indices": [3],
...                "high_indices": []}
...     }
name(cls)#

返回描述此数据检查的名称。

validate(self, X, y=None)[source]#

通过使用 IQR 确定列异常来检查数据帧中是否存在任何异常值。具有异常的列被认为包含异常值。

参数
  • X (pd.DataFrame, np.ndarray) – 输入特征。

  • y (pd.Series, np.ndarray) – 忽略。默认为 None。

返回

一个字典,如果任何列存在异常值,则包含警告信息。

返回类型

dict

示例

>>> import pandas as pd

列“z”存在异常值,因此添加了警告以提醒用户其位置。

>>> df = pd.DataFrame({
...     "x": [1, 2, 3, 4, 5],
...     "y": [6, 7, 8, 9, 10],
...     "z": [-1, -2, -3, -1201, -4]
... })
...
>>> outliers_check = OutliersDataCheck()
>>> assert outliers_check.validate(df) == [
...     {
...         "message": "Column(s) 'z' are likely to have outlier data.",
...         "data_check_name": "OutliersDataCheck",
...         "level": "warning",
...         "code": "HAS_OUTLIERS",
...         "details": {"columns": ["z"], "rows": [3], "column_indices": {"z": [3]}},
...         "action_options": [
...             {
...                 "code": "DROP_ROWS",
...                  "data_check_name": "OutliersDataCheck",
...                  "parameters": {},
...                  "metadata": {"rows": [3], "columns": None}
...             }
...         ]
...     }
... ]