outliers_data_check#
一个数据检查,通过使用 IQR 确定分数异常来检查输入数据中是否存在任何异常值。
模块内容#
类摘要#
通过使用 IQR 确定分数异常来检查输入数据中是否存在任何异常值。 |
目录#
- class evalml.data_checks.outliers_data_check.OutliersDataCheck[source]#
通过使用 IQR 确定分数异常来检查输入数据中是否存在任何异常值。
具有分数异常的列被认为包含异常值。
方法
返回给定数据的箱线图信息。
返回描述此数据检查的名称。
通过使用 IQR 确定列异常来检查数据帧中是否存在任何异常值。具有异常的列被认为包含异常值。
- static get_boxplot_data(data_)[source]#
返回给定数据的箱线图信息。
- 参数
data (pd.Series, np.ndarray) – 输入数据。
- 返回
箱线图统计信息的载荷。
- 返回类型
dict
示例
>>> import pandas as pd ... >>> df = pd.DataFrame({ ... "x": [1, 2, 3, 4, 5], ... "y": [6, 7, 8, 9, 10], ... "z": [-1, -2, -3, -1201, -4] ... }) >>> box_plot_data = OutliersDataCheck.get_boxplot_data(df["z"]) >>> box_plot_data["score"] = round(box_plot_data["score"], 2) >>> assert box_plot_data == { ... "score": 0.89, ... "pct_outliers": 0.2, ... "values": {"q1": -4.0, ... "median": -3.0, ... "q3": -2.0, ... "low_bound": -7.0, ... "high_bound": -1.0, ... "low_values": [-1201], ... "high_values": [], ... "low_indices": [3], ... "high_indices": []} ... }
- name(cls)#
返回描述此数据检查的名称。
- validate(self, X, y=None)[source]#
通过使用 IQR 确定列异常来检查数据帧中是否存在任何异常值。具有异常的列被认为包含异常值。
- 参数
X (pd.DataFrame, np.ndarray) – 输入特征。
y (pd.Series, np.ndarray) – 忽略。默认为 None。
- 返回
一个字典,如果任何列存在异常值,则包含警告信息。
- 返回类型
dict
示例
>>> import pandas as pd
列“z”存在异常值,因此添加了警告以提醒用户其位置。
>>> df = pd.DataFrame({ ... "x": [1, 2, 3, 4, 5], ... "y": [6, 7, 8, 9, 10], ... "z": [-1, -2, -3, -1201, -4] ... }) ... >>> outliers_check = OutliersDataCheck() >>> assert outliers_check.validate(df) == [ ... { ... "message": "Column(s) 'z' are likely to have outlier data.", ... "data_check_name": "OutliersDataCheck", ... "level": "warning", ... "code": "HAS_OUTLIERS", ... "details": {"columns": ["z"], "rows": [3], "column_indices": {"z": [3]}}, ... "action_options": [ ... { ... "code": "DROP_ROWS", ... "data_check_name": "OutliersDataCheck", ... "parameters": {}, ... "metadata": {"rows": [3], "columns": None} ... } ... ] ... } ... ]