知识点标签

有监督学习 》分类任务 》异常检测

场景标签

大数据 》交通预测 》碰撞识别

概述

车号 Label CollectTime
1 1 2020/8/30 21:36:09
2 0
3 1 2020/8/12 8:36:46

1.原始数据时间缺失值多,存在一定的异常值

2.原始数据特征间的相关性强,原始数据特征与碰撞标签的相关性弱

3.数据严重不均衡

4.精准碰撞时刻的预测存在困难

训练集清洗

(1) 由于电动车电池具备防短路功能,车辆发生剧烈冲击时,安全气囊控制器会将信号发送给电池管理系统(BMS),BMS通过电池继电器断开高压,防止电池起火。发生碰撞时,电池主负继电器状态由连接变为断开;

(2) 绝大部分数据在碰撞瞬间,电池主负继电器状态处于断开状态;

(3) 发生碰撞时,车辆速度会发生明显的变化;

碰撞状态预测模型

在碰撞状态预测模型中,先采用规则预测出发生强烈碰撞的车辆,再利用LightGBM模型对剩余车辆进行预测,该部分模型特征工程和采样有部分重合,因此下面主要介绍特征工程和采样的细节,规则预测模型细节见3.1.4,LightGBM模型细节见3.2.4:

特征工程主要从状态信息和运动信息两个方面考虑,对于状态信息而言,最重要的是启停状态两个特征,当继电器由连接变为断开时,if_off逐步由-5变为-1,其余时刻均为0,当继电器由断开变为连接时,if_on逐步由-1变为-5,其余时刻均为0。在车辆运动信息中,主要构造了车辆的瞬时加速度,局部加速度,加速度统计几个特征,并对几个主要特征进行了分桶操作。这些新特征与碰撞标签具备较强的相关性,使得后续样本采样以及的模型构造更加容易。

csv_finds()函数批处理读csv文件位置,csvs存储了训练集文件下夹车号1-120的csv文件,csvs_test存储了测试集文件夹车号121-260的csv文件;

read_csv()函数对每个csv函数进行数据清洗和特征工程;

applyParallel_concat()函数合并所有清洗后的数据;

col_feature1()函数对数据进行欠采样,供规则预测模型使用;

col_feature2()函数对数据进行欠采样和特征工程,供LightGBM预测模型使用;

规则预测模型

文件读取

特征工程

根据业务知识,汽车碰撞后电池包主负继电器处于断开状态;其次,训练集的所有标签均分布在继电器断开瞬间附近,即if_off处于-3~-5的区间,考虑到可能的停车时被追尾,我们增加了车速>0的条件,同时增加了条件3,剔除启动阶段出现一部分正常低车速数据。(条件3在col_feature2函数中)

集成标签(重采样)

考虑到碰撞是一个连续过程,将碰撞时间前后5s时间均标记为碰撞,由此,训练集的碰撞标签由49变为了154个,提高了模型预测的泛化能力。

规则分类

从构造的几个速度相关的特征来看,发生强烈碰撞的标签是比较好区分的,因此首先利用规则模型预测发生强烈碰撞的车辆里考虑到模型的泛化能力将分隔阈值设的很大,以避免过拟合。

结果保存

LightGBM预测模型

文件读取

由于规则预测模型已经预测出了部分车号,因此LightGBM只需要预测trn_for_predtest_for_pred中存储的剩余的车号

特征工程

LightGBM模型中的特征和规则预测模型中略有不同,这里用col_feature2()函数进行特征工程。

集成标签(重采样)

LGBM模型分类

为了增强树模型的预测能力,我们对原始的特征进行了交叉修正,修正后,这几个主要特征与label的相关性更为明显。通过分层抽样、调参获得了状态预测结果,由于重采样预测结果中同一辆车可能有多个邻近的预测时间,取最早的一个时间作为预测结果。

结果保存

碰撞时间预测模型

碰撞状态预测模型中,由于重采样以及构建的一些局部特征,时间预测并不准确,需要对状态预测模型结果中的时间进行修正。

可以看到绝大部分标签处于if_off=-5的时间点,因此首先将训练集标签中if_off=-5的时间标注为1,其他车辆标注为0,将时间预测转化为一个二分类模型。接下来构建时间预测的瞬时特征,采用可解释程度高并且简单的K近邻算法。获得结果后,将Time_label=0标签中的碰撞时间修正为当前时刻的下个时刻,得到了最终的结果。

重采样

由于需要对训练集和测试集的预测结果进行修正,因此这里对预测结果进行了重采样(注意前面的重采样是对真实标签重采样,这里是对预测标签,二者不一样)

重采样后和特征数据合并,找到预测结果中附近的if_off==-5数据,对训练集标签进行修正

特征工程

由于碰撞时间受限于数据采集精度、传感器延迟、人为标注的影响,本身存在一定的随机误差,因此很难精确到1秒以内,

这里因此仅构造了当前瞬时加速度,下一时刻瞬时加速度,追尾判断,主驾驶座占用状态4个特征

标准化

五折交叉验证

结果提交