投稿到民航资源网

QAR数据为什么不能简单的清洗和修正?

 2022-10-17 09:34:19 来源:民航资源网 作者:李瀚明  [投稿排行榜]

分享

      前几天看到胡占桥老师的一篇文章《使用 QAR 实现进近着陆指标评估设计思路浅析》。我十分尊重胡占桥老师这位民航 IT 业界的前辈,但是「清洗」和「修正」这两个说法的危险性使得我必须写些东西反驳他的这一说法。事实上,我们在海外航空公司的经验告诉我们,「清洗」和「修正」可能会使得航空公司错失关键的问题点

      我理解胡老师的本意是在分析数据时对QAR可能产生的误差进行处理。为了探讨这个问题,我们将系统梳理 QAR 的工作逻辑,并解释这一工作逻辑中可能出现误差的地方。最后,我们会用几个案例解释为什么不能简单地「清洗」或「修正」这些误差。

      一架飞机本质上由一系列控制系统所组成,每一个控制系统都可以表示为一个有限状态机(Finite State Machine)「输入 + 旧状态 = 新状态 + 输出」的形式。我们以一个开关为例:开关的输入是一个按钮(按下可以「切换」状态,不按下就是「保持」当前状态),主要输出是其所控制的电线的「接通」和「断开」、次要输出是开关上的一盏灯(点亮表示「接通」,熄灭表示「断开」)。

    QAR数据为什么不能简单的清洗和修正?

      为了对开关的工作情况进行记录,我们需要通过传感器收集状态、输入和输出随时间的变化:如果输入应该变化而没有变化,那就是输入的问题;如果输入变化了,但状态和输出没有按要求变化,就是这个开关对输入的响应的问题。

      由于飞机的控制系统理论上就是这一系列系统所串联(包括飞行员本身某种程度上也是一个控制系统——输入是空中交通管理员的指令和自己的判断,输出是对对应操作开关的操作),因此理论上,QAR、FDR和CVR等传感器收集记录装置可以记录下整个飞机的输入、输出和状态。

      但是,既然是传感器不可避免就会有误差。QAR等传感器的误差可分为三种:

      多报(生成了额外的数据点)。一部分传感器是按照「触发阈值」来进行数据采集的,如果数据点出现异常波动,就会多报。

      漏报(没有生成应当生成的数据点)。采集过程中跳过了几个数据点,使得最终数据的时间间隔不一致。

      误报(某个数据点的采集数据有误)。

      因此,胡老师在原文中提到了「数据清洗」和「数据修正」两个概念:

      数据清洗:每个CSV文件包含多行,每行对应一个数据采集时刻(单位:秒),即第 i 行表示QAR记录过程中的第 i 秒的飞行参数。每行对应多个QAR采集参数,大部分参数采集频率为1Hz(每秒采样 1 次),部分参数采集频率高于1Hz(最大 8Hz),这类参数将在同一行中多次出现,也有部分参数为几秒采样1次(最小 0.5Hz),这类参数则隔几行出现1次,其采集频次与工程值参数采集模式相关,包括连帧型、跳帧型、超级帧型、双字槽型和密集采样型。数据清洗重点完成跨天时间和参数跳变两大问题。

      数据修正:结合QAR数据采集特点,对异常数据进行识别、删除和推断补全。采用如下方法进行修正:异常数据识别:CSV 文件不完整,没有从起飞到着陆的全过程;CSV文件为出发地和目的地都相同的飞行训练数据;译码输出的CSV文件参数错位,即在参数1那一列中的某一行,显示参数2的数据;参数取值超出理论取值范围;参数取值出现不合逻辑的跳变等。

      删除操作:对于异常数据的CSV文件格式异常情况,视作无效数据而弃用;对于CSV文件本身格式正确,仅是参数取值偶有异常的数据,仅删去CSV文件中的异常数据,之后结合其他参数推断补全。推断补全:对于速度、经纬度、高度等连续数值类参数,取前后平均值;对于襟翼状态、缝翼状态等离散的状态类参数,取前值或后值填充。

      但是,我们无从确定最终的数据呈现中所出现的看上去不合逻辑的情况,到底是因为传感器本身的正常误差、传感器的问题还是系统本身的问题。因此,在没有确定不合逻辑之处的起源时将这些不合逻辑之处简单地「清洗」和「修正」的做法是不可取的——这样做在某种程度上构成了对数据的篡改。

      然而,实际上确实存在着因QAR记录能力本身局限的误差。因此,对QAR数据的建模和分析确实需要处理异常点问题。在设计 QAR 数据的建模和分析模型中,我们需要对异常点进行三步走的操作:

      1. 识别异常点——通常而言这一步可以自动化完成,并形成标记。

      2. 评估异常点的性质——这一操作往往是人工和自动化结合的。异常点及其标记会在聚类后发送给业务部门,由业务部门评估这一类异常点的类别(QAR本身的误差或是系统问题)。如果是QAR本身的误差,往往在航空公司的飞行过程中会出现大量类似的情况,而可以通过聚类算法检出;反过来,如果是系统问题,往往数据点较少,易形成单一的异常点。

      3. 根据异常点的性质进行对应的措施——例如忽略QAR本身的误差,并将系统问题组合形成报告。

      需要注意的是,这三步走应该是可审计、可问责的——对于异常点的类别评估本身也是飞行安全评估的一部分。之所以我们认为不可以对数据进行简单的「清洗」和「修正」,其核心也就是在这一操作的可审计性和可问责性上——如果没有问责机制和审计机制,「清洗」和「修正」就可能在有意无意间变成「篡改」。

    0荐闻榜

    更多文章和观点请访问李瀚明专题

    延伸阅读: