【财务数据价值链】第三步：数据清洗

在上一篇文章《财务数据价值链的第二步：数据采集》中，我们介绍了财务采集数据范围的扩展与对应的数据采集方法，本篇文章我们将聚焦于财务数据价值链第三步——数据清洗。作为财务数据价值链的第三环，数据清洗发挥着“看门人”的作用，占用了整个流程70%以上的时间和工作量，数据清洗对后续数据分析与数据可视化结果的质量有着决定性的影响。本篇文章我们将聚焦于数据清洗，对数据清洗的含义、重要性以及常见的数据质量问题与清洗方法等进行介绍，以帮助财务人员更好认识数据清洗的重要性，并支持财务人员做好数据清洗工作。

财务数据价值链的六个基本步骤

为何需要数据清洗？

信息技术领域有一句俗语：“垃圾进，垃圾出”。也就是说，如果没有可靠的数据作为支撑，再复杂的算法模型、再丰富的可视化设计也没办法真正发挥作用，由此可以看出数据清洗在数据价值释放过程中是至关重要的。

数据清洗是处理脏数据的过程，重点在于设定数据排查规则，发现异常与错误，从而采取相应的清洗措施，以提高数据的准确性，为后续复杂的算法模型、丰富的可视化展示提供支撑。

在企业工作实践中，所采集到的原始数据往往存在着各种各样的数据问题，财务需要根据不同的数据问题采取针对性的清洗策略，以去除或修正数据中的错误。

如何进行数据清洗？

典型的数据质量问题主要包括缺失数据、格式问题数据、逻辑问题数据、异常数据、不一致数据和冗余数据六大类。接下来将介绍这六类数据质量问题与对应的清洗方法。

数据质量问题与清洗方法

缺失数据清洗

数据缺失问题很常见且无法忽视。数据缺失问题的产生包含主观和客观原因。

主观原因包括数据采集人员的主观失误、数据暂时无法获取或获取的成本较大，以及数据提供方有意隐瞒等。

客观原因包括数据采集设备故障、存储器损坏、数据传输故障，以及属性值不存在等。例如，存储硬盘的损坏导致监控数据的缺失。

面对数据缺失问题应该如何清洗？首先应逐项确定缺失比例，然后按照缺失率和变量的重要性制定对应策略，主要包含删除、填补、标记三类方法。

缺失数据清洗策略

1. 缺失数据删除

如果数据集某列中的缺失数据很少并且其发生不存在规律性，则可以直接删除缺失数据所在行的数据。如果某列缺失率较高并且重要性不高，则可以直接删除该列数据。

2. 缺失数据填补

缺失数据填补主要包括再次采集数据、计算填补、人工填补三种方法。

再次采集数据是指通过改进采集方法或扩展采集渠道进行数据的再次采集来完成缺失数据填补的工作。对于重要性和缺失率都比较高的数据，在权衡准确性和成本的情况下，可以考虑采用该方法。

计算填补是指利用数学、统计学的方法来完成缺失数据填补的工作。计算填补的方法适用范围广且匹配度高，既适用于重要性高的缺失数据填补，也适用于重要性低且缺失率低的缺失数据填补。

人工填补是指由人根据业务相关的实践经验和理论知识来完成缺失数据填补的工作。人工填补的方法耗时耗力，仅适用于重要性高缺失率低的数据。

3. 缺失数据标记

某些数据缺失并非随机产生，而是缺失本身就包含着某种特定的信息。我们可以对这些数据变量进行标记，在后续数据分析中，运用统计学方法或数据算法识别出其中的规律。

格式问题数据清洗

通常情况下，格式问题数据产生于数据录入阶段，特别多产生于数据线下人工采集和录入，或多人录入。格式问题主要包括格式不统一和格式错误两类，可以通过建立数据映射或手工调整的方式进行清洗。

1. 格式不统一数据清洗

格式不统一数据包括录入数据形式不统一、数据计量单位不统一、数据计量单位的格式不统一等。格式不统一数据一般不会影响计算机的后续处理，但会影响数据之间的可比性，或增加数据清洗的工作量。例如，“北京”和“北京”之间需要建立映射关系或者通过去除空格统一调整为“北京”。

2. 格式错误数据清洗

格式错误是指数据的格式不符合计算机能够识别和处理的要求，包括数据开头、中间或结尾存在空格，姓名中存在数字符号，身份证号中存在汉字等问题。

格式问题数据大多是在对多个来源的数据进行整合分析或调用其他系统的数据时发现的。格式问题可以在发现时进行数据清洗，但如果要节省人力、时间，则需要在录入数据之前形成统一的数据标准。

逻辑问题数据清洗

逻辑问题数据主要表现为以下两种类型：

一是数据中包含与整体数据分布存在显著差异的离群值。例如，公司产品单价表中产品的价格一般都在2000元以内，但前端业务人员在录入信息将其录为20000元，财务人员审核此单据时很容易辨别出来是错误的，其明显不符合公司经营情况，属于典型的逻辑问题数据。

二是数据所对应内容不符合客观认知。例如，身份证号处显示了11位手机号。

通常逻辑问题数据是人工填写错误，或是前端录入数据未校验等造成的，需要借助人工或自动校验方式进行排查和调整，依靠数据行与列之间的相互验证关系来删除或重构不可靠字段。

异常数据清洗

异常数据又称孤立点或离群点，它的值与其他样本观测值有着显著差异。很多人认为异常数据就是错误数据，其实不然，两者有一定的区别。

异常数据可能反映的是较为特殊的事实数据。例如，A公司2020年财务报表公布的利润较2019年增长100%，超过正常增长率，从表面上看属于异常数据。通过深入调查发现，A公司在2020年进行了产业并购，业务形态大幅调整，同时相关产业政策利好，因此A公司实现了利润大幅度的增长，2020年的利润数据属于事实数据。

异常数据也可能预示数据存在一定的问题，在数据分析中需要保持警惕，进行严谨的调查分析。例如，L公司2021年1月初确认了一笔1000万元的收入，其平均年销售额为5000万元，该笔收入占平均年销售额比例较大，属于异常数据。通过深入调查发现，L公司作为集团下属子公司，出于业绩压力的考量，该公司将该笔2020年的收入延迟计入了2021年。这种情况下，异常数据是错误数据，需要剔除。

在企业经营分析中，人们往往根据经验来识别直观的异常数据。如果想要准确识别潜在的异常数据，还需要应用科学的检测方法。常见的检测方法包括标准差法、箱线图法、聚类分析法等。

标准差法是指在统计学中，如果一组数据分布近似正态分布，那么约99.74%的数据值分布在前后三倍标准差范围内。而通常情况下，出现在三倍标准差之外的数据属于异常数据。

箱线图法通过中点、Q1、Q3、分部状态的高位和低位5个点来检测异常值，通常情况下，高于分部高位或低于分部低位的数据属于异常数据。

聚类分析法根据数据之间相似的特点将数据集分组为若干簇，而簇外的孤立点数据属于异常数据。

检测出异常数据后是否要进行处理需要视具体情况而定。例如某些数据分析模型对于极端异常数据非常敏感，为了模型的稳健性，在建模前通常会对样本中的异常数据进行修正或删除，否则也可以选择不对异常数据进行处理。

不一致数据清洗

不一致数据产生的前提是同一条数据存在多条记录，产生的原因往往包括两个方面：第一，对于同一事物的描述和记录不规范；第二，数据采集或填报有误。不一致数据可以通过修正、删除、再次采集的方法进行清洗。

例如，某房地产公司在进行经营分析时，各子公司递交上来的数据中“销售收入”存在“结转收入”“结算收入”等多种名称，财务人员需要将其整合为销售收入数据，或者在这些指标之间建立相互映射关系，以进行后续分析。

冗余数据清洗

冗余数据既包含重复的数据，又包含与分析问题无关的数据，通常可以采用筛选并删除的方法进行清洗。

1. 重复数据清洗

在实际工作中可能存在重复上报等导致的数据重复问题，即数据集中关于同一对象的数据有两次及以上的记录。对于重复数据，企业需要通过筛选，仅从每类重复样本中抽取一条记录保存，删除其他重复样本。

2. 非必需数据清洗

非必需数据是指所采集的数据集中与所分析问题无关的样本数据，或是错误、不真实、不完整的样本数据。对于非必需数据可以通过设置筛选条件进行筛选，对于明确为非必需的数据直接删除，而尚不明确的可暂时保留或咨询专家是否保留。

本文部分内容来源于《财务数据价值链：数据、算法、分析、可视化》。

【财务数据价值链】第三步：数据清洗

为何需要数据清洗？#

如何进行数据清洗？#

缺失数据清洗#

1. 缺失数据删除#

2. 缺失数据填补#

3. 缺失数据标记#

格式问题数据清洗#

1. 格式不统一数据清洗#

2. 格式错误数据清洗#

逻辑问题数据清洗#

异常数据清洗#

不一致数据清洗#

冗余数据清洗#

1. 重复数据清洗#

2. 非必需数据清洗#