数据质量问题
目前,公司面临着保持不断增长的客户数据集的挑战。此数据通常不正确(例如包含重复条目),不完整或不连贯。而这些数据的质量对营销活动的有效性或收集所提供服务的付款有很大影响(例如,客户不支付发票,因为它被发送到错误的地址)。
据调查统计,质量差的数据引起的业务损失可能相当于公司收入的10%-25%。另一方面,Halo Business Intelligence提供的统计数据显示,92%的受访公司承认其客户地址信息不准确,而66%的组织认为不正确的数据对其运营产生负面影响。
运行数据清理项目的好处
- 每次使用数据前所需的准备时间更短
- 可以正确分析业务数据
- 提高数据可靠性
- 为将来的分析节约时间
- 由于重复出货数量减少,营销活动成本降低
数据清理过程的阶段
我们一直在根据收集的数据预测客户行为。我们知道数据质量的重要性:如果这些数据充满错误,很难获得准确的数据业务解释。
我们开展了许多项目,涵盖评估和改善电信,债务催收,保险或快速消费品等行业的数据质量,数据清理效率超过90%。我们总共分析了ca. 拥有客户信息的2600万条记录。
借鉴我们在该领域的经验,我们想向您展示数据清理项目的方法。
数据清理项目 - 步骤
下图描绘了数据清理项目的主要阶段。并非所有项目都必须相同,因为客户的要求会影响项目的最终形状。
1.分析
其目标是检测影响数据质量差的问题。我们根据业务(例如异常值,数据字典)和技术(例如基本统计,数据格式测试)准确性来验证数据质量。
通过使用我们软件中提供的交互式工具,我们尝试找到问题。结果是一份数据分析报告,其中包含有关数据探索的信息,遇到的问题清单和清洁建议方法,这些都是进行与项目有关的进一步工作所必需的。
2.数据清理
在定义数据问题并为我们的客户设定更多目标后,我们开始清理数据。此阶段包括3个任务:解析,标准化和重复数据删除。
解析 - 根据数据和上下文的含义(例如,名字和姓氏,代码和城市等)将复杂字段分解为多个字段。
在这个阶段,我们可以执行其他任务,包括:
- 根据字段“名称”的内容,识别记录是否包含人员,团体,机构,公司或业务活动
- 根据流行的名字,确定性别
- 隔离公司的法律形式 - 法律形式被标准化为官方CSO缩写
标准化 - 用一个值替换同一变量的许多不同实例。例如,“纽约”和“纽约”将被标识为相同的值,并替换为一个用户定义的值。
重复数据删除 - 检测重复记录及其合并。即使数据格式不同,我们也会在数据库中搜索同一客户的多个条目。我们还可以组合来自多个来源的数据库,并通过创建包含来自各种来源的所有信息的客户记录来统一它们。
重复示例:
3.下一步是准备最终清理的数据集和项目文档/报告
4.自动化
最后,我们实现了数据质量流程的自动化,使我们的客户能够长期保持一定的数据质量水平。
例如,从这一刻起,我们客户的CRM系统中的每个新输入都将被清理(如第2点所示)。
作为数据清理过程的一部分,还可以执行额外的分析,如数据填充(例如填充缺失值,检测住户)和地理编码。