事实上,利用科学方法、流程、算法和技术系统从结构化和非结构化数据中提取一系列见解的数据科学举措可能会以任何方式失败,导致浪费时间、金钱和其他资源。主要由于决策者误入歧途,导致缺陷项目对企业的损害大于利益。
数据质量差
当企业将不干净的数据用于数据科学项目时,最终将"看看那些产生奇怪产出的模型,并看到它不能代表现实业务或流程,使事情变得更好。
有时,由于数据集中的偏差或差异,导致数据质量较差。
没有明确定义要解决问题的标准
这可能是数据科学失败的一个主要原因。由于基于修改后的业务流程进行重复计数,调查结果可能会夸大其份。要解决这个问题,组织必须制定数据分析计划,概述一个特定日期,其中数据可以验证,每个人都理解并认同的共同标准。
缺乏相关数据
向问题抛出大量数据不一定能获得答案。
有一种假设认为,大数据将带来见解,而实际上这种情况很少见。智能、定制且通常更小的数据集通常提供强大的可概括模型。
为了从数据科学中获取价值,应该继续努力继续从最相关来源收集数据。由于数据是从各种来源收集或购买的,团队需要确保数据的任何修改不会扭曲结果,并牺牲整个数据集的质量。他们还必须确保数据集没有隐私、法律等问题。
缺乏数据透明度
当领导不信任该模型或理解解决方案时,数据科学项目就会失败。解决这个问题的方法是,必须能够"分析结果可视化"并将其传达给可能不具备技术或统计技能的利益相关者。
数据科学家需要解释数据的来源,他们为计算模型所做的工作,并提供对所有相关数据的访问权限。透明度可能是项目成功的关键。
缺少决策层的拥护
"如果是首席信息官,它会有所帮助,"莱利说。"我们认为数据科学是我们运营不可或缺的一部分,我确信自己一定会成为我们努力的拥护者。即使CIO不是数据科学的内部拥护者,他们也应该负责保护所有相关数据的安全。"
"充分利用你掌握的信息是我所说的现代CIO的责任。"有了所有这些数据,您就有能力从中学习并智能地使用这些数据,而这是 CIO 可以用来帮助其功能跨组织地使用的东西。
在确定销售过程中可以做出的新策略和修改方面,自适应器从数据科学工作中获得了最大的收获。这与我们的产品或IT基础设施、营销无关,仅此而已。从业务流程优化的角度来看,它对我们帮助最大,能够更好地从内部销售中处理和管理线索。
人才短缺
"博纳非数据科学家的需求量很大,很难得到,而且成本高,"Tracy(Tracy Huitika, CIO, Beanworks)说, Beanworks是一家基于云的账户付费自动化提供商。这个职位通常需要物理学或科学博士学位,以及在 R 和 Python 中编写代码的能力。
Johnson说,数据科学项目失败的最大原因之一是缺乏继续管理该项目的运营人才。他表示:"让一位出色的数据科学家在没有计划的情况下创建模型,通过市场调整和数据变化来运行持续改进的运营,就像为一辆汽车设计工程,并将钥匙交给一个10岁的孩子一样。
公司需要获得合适的技能组合,无论是通过聘请或利用精通数据科学的外部专家,以保持模型投入生产后。
数据分析不是正确的解决方案
"导致数据科学项目失败的最大事情之一是,如果数据科学、算法和机器学习甚至不是正确的解决方案,"Riley 说。
"您可能根本不需要机器学习模型:你可能需要简单的回归,你可以花大量的时间和精力去经历所有不同的排列,而不用数据科学,"Riley说。"我们陷入了这样的情况之一,即我们正在研究财务数据科学建模,以可视化预测器,从而实现业务线的未来财务成功。事实证明,最好的用途只是统计回归。