预测性维护：为何落地难？如何有效推进？

2024-5-13

预测性维护技术落地困难，不仅源于技术本身的复杂性和难度，还在于企业缺乏一套系统化的实施方法论。本文基于深入的专家访谈，剖析了预测性维护难以落地的原因，总结了预测性维护推进的七大策略，并分享了国内外典型案例，以期为企业提供启示与借鉴。

- 文章信息 -

本文由e-works编辑部黄菊锋原创发布。

在本文中你会看到：

◉ 推进预测性维护，如何选择合适的实施对象？

◉ 数据量多少足够？是否越多越好？

◉ 如何解决小数据问题？

◉ 如何更全面地评估项目成效？

◉ 如何应用人工智能技术支撑预测性维护？等问题的探讨。

近年来，随着传感器、人工智能、工业物联网、大数据等技术的蓬勃发展，预测性维护受到市场广泛关注与重视，一度被预言是工业物联网的“杀手级”应用，吸引着众多企业涉足该领域，但它的应用却一直不及预期，被认为是当下最有需求、最有前途，也是最难落地的技术之一。

为帮助制造企业更有效地推进预测性维护技术应用落地，本文剖析了预测性维护难以落地的原因，提出了预测性维护推进的七大策略，并分享了国内外典型案例。

在本文撰写过程中，笔者有幸采访到了加拿大工程院院士、广州大学人工智能研究院院长杨春生，中山大学先进制造学院副教授冯建设博士，三菱电机企划部软件应用科主管梁效，得到了三位专家的专业指导和宝贵建议，在此表示衷心的感谢！

预测性维护推进难点与挑战

作为一种先进的维护策略，预测性维护（Predictive Maintenance，简称PdM）通过收集设备运行数据，利用数据分析和建模技术，识别出设备的潜在故障或性能下降趋势，从而提前进行维护操作，以避免设备故障导致的生产中断或安全事故。预测性维护通常关注设备的某一特定部分或系统，并对其进行有针对性的监测和诊断，侧重于设备的故障预测和预防性维护，并实现运维成本最优。因此，与事后维修、周期性预防维护、基于状态的维护相比，预测性维护可以最大限度地减少意外停机时间，延长设备寿命，并降低维护成本。

然而，预测未来一直是人类面临的亘古难题。尽管预测性维护的概念已得到广泛认可，但在实际落地过程中，仍面临着一系列挑战与难点：

图1.预测性维护推进难点与挑战

01 / 技术复杂性

预测性维护是一门融合计算机科学、数据科学、大数据、人工智能、工业软件和物联网、工程领域专家知识以及统计学等多学科知识的技术。这种跨学科的特点使得预测性维护在实际应用中能充分发挥其优势，为工业领域带来前所未有的变革，但也增加了技术整合和应用的难度，需要企业具有高水平的技术能力和综合性的跨领域技术人才。

02 / 实施目标和投资回报周期不明

当前，仍有不少企业在实施预测性维护时，未能清晰地设定核心目标，包括希望通过预测性维护实现何种效果，解决哪些关键痛点问题，从而导致项目在实施过程中缺乏针对性的优化和调整，最终难以达到预期成果。

另外，预测性维护技术早期需要大量的资金投入，包括软硬件的开发升级与集成、传感器的安装、人员培训等等。同时，投资回报周期的不确定性也是众多企业在决策时面临的一大挑战。预测性维护的实施并非一蹴而就，需要持续迭代和改进，短期内难以看到显著的经济效益。这可能导致企业在面临资金压力时，对预测性维护项目的投入持谨慎态度，甚至选择放弃。

03 / 数据量不足且质量有待提升

数据是构建和训练预测性维护模型的基石。推进预测性维护一般需要积累两类数据，一是设备的运行数据，包括设备的速度、温度、压力、振动、电流、电压等各种参数，这类数据是训练模型识别正常操作范围和异常情况的基础；二是故障数据，包括故障记录、维修记录等，为模型提供了故障模式和维修经验的输入。

然而，很多预测性维护项目的瓶颈往往在数据收集环节。有的企业尚未建立完善的设备数据采集系统，有的即使部署了SCADA之类的系统，但因数据存储期限或物理容量限制，或未建立长期存储策略，导致数据遗失和完整性不足。另外，出于安全性考虑，许多工业现场对设备或系统的开放性和访问权限进行了限制，也会造成数据缺失。此外，还存在传感器周围抗干扰措施处理不当的情况，使采集的数据无法满足行业或应用标准，从而形成污染数据；未定期对数据采集设备和传感器进行维护和校准，导致这些设备在运行过程中可能出现偏差或误差，进而产生不准确的数据。

04 / 模型准确性受影响因素众多

模型是预测性维修的基石。基于不同的应用场景，企业需要构建不同类型的模型，如设备健康评估模型、设备健康预测模型、故障诊断模型、故障根因识别模型等。

由于预测性维护模型的建立涉及数据收集、数据处理与分析、建模方法和算法选择、模型训练与验证、模型部署与迭代等多个过程，任何环节的偏差都可能影响模型的准确性。另外，面对动态多变的工况，以及设备性能随时间变化的非线性特性，模型往往难以长时间维持其高准确性的性能。例如，当前许多预测性维护模型主要依赖历史数据在离线环境中训练。一旦部署上线，这些模型在初期可能性能表现良好，但随着时间的推移，受环境变化、原材料波动、设备性能退化等因素影响，模型的准确率往往会出现明显下降。

05 / 对工业知识的理解与总结不足

推进预测性维护不仅涉及技术层面的建设，更需要结合工业现场实际情况，深入理解工业过程的原理、工艺和设备等知识。通过对设备运行原理、生产工艺流程、故障产生原因等地了解与运用，企业能够更准确地建立故障与监测数据之间的关联关系，制定合理的数据采集策略；剔除掉一些不合理、不符合物理规律的数据；分析出不同因素对设备性能的影响程度等，从而有效地预测故障发生的可能性。此外，机理模型是推进预测性维护的常用建模方法，与数据驱动模型的方法相互补充，尤其是在缺乏前期数据的条件下，利用机理模型可模拟出足够的数据支持模型的建立。

然而，在实际操作中，由于工业现场人员的流动性、或缺乏有效的知识沉淀与传承机制等，导致企业对工业知识的理解与积累不足，影响了预测性维护项目的推进。以加工工件为例，企业应清楚故障产生的原因是由于扭矩、刀具硬度还是其他因素造成的，但往往很多企业难以准确把握。

06 / 复制推广难，易陷入“试点陷阱”

预测性维护的核心是对企业现有运维活动的优化和提升。想要超越传统运维模式，构建一个既蕴含工业现场众多专家经验和知识，又拥有更优规则的系统，其难度与挑战较大。

因此，企业通常会选取1~2个项目进行试点，如产线上的某个关键主轴、齿轮箱或电机等，然后再扩大范围。然而，在试点项目中，企业往往会取得显著的成功，比如精确确定传感器的布局、有效识别故障模式以及精确预测设备剩余寿命。但将其扩展到更广泛的应用时则效果不佳。主要原因在于：

◉ 设备兼容、运行环境变化挑战。在落地推广阶段，企业往往会面临更多的挑战和不确定性，可能存在内置传感器与额外添加传感器不匹配，通信协议不一致，数据质量、数量难以保障等。

◉ 技术定制化程度高。由于预测性维护模型往往难以泛化，须根据具体的设备和运行环境进行训练和优化，因此无法简单的将试点的成功经验和解决方案直接复制到其他场景或企业。

◉ 文化和组织变革障碍。预测性维护需要企业改变传统的维护模式，建立基于数据的决策机制，这必然会涉及到内部业务流程、组织结构、员工技能和文化氛围的变革，往往会面临着员工抵触、组织惯性等障碍。

预测性维护推进策略

与众多以数据驱动为核心的技术类似，预测性维护的推进主要涵盖需求定义、模型开发及部署上线等关键环节，如下图，本文不再一一赘述。本节将重点结合预测性维护的痛点问题与实施方法，总结预测性维护推进的七大建议。

图2.预测性维护实施路径

（参考资料:冯建设博士PHM课程资料，e-works整理）

01 / 确立明确的目标，做好前期评估

确立明确的实施目标，是防止预测性维护项目方向偏移的关键。在项目实施前，企业应分析现有维护体系的主要痛点和不足：是设备故障导致生产节拍频繁被打断？或是产品品质一致性难以保证？亦或是运维成本过高？针对这些痛点，企业需要明确通过预测性维护解决的关键问题，是实现故障预测？还是产能或产品质量改善？其核心目标仍应围绕“提质增效，降本减存”等方面。

在确定核心目标后，企业还应进行执行前的可行性研究和评估。全面评估企业当前制造水平，识别企业与推进预测性维护之间的技术差距，制定分阶段实施计划，并估算投入成本与预期回报之间的关系，是否值得投入。还应考虑现有人员配备情况，以及特殊设备对应的预测性维护技术的成熟度。

02 / 选择合适且速赢的场景切入

对于预测性维护来说，建模方法千万条，选对场景第一条。建议企业选择最需要关注且能够快速见效的实施对象。

首先，企业需根据当前生产表现相关指标，明确监控的层级，是部件级、设备级、产线级还是工厂级。例如，针对设备停机，要深入分析是特定部件频繁故障导致的停机，还是产线间缺乏有效的生产协同而引起的，找到关键瓶颈，确定需要监控的关键部件或环节。

其次，预测性维护并不适用于所有对象。它更适用于故障发生频率不高，但一旦发生会导致长时间停机和高额经济损失的设备。企业可以通过四象图来作判定设备优先级，纵轴代表部件故障发生频率，横轴表示故障发生造成的停机时间及经济损失（如下图）。

图3.预测性维护实施对象选择方法

（来源:冯建设博士PHM课程资料）

其中，对于故障发生频率高，不易维修且经济损失大的设备，更应考虑设备设计的问题，需改进设计；对于故障发生频率高，但经济损失小，且容易更换的设备，准备更多备件即可；对于故障发生频率低，经济损失小，维修维护容易的设备，采用传统维护方式更具性价比。而对于故障发生频率低，但影响重大的设备，实施预测性维护能够更显著地凸显其价值。

此外，企业还需对实施对象进行可行性评估，包括考虑设备数据收集的情况，如数据的完整性、可靠性，基于收集的数据能否评估部件的衰退程度，以及考虑应用开发成本、故障发生模式等。

值得一提的是，选择快速见效的项目，不仅可以验证技术方法论的可行性，还能增强团队继续执行项目的信心，并快速检验特定场景是否具备大规模实施的可行性。

03 / 突破小数据瓶颈

对于预测性维护而言，数据量多少足够？是否越多越好？从理论上看，“足够”的数据量可以为预测模型提供更丰富的信息和更准确的故障模式识别，从而提高预测的准确性。然而，在工业领域，获取足够大的数据量并不总是现实或可行的。

因此，推进预测性维护，企业需要解决小数据的问题。即通过定义问题的边界，来确定数据采集的范围。如是监控某个关键部件、设备，还是整条产线？是实现异常监控和报警，还是故障模式判定？不同的预期目标、不同的监控对象/层级、不同的需求，对于传感器的部署，数据来源的设计，采集频率、数据量大小的要求等都不一样，可结合竞争性测算对成本、潜在收益等进行综合评估来确定。另外，还可以基于原因分析，开展有针对性的数据采集。企业基于对设备机理的深入理解，对可能导致故障的各种原因进行一一列举，并找到与故障成因最相关的因素，进行数据采集。通过这种方式，数据采集的范围更精确，模型的准确度也更高。

总之，数据收集是一个逐步积累的过程，数据量也并非越多越好，“正确的数据”远比有量无质的“大数据”更好，无关的数据反而会让模型的性能偏离。

04 / 增强模型的鲁棒性和泛化性

模型的准确性和可靠性是衡量预测性维护项目成功的关键因素。为有效提高模型的准确性，除了加强数据采集和处理、深入研究设备机理、优化模型结构和参数设置以及建立有效的模型验证机制等措施，确保模型在动态工况下的自适应更新能力同样至关重要，即提高模型的鲁棒性和泛化性。

鲁棒性强的模型能够抵御各种干扰和变化，保持稳定性能；而泛化性好的模型则能够适用于不同的数据分布，不仅在训练数据上表现良好，而且在新的、真实的数据分布上也能保持性能。在业界，主要利用贝叶斯优化、迁移学习、深度学习的神经网络等方法，确保数据分布发生变化时模型的鲁棒性和泛化性。不过，还需要建立一套完善的模型评估机制来确保模型的持续有效性，包括判断训练数据分布是否发生变化，以及更新后的模型是否满足当前的工作状况。模型在运行过程中，还应对模型进行持续的修正、迭代和完善。

05 / 注重与现有维护运营体系的紧密融合

为确保预测性维护项目成功复制推广，企业应注重预测性维护技术与企业现有的维护运营体系紧密结合，包括与其他维护方式的有效协同，与现场维护人员操作习惯相匹配，以及与企业其他业务系统的集成等方面。

现场维护人员是维护活动的直接执行者，他们对系统的接受程度和使用熟练度直接影响系统的效能。因此，系统在设计时应充分考虑现场维护人员的操作习惯和需求，提供简洁直观的用户界面，确保易用性，以便他们能够迅速上手，无需长时间的培训和学习。还需加强对维护人员的培训和教育。另外，实现系统与企业其他业务系统（如ERP、MES等）的无缝对接，是确保数据一致性和流程协同的关键。

06 / 避免将预测准确率作为项目成败的唯一标准

预测性维护是一种面向维护活动的策略设计，核心在于将预测结果作为整个维修维护活动的输入或参考，实现对整个维护策略或流程的优化。从这个层面来看，预测性维护的价值不仅仅在于其技术实现，更在于它对整个企业维护经营活动的积极影响。因此，将准确率作为预测性维护项目成败的唯一指标是有局限性的。

另外，预测性维护价值链路较长且复杂，涉及数据收集、模型训练、维护策略制定等多个环节，不同于数据来源稳定、工作目标单一的应用场景，比如视觉检测，主要关注合格率，可以将准确性作为关键衡量指标。建议企业在追求模型准确性的同时，从多角度更全面地评估预测性维护项目的成效。包括：项目实施后设备故障率的降低程度、维护成本的节约情况、生产效率的提升程度等指标；模型的稳定性、可靠性、易用性、可解释性等。

07 / 加强与AI技术的整合与应用

AI技术的快速发展，为实现更加准确和高效的预测性护提供了全新的可能性。AI技术具有强大的数据处理、模式识别和学习能力，能够为预测性维护提供强大的技术支持。

数据采集与处理：AI可以根据不同的需求和场景，制定并优化采集策略，包括传感器的布置，在保证经济性的同时，采集到所需要的数据；数据采集测点优化，如优化传感器和监控设备的布置和数量；识别和纠正数据中的错误、重复和异常值，提高数据的质量。

特征提取：AI辅助的特征工程可以帮助提取关键特征和选择最优性能参数，剔除冗余信息；通过机器学习算法可自动发现隐藏的模式和关联。

模型训练与验证：基于不同的场景应用，AI使用机器学习算法，如回归分析、决策树、支持向量机、随机森林和深度学习等来训练模型。通过交叉验证等技术，AI可以评估模型的稳健性和准确性。模型上线后，AI可通过迁移学习、贝叶斯优化等方法支持模型的持续迭代更新。

决策支持：强化学习可以根据预测结果，帮助制定维护策略，指导现场的运营活动；大模型还可以帮助工程师生成典型的点巡检运维SOP（标准操作程序）。

预测性维护典型应用实践

预测性维护最大的价值不仅在于基于剩余使用寿命（RUL）的预测，在维护机会窗内选择成本最低的维护策略和排程计划，也在于充分利用预测性维护的理念、建模工具和方法，帮助企业制定全局最优的维护方案，实现降本增效。如今在制造业领域，预测性维护技术的应用越来越普遍。

案例一：某铁路公司—预测车轮故障，护航铁路安全

加拿大某铁路公司为减少列车车轮故障所引发的脱轨事故（据统计有超过50%的脱轨事故与车轮故障有关），在二十年前，开发了一套车轮碰撞载荷检测器（“WILD”）系统。该系统由安装在轨道沿线战略位置的传感器组成，可以检测对铁轨和车厢造成损坏的车轮。即当列车经过传感器附近时，传感器测量轨道上每个车轮造成的冲击，并将收集的数据自动传输到中央监控系统。当车轮造成的冲击超过最大临界值时，列车必须降低速度，在最近的维修厂停车，或将车轮受损的车辆脱钩。这种方式，最大限度地减少了对轨道和桥梁的损坏。但是，列车速度的降低和停运，导致了货物交付的严重延误，降低了公司的吞吐量，并产生了大量虚报警。

为了有效使用WILD数据防止车轮故障，该铁路公司启动了预测性维护项目。该项目的目标是利用机器学习和数据挖掘技术，从历史WILD数据和车队维护记录中开发基于机器学习的预测模型，实现在车轮故障发生之前对其进行预测，从而使铁路运维能够避免正常服务的中断，减少车队运营的停机时间，最终提高铁路安全性，降低运营成本。

在该公司的预测性维护项目中，其利用历史WILD数据和列车维护数据构建故障预测模型及验证其准确性，取得了积极的试验成果。之后，为了预测在铁路网的某个细分路段，哪些车轮将在特定时间段或预定里程内出现故障，开展了新一轮的试点。通过评估，原预测模型基本可以满足铁路运维的目标，但由于数据分布偏移等原因，模型性能已出现明显下滑。为此，公司实施团队利用新收集的WILD数据对既有预测模型进行了再培训，涉及收集故障事件数据、将其与WILD数据关联、处理WILD数据并生成新特征；以及模型训练完成后，通过机器学习算法筛选出最适合的模型，确保模型在性能稳健、属性复杂性和部署便捷性之间达到均衡；最终，将模型集成到中央IT系统中，为维修决策提供支持。

如今，该铁路可准确预测97%的车轮故障，维修时间从过去的7-10天减少到1-3天，每年节省500万加元的运维成本，更主要的是成功避免脱轨灾难, 实现连续三年零安全事故。（案例来源：加拿大工程院院士、广州大学人工智能研究院院长杨春生）

案例二：某柴油发动机制造企业—基于预测性维修技术实现成本最优

某柴油发动机制造企业在镗削发动机内孔时，镗刀频繁发生突然断裂的情况，极大地影响了生产效率；同时，发动机设备内部表面结构的加工要求极为严格，刀具的故障可能会对工件造成损坏，从而影响整个部件的性能。

由于刀具的寿命是一个概率分布问题，随着使用时间的增长，刀具的损坏概率会逐渐增高。通过增加更换刀具频率来降低故障概率，无疑不够经济；而延长更换刀具的时间，又会增加整个工件损坏的风险。因此，如何在延长刀具使用寿命所带来的刀具耗材成本降低，和工件损坏风险增加所导致的生产成本增加之间进行权衡，是该企业推进预测性维护项目的关键。

在这种思维模式下，该企业通过分析刀具在使用过程中的历史数据，构建刀具健康程度和风险值模型，该模型能够根据刀具在使用过程中的不同参数（如切削速度、负载、温度等）来评估刀具当前的健康状况和风险水平。然后，将上述刀具健康模型与其他相关因素（如新刀具成本、停机时间、工件成本等）结合，构建总成本最优化的模型。并通过将刀具健康模型输送到总成本最优模型中，计算出最佳的更换刀具的时间点，并据此制定刀具更换策略，实现整体成本的降低。（案例来源：中山大学先进制造学院副教授冯建设博士）

案例三：某钢铁企业—实时诊断液压床，降低停机风险

某钢铁企业的液压床，经常会出现异常停机的问题，且恢复时间长。为了有效缩短停机时间并优化维护流程，该企业与三菱电机展开了合作，希望通过提前检测液压床的异常征兆，实现故障发生前的人工干预。

图4.某钢铁企业推进预测性维护流程（来源：三菱电机）

该企业首先对过去的液压床停机事件进行了详尽的离线分析，找到影响液压床正常运行的因素，包括电压、电流、扭矩、油缸位置和压力等200多种影响因素，并收集与这些影响因素相关联的数据。然后将数据导入三菱电机数据分析诊断软件MELSOFT MaiLab中，进行数据预处理与模型训练，包括抽取与发生装置异常密切关联的数据，对其进行学习，创建判断异常诊断的诊断规则模型，并对模型的可信度、有效性进行评估诊断，不断提高模型精度（如图5）。最后将模型嵌入到控制系统中，创建用于实时诊断的任务。基于任务规则，该企业可实时读取关键因素相关的数据，基于算法得到分析结果，并与预设的阈值对比，判断液压床发生停机的可能性，提前预警。通过这种方法，该企业大幅缩短了数据分析与项目实施的时间周期，并显著降低了设备停机和维修时间。

图5.在MELSOFT MaiLab中

对模型精度进行评估诊断（来源：三菱电机）

作为一种前瞻性的维护策略，预测性维护对于提升设备运行效率、降低维修成本以及减少非计划停机带来的损失等效果显著，其潜在价值无可估量。据物联网市场调研机构IoT Analytics发布的《2023-2028 年预测性维护和资产性能市场报告》显示，对于大型设备资产的一次准确故障预测价值超过10万美元。

预测性维护技术落地困难，不仅源于技术本身的复杂性和难度，还在于企业缺乏一套系统化的实施方法论。本文结合三位专家的观点，总结了预测性维护推进的七大策略，希望为企业提供启示与借鉴。总之，技术终究只是实现目标的工具，关键在于如何设定更清晰的改善目标，如何与企业现有的维护运营体系融合，如何推动组织文化的转变，实现企业运维模式的全面革新和升级。

THE END

工业大模型为什么落地很难？

<<上一篇

【案例】福田康明斯打造端到端全数字化智能工厂

下一篇>>