随着时间的推移和工艺、设备以及人员的变动,报警管理可能会变得难以驾驭。这样的情况就发生在一家同时使用分布式控制系统(DCS)和可编程逻辑控制器(PLC)来进行自动化控制的美国南方一家制造业工厂的混合单元里。随着时间的推移,工厂的报警管理已经没什么效率了,并且变得很难管理了。工厂的领导们明白他们不得不改变现状,因为报警正在拉低工厂的产能和效率。
报警管理的统计数据显示操作员在当班的时候有35%的时间被报警轰炸,25%的报警在闪烁,每个操作员会有超过80条报警未处理。闪烁的报警对于操作员来说是很分散精力的,因为它们没有什么显著的、立刻发生的后果。操作员们承受着报警的轰炸。然而,如果不了解产生这些报警的背景,他们很难处理这些报警,并且这会对操作员有效执行其工作的能力产生影响。
工厂团队决定将超过9000个输入/输出(I/O)迁移到艾默生的DeltaVDCS以及DeltaV安全仪表系统(SIS)中。 可是当该团队迁移到新的系统之后,又产生了新的报警,而且报警数量上升了。接下来发生的事情对于以前的控制系统来说是不可能实现的。工厂团队决定不仅‘驯服’新的报警,而且要‘驯服’老的报警,从而建立了一个可以更加高效地管理整个报警系统的程序。DCS里面的新功能可以很容易完成这些做法。
设定报警管理目标
该团队首先关注的目标是为了解决报警管理的所有方面而建立一套合理的指导方案(请见图1)。该方案要满足ANSI/ISA-18.2-2016 过程工业报警管理系统的标准以及各种工业标准,例如每小时每个操作员少于6个报警、每个操作员的报警轰炸时间少于1%、以及每个操作员的未处理报警少于9个。
图1 :一套成功的报警管理策略的核心是一个可以引导项目的明确目标和计划。本文图片来源:艾默生
为了捕获并报告报警指标CONTROL ENGINEERING China版权所有,该团队安装的软件也包括了报警主数据库。自动生成的报告很快就设置好,确保资源在正确的时间内被用于正确的地方。这些报告也会特别标注那些降低不佳指标数字所需要完成的工作。
管理:如果没有管理层的支持,改善报警系统的项目不会有很大的发展。需要管理层支持时间安排、批准费用、对工作组要求的时间作出承诺(特别是维护保养的时间)、并且选派一位对报警系统和代码熟悉的过程现场的负责人。
班组负责人:指派各个班组的负责人来执行该系统。他们会审核未处理的报警、强化对报警汇总画面的使用、并且在每个班组内对抑制的以及令人烦恼的报警的硬拷贝进行审核。
报警管理主题专家(SME):SME面向细节并且足够持久稳固,可以每周一次对每个班组进行抑制的或忽视的报警进行审核、创建一个解决问题的计划、以及快速消除抑制因素。同时,SME也与现场人员对于报警系统的健康状况进行月度审核,确定前10到20名操作不当的人员,进而创建修正行为的行动计划。
多元化团队:为了对报警需求获得更广阔的视野,这个团队由来自许多专业的人员构成:了解现场报警管理的控制系统专家、生产专家、资深控制盘操作员、以及工艺工程师(该名额会定期变更,目的是要让每个工厂区域的专家都参与进来,而且可以协助将来的应变管理的审批)。
报警文档管理和合理化
有了管理层的支持、专职负责的人员以及到位的预算,工作才真正开始。团队开始评估风险并对报警进行恰当的排名,因为这有着很广阔的背景因素,而且可以针对于每个报警有关的场景进行讨论。每周4天,每天8小时,连续工作6个月,工作组分别查看了每一条报警(总计超过18,000条)并且对不同的场景评估了风险和排名。如果在风险/排名矩阵中的一个场景对于一条报警是有效的,那么矩阵就规定了报警的优先级。研究显示大多数“报警”并不是合格的真实报警。其结果是,团队决定留下大约5300条启用的报警。对于每条启用的报警,时间延迟以及动态报警代码都被记录在文档里。
新设计的文档系统主数据库现在已经符合了ISA 18.2的标准,它包括了报警标签、报警类型、报警设定值、可能的诱因、偏差导致的后果、修正行为以及可允许的响应时间。然而,工厂是有着特定的需要满足的要求。因此,主数据库也包括一些附加信息,例如报警启动及关闭延迟、启用条件及时间延迟、禁用条件及时间延迟、以及应变管理(MOC)注释。
报警的延时策略
过去,在行动清单上控制工程网版权所有,修正闪烁的报警是第一位的。在系统转换到新的DCS的过程中,出现闪烁的报警的原因是没有任何报警启动和停止的延时。通过合理化的努力,大部分的报警停止延时最终被设定为20秒,然后团队决定根据不同情况设定一些更长的延时。大多数的报警经过合理化设置了10秒钟的启动延时,不过每种情况都单独确定采用更长或更短的启动延时合适与否。
延时报警启动和停止实施了延时对于报警矩阵起到了很明显的改善。事实上,第一阶段的闪烁的报警数量从总报警数量的25%降到了不到4%。对着项目的进行,闪烁报警数量降到了月度报警总数的0.25%以下。
DCS编码策略
在下一阶段有更大的麻烦在等这该团队,即每小时平均数、未处理报警以及报警轰炸。
每小时每个操作员的报警数量:当工作组最初成立的时候,他们就获得了机组从建立以来的原始数据。
未处理报警平均数量:在DCS转换之后,团队意识到他们在不知情的情况下将不再存在的现场I/O点也转换了,这样就增加了更多的未处理报警。更多的报警显示仪表需要修理。未处理的报警考验了管理层的支持。维保经理专门派了一个人修理或拆除有问题的仪表。
报警轰炸百分比平均值:对于操作员来说,正确理解所有的数据CONTROL ENGINEERING China版权所有,在报警轰炸的情况占了其班组时间的35%以上时做出反应是非常困难的。尽管在研究之后,团队意识到报警数量暴涨的原因是那些正在处理中的闪烁的报警。可是,报警轰炸的情况可以很容易地埋葬了重要的报警。
要解决剩下的3个问题(每小时平均数、未处理报警以及报警轰炸),新的DCS里有可用的工具,它们是混合的或定制的模板及代码、开箱即用的功能以及客户管理。
团队没有选择使用开箱即用的DCS中的模拟量输入(AI)、数字量输入(DI)、以及比例-积分-微分(PID)功能块内部报警参数,因为工厂的报警策略有太多互斥的具有不同时间延迟的情况。取而代之,团队为这些情况创建了定制代码:由于互锁条件引起的直流模块失效报警、由失效仪表引起的不良过程变量(PV)报警闪烁、以及由操作员发起的机组停机进而引起可能持续20分钟的报警轰炸。不仅如此www.cechina.cn,艾默生的AMS资产管理软件通过使用仪表对维护方面的问题进行提醒来提供帮助(请见图2)。
图2:艾默生的AMS资产管理软件可以通过使用仪表和设备对维护方面的问题进行提醒来帮助实现报警的验证。
开箱即用的有条件报警参数被用于AI、DI以及PID模块的实施方面,仅仅通过增加一个20秒钟的报警停止延时,就在降低报警数量方面带来了巨大的改善。
团队创建了更高级别的用户账号, 使得管理人员和专家们可以对报警进行抑制或取消抑制。事实上,不是仅仅抑制一个报警CONTROL ENGINEERING China版权所有,他们可以将报警的设定点调整到更高或更低的数值上。通过授权管理者和专家们对报警设定值进行调整,报警仍然是启用的,必要的时候还会报警。对每个班组进行审核的时候,需要安全系统旁路表格的硬拷贝和令人厌烦的报警表格的硬拷贝(请见图3)。
图3:实施新的整体报警策略已经将每个操作员每小时的报警数量的持续平均值从15个减少到了低于5个。
持续的改善
工作有了回报。报警的数量得到了显著的改善,而且工厂现在也满足甚至超过行业可接受的标准。文档记录的所有报警数据的主数据库包括设定点、优先级、原因、操作员响应、结果、响应时间以及有条件报警(请见图4)。
图4:通过使用有条件报警,工厂可以显著地全面检查并改善其报警管理流程。
报警管理是一个永远没有尽头的持续改善的工作。如果不加以管理,报警数量会开始反弹上升。很重要的是要不断地问是否可以在报警平均值、未处理报警以及报警轰炸方面找到进一步消减的可能。同样重要的是要有一套包括文档记录和合理化报警的应变管理的流程。该流程必须要包含的一个要求是在报警被加入到DeltaV系统之前,每条新报警的数据库信息是完整的并且经过批准的。(作者:Jack Smith Editor)