一、概述
1、方法:在项目(型号)的早期即着手编制关键项目清单(CILs),以在设计状态冻结前识别和可能消除关键项目,并将其作为对硬件和软件设计、试验和检验的策划活动的输入。在寿命周期中的任务运行期间使用关键项目清单CONTROL ENGINEERING China版权所有,以对故障进行管理,保证任务成功。2、益处:通过编制和保持关键项目清单,尽早识别、跟踪和控制关键项目,将为研制生产工作提供有价值的输入。通过形成关键项目清单的活动可以识别关键的设计特性、试验、检验点和程序,并加以控制,进而使任务失败和生命丧失的概率降至最小。3、已成功使用该方法的项目:固体火箭发动机助推器(RSMB)、航天飞机主发动机(SSME)、固体火箭助推器(SRB)和外贮箱(ET)。
二、背景
开展“失效模式和影响分析”(FMEA)去识别失效模式。作为该过程的一部分,也就识别了可能导致生命丧失和任务失败的关键失效模式。然后,把这些关键失效模式列入“关键项目清单”。为了有计划地进行控制CONTROL ENGINEERING China版权所有,应通过落实检验要求、试验要求和/或使失效模式出现概率最小的专门的设计特性或设计更改,对关键项目清单作认真的审查。失效模式、影响分析以及由此产生的关键项目清单不仅能作为对系统可靠性设计的一种检查,而且也能作为产品或服务的主要设计动力。可靠性管理包括为使一个给定产品在规定的环境条件下得到适当的性能,对设计、制造、试验和运行的可靠性分析进行协调的活动。可靠性管理与项目管理、设计、制造、试验和检验以及质量的职能均有接口。通过编制和准备可靠性计划、完成具体产品的设计分析、支持传统的可靠性分析活动并应用并行工程的方法使项目/产品工作组加入的形式,实施可靠性管理(见NASA TM-4322 GD-ED-2204)。进行FMEA/可靠性关键项目分析过程(如图1所示)在可靠性管理中起了关键作用。FMEA/可靠性关键项目分析过程的主要输出是关键项目清单。
图1
三、关键项目清单和保留的理由
在集高技术和多学科于一身的航天项目研制早期,形成并保持关键项目清单的作用,己改变了人们对其的认识。通过失效模式影响分析(FMEA)识别关键项目。FMEA的过程包括对一个复杂系统中的每一个硬件或软件单元的每一种失效模式进行由下而上的分析,进而确定失效对系统“最坏情况”的影响。如果某项产品有一种失效模式可能导致机毁人亡和任务失败,则该项目/产品即被列入“关键项目清单”。在项目整个寿命周期中,与设计过程同时开展FMEA,并形成关键项目清单是极其有效的。FMEA将识别“单点失效”(SFPs)和关键冗余项目。典型的单点失效定义为其失效可能导致机毁人亡和任务失败或运载系统损坏单个硬件产品(通常在部件级)。不允许在设计中保留单点失效是NASA的基本政策。除非特殊情况,如技术、操作或费用等原因妨碍设计这样去做。允许单点失效点存在需要提出判据或理由,说明所采取的措施、安全余量、失效防范措施、试验或检验可以保证硬件的关键项目不会以FMEA中指出的模式失效。硬件或软件产品被列入关键项目清单的典型理由包括设计、试验、检验、故障历史和操作使用方面的下述信息:1.设计原理:在硬件或软件单元设计中确立的设计特征和/或设计余量,应降低失效模式出现的概率CONTROL ENGINEERING China版权所有,和/或减少或消除导致该失效模式产生的潜在原因。2.试验原理:应说明在验收和验证试验期间,为检出潜在失效原因而完成的特定试验。3.检验原理:应说明在硬件或软件制造、装配和总装过程中,为检测失效模式的敏感性,或发现和评估出现失效模式的概率及其潜在的原因所采用的特定的检验方法、程序、工具和技术。4.故障历史:故障历史和纠正措施作为允许单点失效点存在于关键项目清单中的理由之一,应说明作为一种潜在危险的以前失效的原因已经排除或减少,并提供趋势分析。5.操作使用原理:为预防特殊的失效模式或一旦发生这种失效模式可减轻其影响的特定的操作技术,作为允许其存在的理由的一部分。它包括飞行规则、机组程序这样的因素,如应急停止特征或专门的机组培训。它还包括紧急行动,如舱外活动和意外的飞行中维修程序。图2为关键项目保留的过程。
图2
四、有效实施关键项目清单(CIL)的建议
1.FMEA的结果与故障树分析(FTA)和危险分析(HA)的相互关系:FMEA/CIL的资料可作为危险分析过程的输入。危险分析采用故障树,基本上是一个由而上而下的分析方法,它关注的是人为差错以及FMEA/CIL基本规则所没有考虑的多个非相关失效模式。2.采用概率风险评估:在为产品研制组提供一个洞察安全因素和强调关键项目或单点失效保留的理由方面,概率风险评估已被证明是有用的程序。如果可以证明故障风险被降至一个可接受的低水平,则安全余量对尚存的潜在失效模式或关键项目的可接受性有很大的影响。3.工艺、设备和设施关键项目分析:制造、组装和试验工艺、设备和设施的失效,对飞行硬、软件避免造成任务失败或生命威胁只有非直接的影响。尽管如此,进行工艺、设备和制造设施的FMEA,对其失效可能影响系统性能或可用性的关键项目的识别,提供了有价值的帮助。如果硬件制造巧妙地使用统计过程控制方法,可帮助发现可能导致性能或进度受到影响的那些即临失效的条件。4.关键项目的计算机辅助管理:与使用电子信息处理技术相结合的通用编号系统可以加快CIL的实施和管理过程。对许多系统单元来说,当失效模式或原因相同或相关时,这些失效模式或原因可以参照,而不必重复,从而减少了保留理由中的文字量。如果有了通用编号系统,则关键项目清单可能更易借鉴由故障树分析和危险分析得到的相应信息。5.CIL作为路径图(road-map)保留的理由:在硬件和软件方案中,初期提出的CIL保留的理由可以用作研制计划、试验与检验的路径图。进而,为防止任务、飞行器的失败以及人员生命的丧失,可对研制方案的内容作专门的剪裁。这种路径图可用来识别检验点,并有助于避免相同硬件过多的连续检验。开展CIL的工作方式不应影响重要的项目里程碑或在费用、进度或性能方面产生增加不必要的重复工作(work-around)。例如需要能迅速处理关键项目中偏差的方法。
五、关键项目清单的应用
CIL有很多应用,其中较重要的应用是(1)为了满足可靠性要求和避免失效控制工程网版权所有,在设计过程的前中、后期,对一个产品、过程或项目(型号工程)的分析;(2)评价设计、材料或制造变化对可靠性的影响;(3)对试验期间经历的故障进行评估;(4)避免故障重复出现的设计更改建议;(5)确定所保留的对任务是致命的,或对生命有危险的单点失效或冗余失效模式的风险。一些有助于设计的FMEA/CIL方法典型应用的具体例子如下:1.“挑战者”事故后,对空间实验室的重新认证在“挑战者”事故后,对空间实验室的重新认证期间,FMEA揭示了惯性指向系统(IPS)紧急投掷电路中的一个潜在的单点失效,将造成使应急解除保险开关短路的条件,进而可能引爆所有4个NASA标准点火器。分析还揭示供配电分离装置(harnessseparator)在这些情况下不点火。对供配电部分进行的详细FMEA还揭示了几个对任务关键、必须予以纠正的不正确的接线。此外,还发现有效载荷保持门锁组件需要一个冗余工作模式。结果,增加了冗余终端开关。
2.固体火箭发动机(RSRM)项目的再设计在对RSRM关键项目清单的常规评审和评价期间CONTROL ENGINEERING China版权所有,发现关于完成喷嘴连接3和4的表面二次密封的规范保留一个1类危害度等级(它是危害度为1的失效模式,但带有第二个或备份的系统)是不恰当的。在二次密封表面允许深达50 u(0.001英寸)的缺陷。而在主(一次)密封处,为了保证融合,只要有3u深的缺陷也必须返工。CIL分析表明,事实上存在一个危害度为1的(可能丧失生命)危害。
3.航天飞机主发动机((SSME)独立风险评估在SSME 1209号的轴承外壳中发现污染时,为了对问题作出评估并确定发动机飞行是否安全,成立了一个专门的独立风险评估组。评估组为了了解故障和可能潜在的安全危险问题,在很大程度上依赖于NASA/马歇尔空间飞行中心和SSME承包商人员过去业已完成的FMEA/CIL的分析。评估组确认了保留产生污染条件的理由,并判断发动机对飞行是安全的。以后的成功飞行(多次任务)表明该发动机没有潜在的失效。
六、结束语
关于现有的和将出现的与失效识别、管理和控制有关的项目(型号)的广泛分析工作已形成了很好的处理关键项目的文件化的、严格的程序。项目的工程与管理的并行工程方法,在设计过程中以及在低得多的产品层次上较早地关注更多细节。保证成功意味着消除或减少潜在的失效模式。消除或减少潜在的失效模式,只能通过在方案/设计阶段早期,考虑应用失效模式和影响分析、关键项目识别(FMEA/CIL)以及谨慎的工程管理来实现。FMEA/CIL过程的好处是:(1)能系统地认别所有可信的失效模式和原因;(2)把关键的单点失效和冗余程度作为重点;(3)为关键失效模式/原因提供风险可接受的依据;(4)提供对关键项目,以及相关的程序、规范和过程的管理控制;(5)提供一份与给定项目(型号)有关的唯一的一致的全部关键项目表。