诊断试验参照基准的选择原则
在“诊断试验的参照基准”一文中,我们说要评价一个诊断试验的效果,必须有一个基准与之相比。本期我们来介绍一下新诊断试验中参照标准的选择,并比较中美两国食品药品监督管理局在这方面的一些规定。
对于诊断试验中的参照基准的选择,中国食品药品监督管理总局(CFDA)2014年9月11日发布的《体外诊断试剂临床试验技术指导原则》和美国食品药品监督管理局(FDA)于2007年3月13日发布的《StatisticalGuidanceonReportingResultsfromStudiesEvaluatingDiagnosticTests》中分别作出了说明。
一、CFDA对参照基准的规定
CFDA对参照基准的规定相对来说比较简单,它根据诊断产品的种类来确定的参照基准。
(1)对于新研制的诊断产品,采用金标准作为参照基准,用进行临床研究的产品与诊断该疾病的金标准进行肓法同步比较。对用于早期诊断、疗效监测、预后判断等的诊断产品,在进行与金标准比较研究的同时,还必须对研究对象进行跟踪研究。
(2)对于“已有同品种批准上市”产品的临床试验,采用已上市且目前临床普遍认为质量较好的产品作为参照基准,同时应充分了解所选择产品的技术信息,包括方法学、临床使用目的和范围、主要性能指标、标准品或校准品的溯源情况、推荐的参考值(参考范围)等,以便对试验结果作出科学的分析与判断。采用试验用诊断产品与已上市产品针对临床样本进行比较研究试验,证明试验用诊断产品与已上市产品等效。
二、FDA对参照基准的规定
FDA对参照基准的规定作了比较详细的说明。FDA规定,参照基准的选择取决于是否存在金标准(参考标准)以及金标准的实用性,并且对各种情况下基准的规定有着比较详细的说明:
(1)有可用的金标准:用它来估计灵敏度和特异度。
从纯粹统计学的角度来说,FDA认为最好的方法是指定一个管理机构认可的金标准,并将其与新的诊断方法进行比较,而且受试者是目标用户群的代表。在这种情况下,估计的灵敏度和特异度都是有意义的。
(2)有可用的金标准,但其不实用:应尽可能使用它,计算灵敏度和特异度的估计值时要校正因为没有最大限度利用金标准而产生的任何偏倚。
如果将金标准应用于所有的受试者是不切实际或不可行的,则可以用新的诊断试验和比较基准(不同于金标准)检测所有受试者来估计灵敏度和特异度,并使用金标准检测其中的一部分受试者(有时也称为部分验证研究或两阶段研究)。
比如,用指定的金标准检测所有受试者中一个随机子集的人,或者检测所有新的诊断试验和比较基准结果不一致的受试者,同时检测结果一致的受试者中的一个样本,然后计算灵敏度和特异度调整后的估计值和方差,在这种情况下,FDA要求重新检测的样本数量足够以保证能以合理的精度来估计灵敏度和特异度。
(3)金标准不可用,或者对预期的特定用途和/或目标用户群来说不可接受:考虑是否能沟建一个标准。如果可以,则以构建的标准来估计灵敏度和特异度。
FDA的顾问小组或其他专家小组可以制定一套临床标准(或参照测试和确定性临床信息的结合)来作为指定的金标准。在这种情况下,FDA要求试验标签必须清楚地描述了所构造的指定的金标准,并且新的金标准必须独立创建,而不是来自于对新的诊断测试结果的分析(理想情况下,金标准应创建于收集任何样本之前);构建金标准之前可以咨询器械和辐射健康中心的医学官员和统计学家。
(4)金标准不可用且不能构建:计算和报告测量的一致性。
当新的诊断试验的评价是通过与非金标准试验的比较来进行的时候,无法直接计算得到无偏估计的灵敏度和特异度,因此,用灵敏度和特异度两个术语来描述比较结果是不恰当的;这时候,我们可以进行同样的数值计算,但计算得到的估计值被称为阳性一致性百分比和阴性一致性百分比,而不是灵敏度和特异度。这些估计值不反映准确性,可以体现新诊断试验和非金标准试验的一致性。此外,其他数值如阳性预测值、阴性预测值、阳性和阴性似然比也不能计算,因为受试者的健康状态(由参考标准来确定)是未知的。
在这种情况下,FDA要求用2x2表来呈现候选诊断方法和比较诊断方法的结果,描述比较诊断方法及其执行方法,并提供阳性和阴性一致性百分比及其可信区间。
采用术语“阳性一致性百分比”和“阴性一致性百分比”时需要特别注意,因为新的诊断试验相对于非金标准试验的一致性百分比数值上不同于非金标准试验相对于新诊断试验的一致性百分比。因此,在使用这些一致性的测量指标时,FDA要求清楚地描述所进行的计算。
一致性测量指标的一个主要缺点是,一致性不是“正确性”,两种诊断试验可能是一致的但是都是错误的。事实上,两种诊断试验可能一致性很好但是他们的灵敏度和特异度都很差,同样的,当两种诊断试验不一致时也并不表明新的诊断试验是错的而对照诊断方法是对的。
我们还应该知道,总体一致性测量指标(包括总体一致性百分比和Cohen’sKappa一致性系数)在这方面可能会产生误导。在某些情况下,即使阳性和阴性一致性百分比都很低,总体一致性也可以是不错的。因此,FDA不鼓励单独用总体一致性指标来衡量诊断试验的效果。