从诊断试验角度看AI医疗软件临床评价

13903　 2020-10-10 11:47:55

招仲恒随着5G和云计算技术的不断发展，深度学习辅助决策软件（以下简称AI软件）得到越来越广泛的应用。AI软件在影像数据的辅助评阅上有很大的应用潜力，其处理速度快、病灶识别灵敏度高，对阅片经验不足的临床医生的工作能起到很好的辅助作用。2019年7月，国家药品监督管理局医疗器械技术审评中心发布全球首个关于人工智能医疗器械的技术审评要点——《深度学习辅助决策医疗器械软件审评要点》（以下简称《审评要点》），并于今...

招仲恒

随着5G和云计算技术的不断发展，深度学习辅助决策软件（以下简称AI软件）得到越来越广泛的应用。AI软件在影像数据的辅助评阅上有很大的应用潜力，其处理速度快、病灶识别灵敏度高，对阅片经验不足的临床医生的工作能起到很好的辅助作用。

2019年7月，国家药品监督管理局医疗器械技术审评中心发布全球首个关于人工智能医疗器械的技术审评要点——《深度学习辅助决策医疗器械软件审评要点》（以下简称《审评要点》），并于今年先后批准了多款AI软件产品。虽然我国在AI软件上已经进行了一定程度的探索性应用，但目前暂无具有病灶定位功能的影像辅助决策软件获批上市，如何对该类软件进行临床评价值得探讨。

与传统诊断试验类似

根据《审评要点》，申请AI软件注册应提交基于临床试验的临床评价资料。从临床试验角度出发，AI软件的临床试验本质上是诊断试验，因此，在试验设计上与传统诊断试验具有相似特征。如今年8月获批的“糖尿病视网膜病变眼底图像辅助诊断软件”用于糖尿病视网膜病变的诊断，其主要指标为灵敏度和特异度，而评价结果为简单的二分类变量，即“患病”或“未患病”，临床试验设计特征与传统诊断试验基本一致。

若AI软件针对的疾病不涉及病灶的定位要求，其临床试验设计较为简单，采用传统诊断试验设计即可。若AI软件针对的疾病具有病灶定位要求（如CT影像中对肺结节的识别及定位、内镜影像下对息肉的识别及定位等），则其临床试验与传统诊断试验设计存在一定差别，包括灵敏度的定义、ROC曲线的绘制、非完美金标准的校正等。如何合理地评价具有病灶定位功能的AI软件产品的性能及临床价值，是此类临床试验的重点与难点。

回顾性研究可作为重要参考

是否能采用回顾性研究进行AI软件临床试验是大部分申请人关注的重点之一。回顾性研究是基于现有的评价数据对AI软件的诊断性能进行评价，这种试验设计具有实施容易、成本低廉、试验时间短等优点。因此，回顾性研究是注册申请人最感兴趣的临床研究设计方式。

产品是否能进行回顾性研究应优先根据其风险级别进行选择。根据《审评要点》要求，对于安全级别为B、A级的中低风险AI软件，回顾性研究可用作预实验或替代临床试验，而安全级别为C级的高风险AI软件，回顾性研究可作为预实验，为临床试验设计提供参考依据。对于大部分具有病灶定位要求的AI软件，其安全级别为C级。

除法规上的考量外，在临床试验方法学上，回顾性研究还存在一些难以避免的严重偏倚。因此，采用回顾性研究必须有严格的偏倚控制措施。

一般来说，由于回顾性研究存在固有缺陷，不推荐对AI软件采用回顾性研究进行临床评价，但回顾性研究在产品性能评价和为临床试验作参考时具有重要价值。

境外申请人通常较为关注是否能采用境外AI软件临床试验数据进行注册申报。对于这个问题，《审评要点》有明确说明。其中，进口AI软件的研发和验证应当优先考虑人种及流行病学特征，一般来说，临床影像在人种上的差异可能较小，境外申请人应优先关注流行病学方面的问题。包括相关疾病的流行病特征（如发病率、不同疾病类型的分布等）、疾病诊断差别（如临床诊断指南的差异等）、不同国家和地区的医疗水平（如影像设备的水平差别）等。对于拟采用境外数据进行申报的申请人，在提交境外数据之前应考虑上述流行病学差异问题，并在提交资料前积极与国家药监局医疗器械技术审评中心沟通。

优先考虑前瞻性研究

鉴于回顾性研究存在诸多难以控制的试验偏倚，AI软件的临床试验应优先考虑前瞻性研究，尤其是具有病灶定位能力的AI软件产品。

按照《审评要点》要求，AI软件的临床试验应基于软件预期用途、使用场景和核心功能进行试验设计。虽然不同的AI软件针对的疾病类型各不相同，但其试验设计和统计方法类似。

根据《审评要点》，入排标准应基于目标疾病的流行病学特征，保证阳性样本和阴性样本选取的合理性和充分性。在实际入选患者时，可结合产品的特点选择具有特定特征的患者样本。如针对肺结节识别的AI软件，可选择需进行肺结节筛查的高危人群。

采用该方法入选的病例具有很好的样本代表性，但该方法入组时间较长，成本较高；另一种比较折中的入选病例方法是有针对性地入选患者，由研究者根据患者体征、症状等综合判断其是否应该接受影像检查，该方法较有针对性，也是诊断试验中比较流行的一种做法，但为进一步避免选择偏倚，在实施这种入组方法时应在试验方案中对每一种疾病类型/严重程度的样本量比例进行规定。

在评价指标方面，根据《审评要点》的要求，原则上选择灵敏度、特异度、ROC/AUC等作为主要评价指标。对于用于病灶定位的AI软件，其灵敏度应在病灶水平上进行统计。当临床试验选择用户结合软件联合决策与用户单独决策进行优效对照设计时，可选用ROC/AUC作为主要评价指标。此时，研究者需要在没有AI软件辅助的时候单独找出影像上的病灶，并对这些病灶进行5级把握度评分（肯定不是病灶、可能不是病灶、无法确定、可能是病灶、肯定是病灶），然后再在有AI软件辅助的情形下，重新按上述方法进行病灶评价。需要注意的是，采用此种方法进行评价时应注意阅片的随机顺序，以避免研究者的记忆偏倚。如有可能，建议可在两次阅片之间设置一定的洗脱期。

诊断正确应定义为在正确的位置上识别出正确的病灶。以阅片数据中对每个病灶的5级评分作为截断值，即可建立相应的ROC曲线。常见的曲线绘制方法有定位ROC曲线法（LROC）、因变量自由ROC曲线法（FROC）及感兴趣区域ROC曲线法（ROIROC）等。

LROC要求研究者对图像上某处至少一个病灶进行把握度评级，然后选出最有可能是病灶的区域，对于同一影像中的多个病灶，多出来的病灶不多加分。因此，该方法比较适用于患者病灶数目不超过1的情况。对于每例患者病灶数目超过1的情况，可采用FROC进行评价。此时，曲线的纵坐标为灵敏度（正确定位的病灶比例），横坐标为每个个体的平均假阳性数。ROI-ROC将检测区域分为有临床意义的ROI，如肺结节检测时的五段肺叶、乳腺癌检测时的左右乳房等，要求研究者识别并定位所有疑似病灶，并对这些病灶进行把握度评分，然后将上述评分进行ROI映射。若真实病灶被判定为“疑似”，则该处得分就是该ROI的得分；若真实病灶检测出错，则此时的ROI得分为最低把握度。以上述ROI的不同分级为截断值即可构建ROC曲线，然后采用3级或4级作为截断值即可构建出相应的灵敏度及特异度指标，对AI软件的诊断性能作出综合评价。

实际进行病灶定位类AI软件临床试验时，试验方案中应有全面的偏倚控制考虑，包括操作偏倚、评价偏倚等。临床试验结果的评价应优先采用第三方独立评价的方式。同时，在统计上也应对聚类数据、不完美金标准等进行数学上的校正，以科学、合理地评价产品临床性能。