인공지능/기계학습 의료기기 훈련 데이터셋의 관리
MLMD(Machine Learning-based Medical Device)는 질병의 진단·예측과 같은 고도의 임상적 결정을 지원하기 위해 전자의무기록(Electronic Medical Record, EMR), 의료 문헌, 임상시험 데이터, 영상 데이터 등 다양한 출처의 훈련 데이터셋을 활용합니다. 이러한 데이터셋의 품질은 알고리즘의 성능뿐 아니라, 환자 안전과 직결되는 의료기기의 유효성 및 신뢰성에 직접적인 영향을 미칩니다.
따라서 제조자는 훈련 데이터셋의 수집, 관리, 검증, 갱신 등 전 과정에 걸쳐 체계적인 관리 절차를 갖추어야 합니다. 이는 단순한 연구 개발 관리가 아니라, 규제 준수(Regulatory Compliance)의 영역에 속합니다. 실제로 FDA(미국), EMA(유럽), MFDS(한국) 등 주요 규제기관은 AI 기반 의료기기에 대한 ‘데이터셋 관리 및 검증의 투명성’을 평가의 핵심 요소로 보고 있습니다.
훈련 데이터셋의 관리 정책은 제조자와 의료기관 간의 협의에 의해 설정될 수 있으며, 데이터의 출처, 품질관리 기준, 편향(Bias) 최소화 전략, 업데이트 주기 등이 포함되어야 합니다. 데이터셋의 변경이나 확장은 성능에 중대한 영향을 줄 수 있으므로, 변경 관리(Change Management) 절차에 따라 추적 가능하게 기록하고, 필요한 경우 재검증 절차를 수행해야 합니다.
특히 의료기기 소프트웨어(SaMD)에서는 훈련 데이터셋이 단순한 개발 자원이 아니라 ‘의료기기의 일부’로 간주될 수 있습니다. 이에 따라 품질경영시스템(QMS) 내에 데이터셋 관리 조직을 명시하고, 정기적인 내부 품질 감사와 성능 평가 활동을 수행하는 것이 바람직합니다.
3줄 요약
1. 훈련 데이터셋은 의료기기 성능뿐 아니라 환자 안전에도 직접적인 영향을 미칩니다.
2. 규제기관은 데이터셋의 품질관리, 편향 방지, 변경 이력의 투명성을 핵심 심사 항목으로 봅니다.
3. 제조자는 데이터셋을 의료기기의 구성요소로 인식하고, 품질경영체계(QMS) 내에서 관리해야 합니다.