各有關單位:
? ? ? ?根據(jù)國家重點研發(fā)計劃專項課題《人工智能醫(yī)學信息系統(tǒng)軟件審評指導體系構建》的要求,由我中心負責起草的《超聲影像人工智能診斷軟件技術審評指導原則》等11項人工智能醫(yī)學信息系統(tǒng)軟件指導原則(見附件)已經(jīng)完成制定流程,并通過專家組審定,現(xiàn)予以發(fā)布,供參考。
? ? ? ?附件:
? ? ? ?1.超聲影像人工智能診斷軟件技術審評指導原則
廣東省藥品監(jiān)督管理局審評認證中心
2022年12月13日
本文為附件1:
超聲影像人工智能診斷軟件技術審評指導原則
本指導原則是人工智能醫(yī)學信息系統(tǒng)軟件審評指導體系構建的組成部分,基于人工智能醫(yī)療器械審評指導原則的通用要求,細化了超聲影像人工智能診斷軟件的一般要求。
本指導原則是供超聲影像人工智能診斷軟件的研發(fā)、生產(chǎn)和技術審評使用的指導性文件,不涉及相關行政審批事項,亦不作為法規(guī)強制執(zhí)行,應在遵循相關法規(guī)的前提下使用本指導原則。
本指導原則是在現(xiàn)行法規(guī)和標準體系以及當前認知水平下制定的,隨著法規(guī)和標準的不斷完善,以及科學技術的 不斷發(fā)展,在使用過程中應對相關內(nèi)容適時進行調(diào)整。
本指導原則適用于超聲影像人工智能診斷軟件的技術審評。該類產(chǎn)品通常作為軟件組件集成在影像型超聲診斷設備中。若作為獨立軟件運行通用計算機平臺,可以參考本指導原則的要求。
該類產(chǎn)品的核心功能是采用深度學習等人工智能算法對超聲影像數(shù)據(jù)進行處理、測量、分析等,包括非輔助決策類功能和輔助決策類功能,前者如生理結(jié)構自動識別及生理參數(shù)自動測量等,后者如病灶特征識別、病灶性質(zhì)判定等。
超聲影像人工智能診斷軟件集成于超聲診斷設備中時,產(chǎn)品名稱、分類編碼、型號規(guī)格、結(jié)構組成與所集成產(chǎn)品保持一致。產(chǎn)品技術要求中應體現(xiàn)基于人工智能算法的軟件功能的相關信息。若有輔助決策類軟件功能,結(jié)構組成(若適用)和適用范圍應予以體現(xiàn)。
產(chǎn)品名稱應符合通用名稱命名規(guī)范要求。通常體現(xiàn)超聲檢查項目(如產(chǎn)前超聲、乳腺超聲)、預期用途(如影像處理、乳腺結(jié)節(jié)輔助檢測)等特征詞。例如:產(chǎn)前超聲影像處理軟件、乳腺結(jié)節(jié)超聲影像輔助檢測軟件等。
依據(jù)《醫(yī)療器械分類目錄》,分類編碼為21-04-02。
型號規(guī)格應給出產(chǎn)品的型號和軟件發(fā)布版本。
結(jié)構組成應明確軟件交付方式(如光盤/U盤安裝、網(wǎng)絡下載),結(jié)合網(wǎng)絡部署情況給出軟件功能模塊,應體現(xiàn)出應用人工智能算法的所有模塊。
適用范圍需明確處理對象、核心功能、適用人群、目標用戶、臨床用途。例如,可供適齡女性乳腺腫瘤篩查及體檢人群使用,供經(jīng)培訓合格的超聲科、婦科醫(yī)生或技師使用。
基于人工智能算法的功能,應重點描述以下內(nèi)容:
詳述工作原理,明確具體的功能模塊(如胎兒切面自動識別功能)、使用的超聲硬件(包括超聲診斷設備及探頭)要求、以及成像模式(如B模式)。
明確臨床工作流程,工作流程中使用申報產(chǎn)品的時間(如在超聲醫(yī)師檢查過程中使用,或在檢查結(jié)束后使用)。
基于參考文獻及已上市同類產(chǎn)品說明該功能當前的臨床實踐,包括傳統(tǒng)算法及人工智能算法的應用。
詳細介紹產(chǎn)品技術要求及說明書中對應的臨床功能、量化分析(如自動測量)的具體內(nèi)容、操作設置、運行界面和報告界面的細節(jié)。明確算法自動生成的信息、輸出結(jié)果以及哪些可以修改。說明功能模塊失效時對超聲診斷的影響等信息。
基于人工智能算法的功能,應重點描述以下內(nèi)容:
需詳述產(chǎn)品的適用人群、感興趣區(qū)域、以及預期使用該產(chǎn)品的目標用戶。
需明確產(chǎn)品臨床應用的禁忌證以及器械使用限制,包括導致器械無效且不應使用的疾病、病癥、異常。
(三)非臨床資料
明確軟件發(fā)布版本和版本命名規(guī)則。軟件版本命名規(guī)則原則上需涵蓋算法驅(qū)動型更新和數(shù)據(jù)驅(qū)動型更新,明確并區(qū)分重大軟件更新和輕微軟件更新,其中重大軟件更新列舉常見典型情況。
基于人工智能算法實現(xiàn)的功能模塊,性能指標應注意以下內(nèi)容:
軟件功能明確所有臨床功能綱要。例如,支持神經(jīng)自動識別功能(需明確必要的信息,如支持的探頭、可自動識別的神經(jīng)、識別后的表現(xiàn)如目標增強等);乳腺結(jié)節(jié)檢出、BI-RADS分類結(jié)果、乳腺結(jié)節(jié)測量功能(如體積、面積、前后徑、上下徑、橫徑、相位、距離等);胎兒標準切面自動識別(需明確具體切面)及參數(shù)測量等。
使用限制明確應用場景(如篩查、輔助診斷等)、患者情況(如年齡、生理結(jié)構或疾病類型、可檢查的器官/疾病/病灶/異常限制)、超聲診斷設備及探頭、成像模式、超聲影像質(zhì)量要求(如乳腺掃查時的灰度對比、深度及穿透力適當?shù)囊蟮龋?/span>
接口明確輸入數(shù)據(jù)模式/類型(如灰度圖、三維容積圖)、特定軟硬件名稱和型號(如適用)。
若含有基于測評數(shù)據(jù)庫測試的性能指標,可參考《人工智能醫(yī)療器械注冊審查指導原則》。
軟件研究相關資料包括軟件研究資料、網(wǎng)絡安全研究資料、算法研究資料三部分。
依據(jù)已發(fā)布的《醫(yī)療器械軟件注冊審查指導原則》、《醫(yī)療器械網(wǎng)絡安全注冊審查指導原則》、《移動醫(yī)療器械注冊技術審查指導原則》、《人工智能醫(yī)療器械注冊審查指導原則》等指導原則提交相關資料。網(wǎng)絡安全方面還可參考《人工智能醫(yī)學軟件產(chǎn)品網(wǎng)絡安全技術審評指導原則》的有關內(nèi)容。
測量功能提供測量準確性的研究資料。數(shù)據(jù)資源(如參考數(shù)據(jù)庫)明確數(shù)據(jù)種類以及每類數(shù)據(jù)的樣本量、數(shù)據(jù)分布等情況。
該類產(chǎn)品的軟件安全性級別為中等(B)級及以上。
應基于《人工智能醫(yī)療器械審查指導原則》提交算法研究資料。根據(jù)超聲影像人工智能產(chǎn)品的特點需要細化之處如下。
(1)輸入應明確檢查的器官/疾病/病灶/異常及應用(如心臟結(jié)構自動識別)、掃查條件、成像模式、臨床使用限制、超聲診斷設備及探頭的型號、軟件運行環(huán)境,輸出應明確算法的輸出和自動生成的診斷結(jié)論;
(2)如具有通過檢測操作者掃查手法來引導標準切面的獲取算法,應明確掃查手法標準、標準切面判定標準。
產(chǎn)品設計應充分考慮國內(nèi)和國際公認的相關領域的超聲診療指南,跟蹤最新版本,如美國放射學會推薦的“乳腺超聲影像報告和數(shù)據(jù)系統(tǒng)(BI-RADS)”等。
明確產(chǎn)品的使用場景、操作者、適用人群,如允許操作者為非超聲醫(yī)師(如技術員、護士),應重點描述。
明確算法訓練數(shù)據(jù)集要求,明確預期采集各分型/分期/分級樣本、陰性樣本、各特征樣本的數(shù)量和分布要求,明確采集的超聲診斷設備及探頭信息、掃查部位、成像模式、圖像分辨率/探測深度等、以及人群分布(性別、年齡、地域、基礎疾病等)、醫(yī)院級別、 醫(yī)院數(shù)量等要求。根據(jù)產(chǎn)品的預期用途和使用場景盡可能多采集數(shù)據(jù),例如來源于多家、多地域、多層級的代表性臨床機構,以及多家、多種、多參數(shù)的代表性采集設備(如適用)。
用于疾病/病灶/異常檢測的人工智能算法,應結(jié)合流行病學特征納入一定量陽性樣本。用于正常生理結(jié)構識別的人工智能算法,應明確保證樣本多樣性的方法以及異常樣本的排除情況。
受超聲系統(tǒng)硬件(探頭、數(shù)模芯片、處理器性能等)、成像參數(shù)(信號采集濾波、波束合成、重建方法、增益補償、圖像調(diào)試等)設置、系統(tǒng)平臺參數(shù)等因素的影響,不同廠家的超聲系統(tǒng)平臺的圖像在風格、顆粒度等方面往往存在較大差異。因此,難以做到一個模型兼容所有廠家超聲系統(tǒng)平臺的數(shù)據(jù)進行部署。如果采用多種超聲系統(tǒng)平臺的數(shù)據(jù),需明確數(shù)據(jù)分布,對樣本的組成、比例、分群分布特征、數(shù)據(jù)的多樣性和接近應用場景的程度開展分析,并以書面形式提供可驗證的指標,以確定數(shù)據(jù)的代表性。
明確算法性能評價目標。如標準切面識別指標的準確性、實時性等,測量指標的準確性、重復性等,病灶檢出指標的召回率、精確度等。需提供文獻綜述論證評價指標的定義、計算公式及確定依據(jù)。應能夠滿足預期臨床使用需求。
建議參考《人工智能醫(yī)療器械注冊審查指導原則》及YY/T 1833.2《人工智能醫(yī)療器械?質(zhì)量要求和評價?第2部分:數(shù)據(jù)集通用要求》。同時注意以下方面的內(nèi)容。
詳述采集過程的采集設備(含超聲診斷設備及探頭)、采集特征、采集人員管理、采集流程、采集質(zhì)量評估要求、數(shù)據(jù)脫敏要求。其中采集特征應當考慮采集設備的采集方式(如靜態(tài)/動態(tài)影像、成像模式)、采集參數(shù)(如超聲探頭頻率、探頭陣元數(shù)、側(cè)向和軸向分辨率、深度、圖像放大倍率等要求)。采集人員管理詳述采集人員數(shù)量、資質(zhì)、培訓方式和考核方式等。采集流程詳述入排標準、掃查手法、留圖要求等。若使用歷史數(shù)據(jù),至少應明確采集設備、采集參數(shù)、圖像質(zhì)量的要求等。
采集的圖像數(shù)據(jù)不應包含患者隱私信息,需說明數(shù)據(jù)脫敏的技術手段。
數(shù)據(jù)預處理需明確數(shù)據(jù)轉(zhuǎn)移保存的方法。明確預處理的操作步驟和內(nèi)容,如數(shù)據(jù)格式轉(zhuǎn)化、尺寸裁剪、歸一化、去除無用信息等。原始數(shù)據(jù)庫的預處理過程若與算法運行的預處理過程存在差異,應加以說明并納入風險分析。
明確數(shù)據(jù)清洗的方法(如:人工、自動或兩者結(jié)合)、工具(如有)、規(guī)則等,例如是否已完成數(shù)據(jù)脫敏、是否滿足圖像唯一性、圖像標識或圖像內(nèi)容是否與檢查部位相關、常規(guī)切面是否遺漏、動態(tài)圖像是否連續(xù)、探頭工作頻率和探頭深度是否滿足要求、圖像質(zhì)量是否滿足要求等并加以篩選。清洗結(jié)果明確棄用的數(shù)據(jù)量和原因。
數(shù)據(jù)標注建議參考YY/T 1833.3《人工智能醫(yī)療器械質(zhì)量要求和評價?第3部分:數(shù)據(jù)標注通用要求》。?
建議列表給出標注、審核、仲裁人員的基本信息,如科室/專業(yè)、職稱、工作年限、所在機構、培訓考核情況、工作量。明確標注對象(如超聲靜態(tài)或動態(tài)圖像中某解剖結(jié)構區(qū)域、某病灶及其位置等)、標注形式(根據(jù)任務的不同可有不同的標注形式,如切面類型標注、病灶位置標注、病灶性質(zhì)標注等)、標注工具及平臺、標注環(huán)境、標注規(guī)則等。
標注工具及平臺應支持超聲數(shù)據(jù)格式或其轉(zhuǎn)化后數(shù)據(jù)格式的顯示功能,如DICOM格式數(shù)據(jù)、視頻格式數(shù)據(jù)、圖片格式數(shù)據(jù)、文本格式數(shù)據(jù)等。如標注工具、標注平臺使用人工智能算法進行輔助標注,需提交標注工具、標注平臺算法性能研究資料。
標注規(guī)則需明確參考依據(jù),如指南、專家共識等。
明確標注過程的分歧處理方法、控制偏倚方法、標注質(zhì)量評估方法、以及追溯方法等,輔以流程圖說明標注流程。
對于標注前的基礎數(shù)據(jù)庫,標注后劃分的訓練集、調(diào)優(yōu)集、測試集,應給出樣本量和分布情況及其確定依據(jù),以及集合劃分的方法、依據(jù)。訓練集原則上需保證樣本分布具有均衡性,測試集、調(diào)優(yōu)集原則上需保證樣本分布符合真實情況。為確保測試結(jié)果的合理性,在劃分數(shù)據(jù)集時,還應確保訓練集、調(diào)優(yōu)集、測試集所采樣的病例兩兩無交集。樣本分布應主要考慮超聲診斷設備及探頭種類/型號、成像模式、掃查參數(shù)、掃查部位/切面、疾病/病灶/異常分級/分期/分型等,以及人群分布(性別、年齡、地域、基礎疾病等)、來源醫(yī)院等因素。
數(shù)據(jù)擴增應符合《人工智能醫(yī)療器械注冊審查指導原則》的要求。?
3.4算法驗證與確認
(1)算法性能評估
應根據(jù)功能模塊的具體任務制定算法性能評估指標、目標值,提供制定依據(jù)并論述其合理性。例如,圖像分割任務可采用DICE系數(shù)、mIOU等指標來評價;圖像分類任務可采用準確率、靈敏度、特異性、ROC曲線等指標來評價;目標檢測任務可以采用mAP等進行評價。以乳腺結(jié)節(jié)BI-RADS特征分類為例,通常臨床上認為當BI-RADS分類<3時,可不進行臨床干預,當BI-RADS分類≥3則需要進行臨床干預。那么,除使用靈敏度、特異性等對算法在各特征上的整體性能進行評價外,從臨床實際意義出發(fā),分層級對各特征性能進行統(tǒng)計分析就顯得尤為必要。同時,還應考慮算法的重復性和魯棒性。
明確測試樣本量估計的公式、參數(shù)及制定依據(jù)?;跍y試集提供算法性能評估結(jié)果,以證明算法性能滿足設計目標。
若有掃查手法檢測模塊,應選擇合適的評價指標驗證其算法性能。
應進行算法性能影響因素分析。詳述影響算法性能的主要因素及其影響程度,基于分析結(jié)果明確產(chǎn)品使用限制和必要警示提示信息。
主要性能影響因素包括但不限于超聲診斷設備及探頭、成像模式、超聲影像質(zhì)量要求(如乳腺掃查時的灰度對比、深度及穿透力適當?shù)囊蟮龋?、患者情況(如年齡、生理結(jié)構或疾病類型、可檢查的器官/疾病/病灶/異常限制)等,應論述其合理性。
人工智能算法功能模塊可在多個不同平臺/超聲診斷系統(tǒng)(含探頭)運行的,應論述算法確認所用平臺/超聲診斷系統(tǒng)(含探頭)的代表性。明確相關安全性、有效性、實時性評價指標,如標準切面識別的準確性、圖像增強效果的有效性、實時性等。明確樣本量及估算依據(jù)。
目前尚無超聲相關測評數(shù)據(jù)庫,原則上應基于臨床評價方式進行算法確認。
對于軟件安全性級別為嚴重級別或在基層醫(yī)療機構使用/非超聲醫(yī)生使用的產(chǎn)品,原則上需單獨提供一份用戶培訓方案,包括用戶培訓的計劃、材料、方式、師資等。
用戶培訓需關注以下內(nèi)容:預期用戶要求,如工作年限或執(zhí)業(yè)資格;醫(yī)生必須對軟件結(jié)果進行確認,軟件只用于輔助檢測,不能替代醫(yī)生;明確圖像質(zhì)量要求(如有掃描質(zhì)量問題的超聲圖像慎用);禁忌情況,如基于臨床試驗驗證,不宜使用該軟件的疾病。
臨床評價應基于核心功能或核心算法,結(jié)合產(chǎn)品的預期用途和成熟度予以綜合考慮。
針對成像和后處理的非輔助決策類軟件功能,如心臟標準切面識別,原則上可基于核心功能進行同品種醫(yī)療器械比對,并開展一定數(shù)量的人體圖像樣本研究(區(qū)別于訓練集、調(diào)優(yōu)集、測試集的樣本數(shù)據(jù))。但全新的功能、算法、用途原則上需基于臨床試驗數(shù)據(jù)開展臨床評價。
輔助決策類軟件功能,如乳腺結(jié)節(jié)良惡性判斷,應基于核心算法進行同品種醫(yī)療器械比對,所選同品種醫(yī)療器械的臨床證據(jù)原則上需基于臨床試驗。全新的功能、算法、用途原則上均需開展臨床試驗。臨床試驗一般選擇同品種產(chǎn)品或臨床金標準進行非劣效對照設計,非劣效界值的確定應當有充分的臨床依據(jù)。原則上選擇靈敏度、特異性、ROC/AUC作為主要評價指標,亦可在此基礎上根據(jù)軟件特點選擇敏感性/特異性衍生指標、ROC/AUC衍生指標、組內(nèi)相關系數(shù)、Kappa系數(shù)、時間效率等指標作為次要評價指標。臨床試驗的機構應避免訓練數(shù)據(jù)的主要來源機構。
說明書應符合《醫(yī)療器械說明書和標簽管理規(guī)定》和《醫(yī)療器械軟件注冊技術審查指導原則》、《醫(yī)療器械網(wǎng)絡安全技術審查指導原則》、《人工智能醫(yī)療器械注冊審查指導原則》和相關標準的規(guī)定。
對預期用戶和推薦用戶培訓的詳細說明。如,預期用戶工作年限或執(zhí)業(yè)資格要求,且需經(jīng)培訓合格。
若產(chǎn)品采用人工智能黑盒算法,需根據(jù)算法影響因素分析報告,在說明書中明確產(chǎn)品使用限制和必要警示提示信息。
示例:不應僅僅依靠本軟件所標識的輸出,應由專業(yè)醫(yī)師對結(jié)果進行解釋。
已發(fā)現(xiàn)該器械對于XX的受檢者無效。具有這種疾病/病癥/異常的受檢者不應使用該器械。
對訓練數(shù)據(jù)、測試數(shù)據(jù)與臨床試驗的算法性能評估結(jié)果不佳,數(shù)據(jù)量偏少的,此類受檢者使用該器械,應由專業(yè)醫(yī)師結(jié)合受檢者的病史、癥狀、體征、其他檢查結(jié)果情況綜合給出最終的檢查結(jié)論,核實是否需要進行下一步診療的決策,并對臨床診斷結(jié)果負責。
明確圖像質(zhì)量要求(如有不符合要求的超聲圖像慎用);
醫(yī)生必須對軟件結(jié)果進行確認,軟件只用于輔助檢測/診斷,不能替代醫(yī)生。原始的軟件結(jié)果應保留,確保軟件結(jié)果的可追溯性與可責性。
需明確與器械使用相關的不良事件,并提供緩解措施建議。對輔助決策類,不良事件討論需至少包括對假陽性事件和假陰性事件的不良事件的討論。
-算法設計和功能的概述,如有特殊聲明,如用于繼發(fā)性結(jié)節(jié)或更小結(jié)節(jié)檢測,可以特別說明。
-研發(fā)和調(diào)整算法中所用的受檢者數(shù)據(jù)的參考標準的描述
需明確軟件發(fā)布版本、運行環(huán)境(含硬件配置、外部軟件環(huán)境、網(wǎng)絡環(huán)境,若適用)、安全軟件兼容性列表(若適用)、外部軟件環(huán)境與安全軟件更新(若適用)、現(xiàn)成軟件清單(SBOM,若適用)等要求。
7.產(chǎn)品接口和聯(lián)合使用設備
需明確對配合使用的圖像工作站(如PACS)適當顯示器械標記的要求(如適用)。
若該軟件部署于超聲設備外接計算介質(zhì)內(nèi),需明確與其兼容的超聲設備廠家、設備型號、探頭型號等。
8. 輔助決策類產(chǎn)品的算法訓練總結(jié)
9. 輔助決策類產(chǎn)品的算法性能評估總結(jié)
-用于確定器械標記的每個區(qū)域的性質(zhì)的評分標準
-分層分析(如,根據(jù)病變大小、病變類型、采集參數(shù)、成像或數(shù)據(jù)特征)
-獨立FROC性能(如適用),需和操作特性曲線一起說明。
需包括臨床試驗設計基本類型、研究對象(受試者及閱片者情況)、評價指標,金標準、對收集臨床信息方法的描述、統(tǒng)計方法描述、樣本量,臨床試驗結(jié)果。
11.公開數(shù)據(jù)庫及測試結(jié)果(如有)
12.第三方測評數(shù)據(jù)庫及測試結(jié)果(如有)
13.決策指標定義(或提供決策指標定義所依據(jù)的臨床指南、專家共識等參考文獻)等信息。(如有)
除了符合質(zhì)量管理體系法規(guī)及相關規(guī)范要求外,還可關注《人工智能醫(yī)學軟件產(chǎn)品現(xiàn)場檢查指導原則》的相關要求。
廣東省藥品監(jiān)督管理局審評認證中心、深圳邁瑞生物醫(yī)療電子股份有限公司、深圳開立生物醫(yī)療科技股份有限公司。
[2]醫(yī)療器械說明書和標簽管理規(guī)定[Z].
[3]醫(yī)療器械注冊申報資料要求和批準證明文件格式[Z].
[4]醫(yī)療器械通用名稱命名指導原則[Z].
[6]?醫(yī)療器械產(chǎn)品技術要求編寫指導原則[Z].
[7]醫(yī)療器械軟件注冊審查指導原則(2022年修訂版)?[Z].
[8]醫(yī)療器械網(wǎng)絡安全注冊審查指導原則(2022年修訂版)?[Z].
[9]人工智能醫(yī)療器械注冊審查指導原則[Z].
[10]人工智能類醫(yī)用軟件產(chǎn)品分類界定指導原則[Z].
[11] YY/T 0316,醫(yī)療器械 風險管理對醫(yī)療器械的應用[S].
[12] YY/T 1833.1,人工智能醫(yī)療器械 質(zhì)量要求和評價 第1部分:術語[S].
[13] YY/T 1833.2,人工智能醫(yī)療器械 質(zhì)量要求和評價 第2部分:數(shù)據(jù)集通用要求[S].
[14]?YY/T 1833.3,人工智能醫(yī)療器械 質(zhì)量要求和評價 第3部分:數(shù)據(jù)標注通用要求[S].
[15] T/AII?004,面向人工智能的乳腺超聲數(shù)據(jù)采集與標注技術規(guī)程[S].