最近看到新聞,商業巨頭亞馬遜2016年推出圖像識別AI系統“Rekognition”,還積極向美國警方推銷以幫助其辦案。不過近日,“Rekognition”卻鬧了一個大烏龍:28名美國國會議員被它識別成了罪犯。
這一錯誤也讓發起這項測試、反對警方使用“Rekognition”的美國公民自由聯盟(ACLU)抓到把柄,他們表示,測試結果引起了民眾對警方使用該系統的嚴重擔憂。
雖然人工智能應用近幾年被吹得熱熱鬧鬧,場景也令人振奮,但真要付諸應用,人們仍然對這些系統信任度存在疑問。那么,怎么才能讓這些系統具有高可信性呢?這就要深入到每一個具體系統,進行科學分析。本月IEEE Spectrum發表一篇文章Making Medical AI Trustworthy具有一定參考價值。
醫藥工業領域是人工智能系統應用的理想之地。臨床檢驗結果、醫患之間的溝通都被處理成為電子病歷。AI系統可以摘要這些數據,從而給出性價比較高的治療方案。現在許多企業都在研發這種系統,但真正進入醫院應用的卻不多。
為什么會這樣?匹茲堡大學的醫學研究專家和物理學家Shinjini Kunda說:問題在于信任,雖然你有可行的技術,但怎么能獲取人們的信任并使用呢?
許多醫用AI系統是個黑盒子,輸入數據后得出答案。醫生們搞不懂它為什么要這么處理。所以,Kunda研究AI對醫學圖像的分析與解釋。她最近用AI分析膝蓋核磁共振圖像(MRI),分析3年內會發展為骨關節炎的可能性,使用“生長模型化”技術,用AI產生一個未來確定會發病的新圖像,并顯示支持其診斷的模式。
而人眼無法根據MRI圖像判斷患者3年內是否會得關節炎,但 AI程序則可以基于MRI掃描軟骨圖片的微妙變化,得出患者3年內得關節炎的概率。這些變化可能是醫生們沒有注意到或者無法觀察到的。
另外,微軟研究人員Rich Caruana十年來一直致力于一項研究,就是讓機器學習模型不僅是智能的,而且是可以理解的。他用AI通過醫院電子病歷去預計患者的結果。他發現,即使是高度精確的模型也隱藏嚴重的缺陷。
他曾經對肺癌患者進行數據統計,訓練機器學習模型區分入院的高危患者和可在家恢復的低危患者。該模型發現,心臟病患者較少死于肺炎,可作為低危人群。但實際上是,被診斷有肺炎的心臟病患者并不是低危人群,往往他們有呼吸困難時,就被及時送進急診進行治療。
所以,如果單單從結果看,機器學習模型發現的這種關聯性是正確的。但假如我們用這種關聯性去進行衛生保健,就可能讓某些患者喪命。鑒于此,由于這些麻煩的發現,Rich Caruana正在研究清楚顯示變量相關的機器學習模型,讓它判斷模型不但在統計意義上精確,而且能在醫學上可用。
由此看來,人工智能應用需要應用領域專家深入分析、嚴格的測試過程、有效的容錯技術,才能保證其應用系統的安全可靠,人們才能放心使用。
摘自《中國科學報》