美國加州舊金山谷歌人工智能(AI)研究人員Ali Rahimi去年12月對其所在研究領域進行了一次猛烈的抨擊,并獲得了40秒的掌聲。在一次AI會議上,Rahimi指責機器學習算法,即計算機通過反復試驗和糾錯來學習已經成為某種形式的“煉金術”。他說,研究人員并不知道為什么有些算法會起作用而另一些不會,他們在選擇一個AI架構而非另一個時也沒有嚴格的標準。在近日于加拿大溫哥華舉行的關于學習表現的國際會議上發表的一篇論文中,Rahimi和合作者列舉了他們所看到的“煉金術問題”,并為提高AI的嚴格性開了“藥方”。
“這個領域有一種痛苦?!盧ahimi說,“我們很多人覺得自己在使用一種完全不同的技術?!?/p>
這個問題與AI的再現性問題截然不同,由于實驗和出版實踐的不一致,研究人員無法復制彼此的結果。它也不同于機器學習中的“黑箱”或“可解釋性”問題:解釋某一特定AI如何得出結論的難題。正如Rahimi所言,“我試圖把機器學習系統的‘黑箱’與轉變為黑箱的整個領域區分開來?!?/p>
他說,如果不深入了解構建和訓練新算法所需要的基本工具,研究人員創建AI就會像中世紀的煉金術士一樣訴諸于謠言。加州山景城谷歌計算機學家Francois Chollet補充道:“人們被狂熱崇拜所吸引”,依賴的是“民間傳說和魔法咒語”。他舉例說,他們采用寵物的方法調整AI的“學習速率”(一個算法在每個錯誤之后會在多大程度上進行糾正),而不是了解為什么一個算法比其他的更好。在其他情況下,AI研究人員訓練其算法只是在黑暗中磕磕碰碰。例如,他們執行所謂的“隨機梯度下降”,以此優化一個算法的參數,以獲得盡可能低的失敗率。然而,盡管有數千篇關于這一主題的學術論文,以及無數應用該方法的途徑,這一過程仍然依賴于嘗試和糾錯。
Rahimi的論文強調了被浪費掉的努力以及可能導致的次優表現。例如,它指出,當其他研究人員從最先進的語言翻譯算法中去掉大部分的復雜性時,它實際上能夠把英語更好地翻譯成德語或法語,而且效率更高,這表明其創建者并沒有完全理解那些額外部分有什么好處。相反,英國倫敦推特網機器學習研究人員Ferenc Huszar說,有時候,附加在算法上的鈴聲和哨聲是唯一優秀的部分。他說,在某些情況下,算法的核心存在技術缺陷,這意味著其得出的好結果“完全歸因于在上面應用的其他技巧”。
Rahimi對了解哪種算法最有效提供了若干建議。他說,對于初學者來說,研究人員應該像翻譯算法那樣進行“切除研究”:一次刪除一個算法的某些部分,以查看每個組件的功能。
他呼吁進行“切片分析”,在此過程中,需要對一個算法的性能進行詳細分析,以了解某些地方的改進是否會在其他方面產生成本。他還說,研究人員應該對其算法進行許多不同條件和設置的測試,并報告所有測試的性能。
加州大學伯克利分校計算機學家、Rahimi煉金術主題演講論文的共同作者Ben Recht表示,AI應向物理學取經,該領域的研究人員經常把問題縮小到更小的“玩具問題”。他說:“物理學家在設計簡單的實驗以找到現象的解釋方面非常驚人?!币恍〢I研究人員已經開始采用這種方法,在處理大型彩色照片之前,先在小型黑白手寫字符上測試圖像識別算法,以更好地理解該算法的內部機制。
倫敦深度思維計算機科學家Csaba Szepesvari表示,該領域還需要減少對競爭性測試的重視。他說,現在如果一篇論文報告的算法優于某些基準,而非闡明該軟件的內部工作原理,就更有可能被發表。這就是花哨的翻譯算法通過同行評審的方式。“科學的目的是產生知識,”他說,“你需要生產出別人可以使用并可以它為基礎的東西?!?/p>
并非所有人都同意Rahimi和Recht的批評。臉譜網紐約首席AI科學家Yann LeCun擔心,把太多的精力從尖端技術轉移到核心理解上,可能會減緩創新,阻礙AI的實際應用?!斑@不是煉金術,而是工程學。”他說,“工程學是散亂復雜的?!?/p>
Recht發現一個適合系統性且允許冒險研究的地方。“我們兩者都需要。”他說,“我們需要了解故障來自哪里,這樣就可以建立可靠的系統;我們必須向前推進邊界,這樣就能沿著這條路線擁有更好的系統?!?/p>
摘自《中國科學報》