在 9 月份倫敦舉行的深度學習會議上,保持謙卑這個主題在演講者的發言中不約而同地出現。
盡管像谷歌這樣的公司還在自信地表示我們已生活在「人工智能時代」,語音和圖形識別領域的突破不斷出現,這些前沿的 AI 研究看來大有希望,但仍前路漫漫。那些像電影中一樣的數字語音助手并不代表我們已經創造了真正的人工智能。研究人員仍面臨著各種問題:缺乏足夠的數據來訓練深度學習系統;無法制造同時處理多項任務的人工智能;不知道如何讓這些系統運轉起來。在 2016 年,機器學習領域已經出現了高效的工具,但這些工具內部機制難以解釋,訓練成本高昂,甚至對于它們的創造者而言也是一個謎。以下列出了機器學習領域目前面臨的最大挑戰:
先收集數據,然后獲得人工智能
我們都知道,人工智能需要獲取數據進行訓練以感知世界,但往往忽略到底需要多少數據。「僅僅獲取人類用于理解和識別所需的信息量是不夠的,這些系統需要數百乃至數千倍這樣的信息以供訓練,」Sheffield 大學的教授,亞馬遜人工智能團隊成員 Neil Lawrence 說道,「縱觀應用級深度學習的成功案例,你會發現他們都獲得了海量數據。」在語音和圖像識別領域,這種現象尤為明顯。像谷歌和 Facebook 這樣的大型公司可以隨心所欲地截取大量數據「例如你在安卓手機上用于語音搜索的音頻」,這種優勢讓他們可以創造更有效的新工具。
Lawrence 認為:「數據就像工業革命時代的煤一樣舉足輕重。」他以 Thomas Newcomen 作為比喻,這位發明家在 1712 年發明了蒸汽機的原型—用煤作燃料,比眾所周知的詹姆斯瓦特早 60 年。Newcomen 的發明并不完美,相比瓦特的機器,前者低效而昂貴。人工智能或許也處在這樣一個時代,人們還只能努力從礦藏中不斷挖掘礦石作為燃料,抵消機器本身的缺陷。
Facebook 的開源圖像識別工具
全世界有很多 Newcomen 一樣的發明者正為他們的機器學習模型而努力,他們也許富有創造力,但沒有大數據的幫助,他們的夢想或許難以實現。像谷歌,Facebook 和微軟這樣的大公司是今天的數據煤礦。他們的海量數據可以讓他們應對仍然低效的機器學習系統,同時改進它們。規模較小的創新企業或許擁有好的想法,但沒有數據的幫助,一切都難以成真。
「在令用戶反感的情況下強制獲取數據是不道德的行為。」
談到如何獲取數據,這個行業面臨著更加尖銳的矛盾。在醫療領域,假如需要訓練一個使用 X 光照片識別腫瘤的人工智能,數據肯定難以獲取。正如 Lawrence 所說的,棘手的問題是「在令用戶反感的情況下強制獲取數據是不道德的行為。」(這也是阻礙谷歌和英國國民醫療服務機構之間合作的最大原因)。Lawrence 認為,最終的解決之道,在于提高深度學習系統的效率,讓機器使用更少的數據滿足訓練要求。就像三個世紀前瓦特所做的一樣,這可能需要另外一個 60 年。
只有昆蟲需要特化--人工智能必須能夠同時應付多任務處理
深度學習面臨的另一個重要問題:事實上,目前的系統幾乎都是一根筋。「當它們被訓練后,這些而機器可以高效地執行類似識別圖片中的貓、玩雅達利視頻游戲這樣的任務,」谷歌深度學習科學家 Raia Hadsell 說道,「然而能夠同時分辨圖像,玩『太空入侵』同時聽音樂的神經網絡,甚至理論方向都還未問世。」
這個問題比你想象的還要嚴重,當谷歌 DeepMind 在去年 2 月宣布他們的系統可以玩 49 款雅達利游戲的時候,這的確是一個了不起的成就。但每當他們的系統通關一個游戲后,研究人員都需要重新訓練神經網絡,好讓它能夠應付另一個。正如 Hadsell 指出的,還沒有人工智能可以同時學會多款不同游戲的玩法,對于機器而言,不同游戲的玩法會互相干擾。你可以讓神經網絡依次學習,但你會發現它會忘記在這之前的那款游戲的玩法。「想讓人工智能真正獲得智慧,我們需要讓它能夠學習多種任務的處理。」Hadsell 說道,「然而我們甚至無法讓機器學會不同游戲。」
要解決這個問題,我們可能會需要一種先進神經網絡,它可以整合一些不同的深度學習系統,作為接收者,為它們傳遞信息。在六月公開發表的一篇論文中,Hadsell 和他的團隊展示了他們的先進神經網絡如何適應并學習玩「Pong」,一種細節復雜的游戲「在其中一關,屏幕顏色會反轉;在另一關,搖桿的反應力度會改變」,他們的先進神經網絡比其他同類能夠更快地學會這款游戲并順利通關。
這是一種很有前途的方法,而且在最近的一些實驗中它甚至被應用到了機器臂上——將它們的學習過程從好幾周加速到了僅僅一天。但是,仍還存在一些顯著的限制,正如 Hadsell 指出的那樣:漸進的神經網絡不能簡單地不斷向它們的記憶中加入新任務。如果你不斷將系統集中到一起,或早或晚你都將會得到一個「太大以致于難以處理」的模型,她說。而那就是將不同的任務按本質上相似的方式進行管理的時候——創造出一個人類水平的智能,它能夠寫詩、解微分方程和設計一款完成不同的椅子。
只有你能展示你的工作方式的時候才是真正的智能
另一個重大的挑戰是理解人工智能是如何得出它們的結論的。神經網絡通常對觀察者來說是難以理解的。盡管我們知道它們是如何創建的和輸入它們的信息,但它們得出特定決策的原因卻通常是無法解釋的。
弗吉尼亞理工學院給出了這個問題的一個很好的展示。研究者創造了針對神經網絡的「眼部追蹤系統」,它可以在一開始就記錄計算機正在檢測哪些像素。這些研究者向他們的神經網絡展示了一張臥室的照片,然后問該人工智能:「什么遮住了窗戶?」他們發現這個人工智能根本不會去看窗戶,而是在看地板。然后,如果它發現了一張床,它就會給出答案:「是窗簾遮住了窗戶。」這正好是正確的,但這只是因為該網絡接受訓練的數據很有限而已。根據它曾經看過的照片,這個神經網絡總結得出:如果是在臥室,那么窗戶上就會有窗簾。所以當它看到一張床時,它就停止檢查了——在它眼里,它已經看到了窗簾。這在邏輯上說得過去,但也很可笑。還有很多臥室沒有窗簾!
眼部追蹤是了解網絡內部部分工作方式的一種方法,而另一種方法則是從項目一開始就在深度學習系統構建更多的一致性(coherence)。實現此目標的一種方法是重新使用一種老舊的已經不再流行的機器學習方法——符號人工智能(symbolic AI),或者叫做良好的老式人工智能(GOFAI:Good Old-Fashioned Artificial Intelligence),帝國理工大學的認知機器人學教授 Murray Shanahan(他也是電影《機械姬》的科學顧問)如是說。這種方法基于一個假設:心智活動可以簡化成基本的邏輯,其中世界是由復雜的符號詞典定義的。通過結合這些符號——其代表了行為、事件、物體等等——你就能合成思維。(如果按這種方式創造人工智能聽起來是一件很怪異的、不可能完成的任務,那想象一下在運行于磁帶上的計算機上實現它。)
Shanahan 的提議是我們將 GOFAI 的符號描述和深度學習結合起來。這將為系統提供一個理解世界的起點,而不只是向其饋送數據然后等著它們發現其中的模式。他說,這可能不僅能解決人工智能的透明性問題,而且還能解決 Hadsell 提出的遷移學習問題。「可以說 Breakout 和 Pong 是非常相似的,因為它們都有拍子和球,但人類水平的認知是在更加驚人的尺度上得出這種類型的聯系的,」Shanahan 說,「就好像原子結構和太陽系結構之間的聯系一樣。」
Shanahan 及其帝國理工大學的團隊正在研究這種新方法(他們將其稱為深度符號強化學習(deep symbolic reinforcement learning)),并且已經發表了一些小實驗。這種方法仍處于起步階段,它能否擴展到更大的系統和不同類型的數據上還有待觀察。但是,它很可能會得到更大的發展。畢竟,深度學習本身也曾是人工智能中一個無人問津的領域,直到近年來有了廉價的數據和充裕的處理能力之后深度學習才迎來爆發。也許是時候從人工智能的過去再次引爆一種方法了,以便將人工智能的能力應用到新的環境中。