人生中頓悟的一刻到來時,阿姆農·沙舒瓦還是一個年輕的計算機專業(yè)本科生。那時他正坐在耶路撒冷一所大學的圖書館里閱讀一篇用希伯來語撰寫的文章,當時他興奮地發(fā)現(xiàn),在很多方面,人的視網膜與計算機十分相似。文章的作者是西蒙·厄爾曼,計算機視覺研究先驅大衛(wèi)·馬爾的第一位博士生,也是人類與機器視覺專家。意識到人類的眼睛中也進行著計算后,沙舒瓦對這一過程十分著迷,他決定追隨厄爾曼的研究腳步。
在麻省理工學院,沙舒瓦師從計算機視覺科學家湯米·波喬和埃里克·格里姆森。波喬的研究涉及神經科學和計算機科學,而格里姆森后來成了麻省理工學院的副校長。當時,從捕捉到識別形狀的過程中看似沒有障礙,但實際上編寫識別軟件卻十分艱難。即便是在今天,“場景理解”的目標仍可望而不可即,例如,不僅識別出一個女人,同時也要識別出她可能做些什么。人們也僅是在一些小的領域取得了值得注意的進步。舉例來說,現(xiàn)在很多汽車都能夠及時識別出行人或自行車,從而在發(fā)生碰撞前自動減速。
通過腳踏實地鉆研這些瑣碎的技術,沙舒瓦逐漸成長為一位大師。在學術世界,腦科學家與計算機科學家還在爭論不休的時候,他的立場很簡單:“飛機不會扇動翅膀,但這并不意味著它們不能飛?!?/div>
研究生畢業(yè)后,沙舒瓦回到了以色列。而在這之前,他還開辦了自己的公司Cognitens,利用視覺建模技術對工業(yè)零部件進行精準三維建模。這些圖像能準確到頭發(fā)絲的級別,讓從汽車到航天領域的制造商們能夠對現(xiàn)有零件進行數字化建模,從而檢查其是否合適。不過,他很快就出售了這家公司。
在尋找新項目時,沙舒瓦從以前一位汽車行業(yè)內的老客戶口中聽說,有汽車制造商希望能夠實現(xiàn)加強計算機輔助駕駛的立體視覺技術。他們對沙舒瓦在多視覺幾何領域的工作有所了解,于是詢問他是否也對立體視覺有想法。他回答說:“這很好,不過你并不需要一個立體系統(tǒng),一臺簡單的攝像機就夠了?!彼赋?,在某些情況下,人類在閉上一只眼睛的情況下仍然能夠判斷距離。憑借自己創(chuàng)業(yè)家的功力,沙舒瓦成功說服通用汽車公司投資20萬美元用于開發(fā)演示軟件。他立即叫來了自己在商界的朋友謝夫·阿維拉姆,并建議創(chuàng)辦一家新公司。他們給新公司起名叫“移動眼”(Mobileye),沙舒瓦親自編寫了臺式機展示用的軟件,然后展示了攝像頭的機器視覺,這對當時的汽車制造商來說就好像是科幻小說一般。
項目開始6個月后,他從一個汽車行業(yè)的大型供應商處得知,通用汽車公司計劃展開一場競標,尋求一種用來警告駕駛員車輛偏離車道的方式。在這個項目上花了幾個月的時間后,沙舒瓦在車道中保持行駛的軟件寫得初有成效,但沙舒瓦卻意識到,對于愿意率先起步的公司來說,這可能還不夠好。因此,這家羽翼未豐的公司很難一舉勝出。
后來,他有了一個好主意。他在這款軟件中補充了車輛檢測功能,但告訴通用汽車公司這個功能存在錯誤,不要在意。“在下一個版本中我們會解決它,所以你們可以忽略它?!彼f。這一句話就已足夠,通用汽車公司為能夠以低成本檢測其他車輛從而提升車輛安全性的想法欣喜若狂,于是決定立即取消投標,并承諾為這家新公司提供項目資金。車輛檢測能夠推進新一代安全功能的研發(fā),這些功能并不會取代駕駛員,而是通過隱形的傳感器、計算機安全網來增強車輛的安全性能。諸如車道偏離預警、自適應巡航控制前方碰撞預警和防碰撞制動等技術正在迅速向前發(fā)展,并成為汽車的標準安全系統(tǒng)。
移動眼有機會成為全球汽車行業(yè)最大的人工智能視覺技術提供商之一,但沙舒瓦卻有著更宏大的想法。在先后創(chuàng)建了兩家公司之后,2001年,他到斯坦福大學繼續(xù)自己的博士后研究,并與塞巴斯蒂安·特龍共用一間辦公室。兩人終將成為自駕駛汽車的先驅。
沙舒瓦追求的目標與特龍一致,但他的方法卻更務實,而不是天馬行空式的“登月”風格。他一直深受導師波喬的影響,后者一直崇尚用生物方法來研究視覺,這不同于依靠日益增強的計算機簡單粗暴的力量來識別物體的方法。
移動眼視覺系統(tǒng)“眼”中的世界
像谷歌一樣,這些以色列人也進行過深入研究,開發(fā)出了自動駕駛所必需的技術。谷歌可能會計劃與新貴特斯拉合作,發(fā)起對汽車行業(yè)的競爭,但沙舒瓦卻對汽車行業(yè)的文化極其敏感,這從移動眼目前合作的客戶中就可以窺見。這意味著他的視覺系統(tǒng)設計必須控制成本,即使是高端汽車,花費也不能超過數百美元,而對一輛普通的雪佛蘭轎車,成本甚至不可以過百。
谷歌和移動眼采用了不同方法來解決相同的問題,他們需要幫助車輛知曉周圍的情況,在高速條件下,這些判斷需要優(yōu)于人類的準確度。谷歌的系統(tǒng)需要通過雷達、視頻、Velodyne LIDAR傳感器對汽車周圍的環(huán)境進行精細到厘米級別的測繪,增強通過街景車采集到的數據。這些谷歌汽車是通過與谷歌云的無線連接來獲得地圖數據的。這一網絡對谷歌汽車導航系統(tǒng)來說就好像一根無形的電子拐杖,確認著傳感器看到的周圍世界。
全球地圖數據庫能讓谷歌的工作變得更容易。谷歌的一位工程師透露說,在這一項目啟動之后,他們驚訝地發(fā)現(xiàn),這個世界上竟然有這樣多的變化。不僅高速公路的車道經常會因為維護等問題而出現(xiàn)變化,“連整座橋都會移動”。他說,即使不依靠數據庫,谷歌也能做到很多似乎只有人才能辦到的事情,比如無縫地融入高速公路的車流,或是在車水馬龍的密集市區(qū)應對時停時走的交通。
與配有《星際迷航》啟動音的谷歌汽車不同的是,移動眼在切換如自動駕駛模式的時候只有一個小小的視覺提示。移動眼奧迪在高速公路上飛駛,有時候速度會超過每小時90公里。在通向死海的峽谷中蜿蜒盤旋而下時很難感到放松。而在一輛自駕駛汽車中,對新手駕駛員來說,非常具有挑戰(zhàn)性的是前方有車因紅綠燈而放慢了速度的時候。這需要所有人的意志力:讓腳離開剎車板,并給予這輛車足夠的信任。果然,它逐漸減速,平穩(wěn)地停在了前面那輛車后。
谷歌汽車帶給人們的體驗是一種分離感——幕后那些略顯怪異的機器智能設備,還有那些遙遠的云計算機。而與此形成鮮明對比的是,2013年的測試階段證明,移動眼汽車能讓車上的乘客敏銳地感覺到機器援助的存在。這款車需要在車道內略微移動,然后結束停車狀態(tài)并絕塵而去——這樣的行為無法激發(fā)人們的信心。不過,如果你了解底層技術,這樣的插曲就不會那么讓人害怕了。移動眼奧迪的視覺系統(tǒng)采用了一個“單眼”相機。第三個維度——深度,是通過沙舒瓦和他的研究人員設計的一個巧妙的算法計算得出的,這一技術也被稱為“從運動中構建”,只需要略微移動車身,這輛汽車就能繪制出前方世界的3D地圖。
自駕駛汽車的下一階段將在2020年之前到來——車輛將接手日常駕駛任務,不僅在塞車時,每天通勤的路上也是。通用汽車公司將這一功能稱為“超級巡航”(Super Cruise),它標志著人類司機的角色將會出現(xiàn)轉變——從手動控制到監(jiān)督。
本文內容摘選自湛廬文化出品的《與機器人共舞》一書。