專訪商湯科技聯(lián)合創(chuàng)始人林達華:一名AI人才,需要多少栽培?
編者按:本文來自微信公眾號“親愛的數(shù)據(jù)”(ID:deardata),作者:譚婧,36氪經(jīng)授權(quán)發(fā)布。
林達華,現(xiàn)任MMLab掌門。MMLab是香港中文大學(xué)多媒體實驗室,也是港中文-商湯聯(lián)合實驗室。掌門的大部分時間花在全球多個實驗室里,所以北京的記者想面對面采訪,未必是件容易的事。
最終,我們約見在人工智能(AI)界武林門派相聚的大場面——世界人工智能大會。
“全球智能領(lǐng)域最具影響力的科學(xué)家和企業(yè)家相聚于此地”的俗話,就不必提了。
拜見武林一流門派掌門人,腦中會有“作拱手抱拳狀”的想法。誰知,他幾句中英文混搭的表達,馬上把我拉回到AI的世界。林達華說話間始終帶著一種professor(教授)上課時特有的細膩與耐心,仿佛既可求教,亦可與其爭論。
修煉上乘武功,需入名門,拜名師。在學(xué)術(shù)界,地勢高是一種相對優(yōu)勢,雖然不是絕對優(yōu)勢,但是,研究者所處的平臺往往能起到?jīng)Q定性的作用。在很多懷抱著AI成才夢的學(xué)生眼里,MMLab是名門,林達華是名師。
今日的老師,亦是昨日的學(xué)生。
時間拉回到2012年,林達華獲得美國麻省理工學(xué)院計算機科學(xué)博士學(xué)位?!爱敵鯙槭裁床涣粼诿绹??”他應(yīng)該不是第一次被問到這個問題,而且,他也已經(jīng)做出了自己的選擇。
他笑了笑,給出了一些細節(jié)原因。
他說:“中國內(nèi)地和香港都有很好的環(huán)境,加入MMLab可以迅速地投入到研究工作中。香港中文大學(xué)和湯曉鷗老師都給了很多支持?!?/p>
可見當年,他選擇研究平臺的時候,沒有太多猶豫。
“在麻省理工求學(xué)最大的收獲是什么?”
他的回答是,接觸到不一樣的科學(xué)文化,學(xué)習到不同的研究思維。
他又強調(diào):“研究創(chuàng)新講求的是思維碰撞,我格外看重?!?/p>
這是一個需要被格外重視的要點,也是練功的不二法門。
他告訴我,碰撞,從而得到很多創(chuàng)新成果。這不僅是他的體驗,也是湯曉鷗老師的理念。既然重要,他就進一步解釋了“碰撞”。
他說:“湯教授也曾講過,新思想有賴于碰撞與交流。碰撞出來的想法對實驗室做創(chuàng)新很重要,使研究者站在世界前沿?!?/p>
回憶起在香港中文大學(xué)的研究生時光,他談道:“早期的人臉識別還沒有用到深度學(xué)習技術(shù)。我在麻省理工之后的學(xué)習,更偏統(tǒng)計學(xué)習與概率建模?;氐较愀壑形拇髮W(xué)任教時,正好身處深度學(xué)習的浪潮中,做的是深度學(xué)習。”
一個周期,往往是一個研究人員的半輩子,機會留給有準備的人。
林達華有一個很高的起點,而他繼續(xù)在這個高起點上積累,盡全力把學(xué)術(shù)研究和學(xué)生們推上一個新高度。
五年彈指一揮間,從2015年到2019年,MMLab累計拿下99篇CVPR,38篇ECCV,51篇ICCV,9篇NIPS。
如今的MMLab不再是一個武林門派,而屬于一派武林聯(lián)盟。
2019年是一個里程碑。
這一年,商湯科技及他們與多所全球知名學(xué)府共建的聯(lián)合實驗室,總共以57篇論文入選ICCV。算上同年CVPR被接收的62篇論文,累計有119篇論文入選全球兩大計算機視覺頂會。
人們常說,一切科研成績的背后,都是刻苦的鉆研、扎實的訓(xùn)練。其實還有更重要的后半句,這是更值得探索的關(guān)鍵——“什么是有效的訓(xùn)練?”
有了《九陽真經(jīng)》,也得講究如何以正確的法門練功,走火入魔了怎么辦?
“做research(研究)最重要的是什么?”
林達華說:找到真正的挑戰(zhàn)在哪里。
邁入MMLab,林達華希望學(xué)生,特別是剛進入學(xué)術(shù)研究領(lǐng)域的學(xué)生能夠深刻理解的第一個問題是:做research(研究)最重要的是什么?
“答案并不復(fù)雜?!绷诌_華說。
“做研究最重要的是,找到真正的挑戰(zhàn)在哪里。很多研究人員在實驗室里面拍拍腦袋,做一篇論文。雖然這個論文可能很成功,但是沒有什么應(yīng)用的價值。因為學(xué)術(shù)界想象的問題和產(chǎn)業(yè)落地需要解決的問題,它們之間有很大的gap(鴻溝)。”
他停頓一下,強調(diào):“研究人員在AI落地的過程中接觸到了真實的需求,從而發(fā)現(xiàn)學(xué)術(shù)界根本沒有注意到的事情?!?/p>
“MMLab的學(xué)生,不發(fā)非頂會論文,不發(fā)沒有突破的論文?!?/p>
這句話代表著林達華對學(xué)生的期望與要求。他不想讓學(xué)生在學(xué)術(shù)的路上有“另一種”學(xué)術(shù)思維和習慣。
在他的世界里,優(yōu)秀與非優(yōu)秀不是兩個不同的標準,而是在做兩件截然不同的事情。
論文對學(xué)者的學(xué)術(shù)高度有決定性意義。但是,從林達華對學(xué)生的栽培,從他對學(xué)術(shù)教育的理解來看,他的汗水不會浪費在——僅僅寫出“漂亮”的論文。
他要的是高質(zhì)量的創(chuàng)新,這是MMLab文化中更深層次的動機。
一心只想打敗別人的,會成為武林高手。一心思考創(chuàng)立武功門派的,會成為武林宗師。
只要稍微打聽一下,就能得知,今日的香港中文大學(xué)MMLab絕不缺生源,很多基礎(chǔ)扎實、成績優(yōu)秀的學(xué)生慕名而來。
林達華這樣描述剛剛邁進實驗室的學(xué)生,“很多學(xué)生第一年來MMLab,有一定的知識儲備,但是對如何做研究還處于起步階段?!痹谒壑?,每個學(xué)生的可塑性都非常強。
他直言:“MMLab對學(xué)生的期望是,畢業(yè)之后獨立開創(chuàng)一個方向,帶一個團隊?!?比如他看到,有不少他的學(xué)生畢業(yè)去了商湯就能直接lead(帶)團隊。
“進了實驗室之后,學(xué)生會接受什么樣的訓(xùn)練與培養(yǎng)?”
也許是第一次被問到這個問題,采訪時,林達華靜靜地思索了一會,拿出了一個“三階段理論”,讓我不得不迅速進入“記錄練功要訣”的狀態(tài)。
他強調(diào),MMLab沒有獨門培養(yǎng)秘籍,恰恰相反,這是一個AI領(lǐng)域的研究者必然經(jīng)歷的三個階段,也是人才培養(yǎng)的規(guī)律。
第一個階段,懂得怎么做一個project(項目),突出一個“領(lǐng)”字。
他會告訴學(xué)生,要做一個什么項目,往哪個方向探索,技術(shù)路線是什么。學(xué)生會在他指導(dǎo)之下,在師兄的協(xié)助之下,逐步自主完成一定數(shù)量的項目。
在一開始的時候,他會與學(xué)生一起仔細地討論“教授的指引與期望”。林達華強調(diào),在這個過程中,絕對不會強迫學(xué)生去做不愿意做的事情。他在說“絕對不會”這四個字的時候,特意加了重音。
因為,學(xué)生要做的事情,雖然是緊跟教授指引,但是學(xué)生必須提出自己的想法,明確自己感興趣的地方。
他再根據(jù)學(xué)生的想法,圍繞這個問題在學(xué)術(shù)上是不是真的有價值,朝這個方向做下去會不會遇到一些根本性的障礙等問題來來回回溝通。
這個過程可能會用一個月的或者更長時間。他認為,過程本身就創(chuàng)造了教學(xué)的意義。
他強調(diào):“目的是教授領(lǐng)著學(xué)生找到一個長期深入做下去的學(xué)術(shù)方向。”一開始,他可能會給學(xué)生較多的指導(dǎo),觀察學(xué)生,了解學(xué)生一步一步學(xué)習適應(yīng)的情況。學(xué)生在這個階段會在有指導(dǎo)的情況下,逐步開展研究。
此時,林達華第二次強調(diào),MMLab的學(xué)生不會發(fā)沒有突破的論文。因為目標定的低,是浪費學(xué)生時間。
他認為,思維方式和研究習慣的養(yǎng)成異常重要。如果從一開始就定位發(fā)非頂會論文,會養(yǎng)成“另外一種”思維方式,這種思維方式,不在實驗室培養(yǎng)體系之內(nèi)。這是從學(xué)生需要的視角再次去解讀為什么不發(fā)非頂會論文。
第二個階段,突出一個“獨”字。
林達華說,他會和學(xué)生一起定一個方向,但不會有細致入微的guidance(指引)。學(xué)生恐怕需要自己找資源,大多數(shù)嘗試甚至連數(shù)據(jù)集都沒有。
在林達華眼中,MMLab在很多比賽中名列前茅,那只是對學(xué)生的鍛煉。
他自信而又坦誠地說:“我們已經(jīng)完全超越了‘刷榜時代’,鍛煉學(xué)生用AI解決問題的能力,在我給他們制定的第一階段的長跑中就已經(jīng)完成了?!?/p>
第二階段的重點任務(wù)是開拓一個方向。
“我們會討論這個方向的目標是什么。可能連數(shù)據(jù)集都沒有,那就得自己建,把算法做出來,設(shè)計實驗,堅持到完成。這個時候,學(xué)生需要養(yǎng)成獨立完成一個高水平的項目的能力?!?/p>
林達華在描述“科研探索者”一種拾階而上的人生之路。多少練武之人一步一個石階的攀爬到“壁立萬仞”之下,抬頭一望,四字凜然。
他繼續(xù)介紹,第三個階段,也是畢業(yè)前的一個關(guān)隘,突出一個“闖”字。學(xué)生自己找到研究方向,獨立產(chǎn)生研究思路,堅持到底。
他再次強調(diào)了一下重點:“自己找挑戰(zhàn),自己找問題?!?/p>
“踏踏實實地經(jīng)歷以上三個階段,基本意味著畢業(yè)后可以獨擋一面?!边@是林教授的教誨,也是他心之所愿。
“學(xué)生個人的情況會有所不同,有的偏思考型,有的偏實踐型,有的偏工程型,我希望每個學(xué)生畢業(yè)后都會形成一條獨具個人特色的研究路徑?!?/p>
他又補充道。
“獨具特色”一詞被林達華格外看重。從某種程度上講,這個詞里包含一種“高質(zhì)量創(chuàng)新”基因。他言語中透露出那種對學(xué)生與生俱來的特色的珍視。
“無論學(xué)生是偏好研究還是偏好工程,都會找到自己的位置。有的學(xué)生畢業(yè)后愿意去商湯科技,因為今天的商湯科技已經(jīng)是一個計算機視覺領(lǐng)域的大平臺。有的學(xué)生愿意去美國繼續(xù)深造。”
林達華樂意看到種子發(fā)芽,拔節(jié)成長,至于選擇未來奮斗的土地是熱帶雨林,還是高原盆地,他不會給限制。
他的任務(wù)是把學(xué)生培養(yǎng)出來,并帶有MMLab的基因。
從培養(yǎng)一個個,到培養(yǎng)一批批。
湯曉鷗教授于2001年創(chuàng)辦了MMLab,十幾年過去了,它早已孕育出別具一格的研究文化。“我們?nèi)绾卫斫釳MLab的團隊文化呢?” 林達華答道,“我們當然有自己的文化?!钡?,思考了一會。
他說:“這也是我第一次總結(jié)實驗室的文化”。
第一、尊重。
尊重學(xué)生的創(chuàng)新想法。這里強調(diào)的不是分配研究想法,我們的角色是導(dǎo)師(adviser),這個角色的重點是引導(dǎo)學(xué)生形成研究的想法。
教授并不會在一線接觸數(shù)據(jù)和代碼,如果隨便地指手畫腳很可能會干擾學(xué)生的創(chuàng)新思維。
學(xué)生需要自己找到真正有價值的挑戰(zhàn)。當學(xué)生形成想法,他會拋給學(xué)生第一個問題——為什么這個問題之前沒有解決?
休想讓他直接告訴學(xué)生,你該做還是不該做。
這個問題可能做完文獻綜述之后,也未必思考得清楚。文獻綜述只是回答這個問題的其中一個環(huán)節(jié)。
為了解釋這個關(guān)鍵問題,他馬上舉了一個例子,像極了課堂上老師回答學(xué)生的追問。
“以時序算法為例,學(xué)生可能會說,以前的方法受制于十秒內(nèi)存的限制,處理幾分鐘或者更長時間視頻分析遭遇到困難,我要研究的問題和前人研究的有何不同之類的介紹?!?/p>
林達華說,這個問題不能讓學(xué)生僵化地回答,他會要學(xué)生盡量具體地回答,研究的問題和論文A有哪些不一樣,和論文B有哪些不一樣。”
第二,價值。
假設(shè)這個研究已經(jīng)做出來,價值在哪里?
他強調(diào)不局限于學(xué)術(shù)價值,而是給人類社會帶來的價值。
“還是以時序分段網(wǎng)絡(luò)為例,解決這個問題,就意味著拓展了AI處理視頻時長的能力,以前處理不了的視頻,現(xiàn)在可以通過技術(shù)手段處理了?!?/p>
他借用具體的研究來解釋思考問題的方式。
“如果要在學(xué)術(shù)上有所行動,首先要回答清楚這兩個問題。如果這兩個問題能夠處理好的話,需要研究的問題實際上就已經(jīng)成立了。”
他強調(diào),一個學(xué)術(shù)問題,不需要一堆問題來定義,一到兩個根本性問題就能夠?qū)⑦@個問題定義清楚。Adviser(導(dǎo)師)這一角色重點是在引導(dǎo)學(xué)生創(chuàng)造有價值的想法。
教與學(xué),答與問,日日修煉,夜夜參悟。
討論中的林達華攝影:譚婧
MMLab與AI獨角獸商湯科技如何合作?
“在回答問題前,我必須說,MMLab作為研究機構(gòu),與商業(yè)機構(gòu)比較起來,有著完全不同的使命。使命決定了目的地?!彼葟娬{(diào)了這一句,才開始回答我的問題。
這代表著,他對自己所領(lǐng)導(dǎo)的研究機構(gòu)的使命理解得非常清晰,是一個既熟于思考,又想得透徹的問題。
林達華說:“商湯能與很多不同的行業(yè)、對AI有不同需求的伙伴接觸,積累大量落地經(jīng)驗。這些經(jīng)驗對學(xué)術(shù)研究者非常寶貴。
MMLab會和商湯研究院,日常非常密切地交流。面對實際問題,商湯研究院先上,而面對更基礎(chǔ)性的問題,研究院會‘交棒’給實驗室?!?/p>
“交棒”的背后是充分的信任。
一個動作,兩層內(nèi)涵。
交棒的人完成了自己的任務(wù),抵達了自己的終點。接棒的人接受的不僅是工作,更是信任。
“拍拍肩膀,哥們兒,以后靠你了?!?/p>
接棒人,上場了。
背上是責任,也是期望。
“基礎(chǔ)性問題以研究課題式項目管理的形式來推進。實驗室不能保證研究過程中能夠100%把問題解決掉?!?/p>
他表達的時候,神情理性且堅定,又輕輕地搖了搖頭,強調(diào)了“研究的宿命”:“因為做研究沒有100%的保證。沒有?!?/p>
“但是?!彼哪樕下冻隽诵θ?,接著說道:“實驗室在研究這個問題的過程中,會提出很多非常有價值的思路。不僅如此,這些思路,研究團隊會做出實驗,做原型出來?!?/p>
接著,他又直接地表達了商湯和MMLab的關(guān)系,面容上,沒有任何意欲婉轉(zhuǎn)的意思。
“商湯是一家商業(yè)機構(gòu),要考慮營收,可能有些問題不能拖個一年半載。
這時候,實驗室的優(yōu)勢就會有所發(fā)揮,因為實驗室有很大的空間去做這件事,會發(fā)展出更加長期、更加創(chuàng)新的解決思路。商湯與MMLab有交流機制,保證‘發(fā)現(xiàn)問題,解決問題的閉環(huán)’不斷地循環(huán)。
實驗室創(chuàng)新的思路會在最短距離變成產(chǎn)品,而市場也會給與實驗室最直接的反饋?!?/p>
在林達華看來,產(chǎn)學(xué)研的呼聲喊了很多年,但是,很多機構(gòu)間的合作鏈條并不順暢,而商湯和MMLab的合作自然而又緊密。
研究資金,是一個頗有些引人注意的問題。
林達華清楚地介紹了研究資金的兩大來源,他說道:“一方面,香港中文大學(xué)給實驗室很大支持,教授們無需憂心費用,可以非常專心做研究。
另一方面,商湯科技和香港中文大學(xué)有研究投入?yún)f(xié)議。此外,大灣區(qū)AI相關(guān)產(chǎn)業(yè)發(fā)展迅速,政策支持。對實驗室來說,費用上壓力小,視野更高更廣,更專注長期、專注創(chuàng)造性,更有能力把工業(yè)界的問題解決徹底。”
順勢,他舉了兩個例子:
第一,如何處理比標簽數(shù)據(jù)大百倍、千倍的數(shù)據(jù)?
計算機視覺研究會涉及到海量數(shù)據(jù),其中很多沒有打標簽,而傳統(tǒng)的深度網(wǎng)絡(luò)是有監(jiān)督學(xué)習的。
那么,如何處理比標簽數(shù)據(jù)大百倍、千倍的數(shù)據(jù)?
這個問題被交到了MMLab。
眾所周知,模型質(zhì)量和性能與輸入數(shù)據(jù)有很大關(guān)系。如果沒有有效的聚類方法,送數(shù)據(jù)進去反而會使模型質(zhì)量下降。需要一個有效的,過上億級別的數(shù)據(jù)進行聚類的方法。
MMLab最近有2-3篇論文都是關(guān)于這個方面。一種有效的做法是把大規(guī)模的數(shù)據(jù)聚類,之后的每一類看成其中一個不同的人。但是如何在海量數(shù)據(jù)中高效高質(zhì)量地聚類是尚未解決的開放問題。
這個問題不是對具體某個產(chǎn)品提升,而是研究團隊抽象出解決方法,去解決一個根本性的問題。
好消息是,使用了神經(jīng)網(wǎng)絡(luò)進行聚類,對商湯科技所有需要用到海量數(shù)據(jù)的產(chǎn)品帶來了性能上提升,很多業(yè)務(wù)線都用到了這個解決辦法。
第二個,視頻理解工作。
在2013和2014年之前,大部分視頻理解的工作都是處理10秒以內(nèi)的短視頻,用機器分類短視頻的辦法距離實用還非常遙遠。即使卷積神經(jīng)網(wǎng)絡(luò)提出之后,因為硬件的限制,還是沒有辦法處理長視頻。
MMLab傳統(tǒng)分析一段視頻,每隔五幀取一幀。GPU放不了太多幀。但是,工業(yè)界的實際情況是需要處理相對長時間的幾分鐘的視頻。在這種背景下,MMLab在2016年,提出時序分段卷積網(wǎng)絡(luò)。
“時序分段這個方法不再是五幀、五幀去取。實驗室將整個視頻按照語義,每隔五幀分成若干個段落。這樣解決了兩個問題。每隔五幀取,重復(fù)性高,重復(fù)計算量大。如果間隔較遠才取一幀,時間尺度又會變長。
團隊決定向著較遠的取幀時長努力,因為重點是避免重復(fù)的計算。
解決問題的思路并不復(fù)雜,但是從根本上和大家的思考方向不同。別人都在想著怎么改善網(wǎng)絡(luò)結(jié)構(gòu),但我們改變了采樣的方法。
這個方法讓實驗室取得了當年ActivityNet比賽的冠軍。同樣也是好消息,從2016年起,這個論文提出的方法就已用在商湯的各種視頻分析的業(yè)務(wù)線產(chǎn)品中。”
林達華想用這兩個例子來對比高校實驗室和企業(yè)研究院的區(qū)別。高校實驗室基礎(chǔ)研究空間大,基礎(chǔ)性研究一旦成功,杠桿效益巨大。
他對實驗室有能力把工業(yè)界的問題解決得更徹底,非常有信心。
校企合作激勵A(yù)I學(xué)者向本質(zhì)問題挑戰(zhàn),而這些本質(zhì)問題恰恰不是一個純學(xué)術(shù)實驗室環(huán)境能遇到的。
本質(zhì)問題非常頑皮,常常生于工業(yè)界。所以,很難下一個單一的結(jié)論,是學(xué)術(shù)界帶動了工業(yè)界,還是工業(yè)界帶動了學(xué)術(shù)界。
按照林達華的觀點,“正反饋的閉環(huán)”是最佳解讀。
一名畢業(yè)于北京大學(xué)的碩士研究生同學(xué)告訴我:“申請博士的時候MMLab一定會在首選實驗室清單中,現(xiàn)在MMLab享譽全球,實力堪比常春藤名校,連大神級人物何凱明也待過,令人向往?!?/p>
學(xué)與教,問與答,日日修煉,夜夜參悟。
“創(chuàng)新者”與“創(chuàng)造者”林達華,在對科研的熱情中棲居,在對教學(xué)的深情中寄植,他探索著科研的生命力,張揚著沙場上的將領(lǐng)精神,只等凱旋。
林達華簡介:
林達華是香港中文大學(xué)信息工程系助理教授,他在計算機視覺、概率推斷,與深度學(xué)習方面有廣泛的研究經(jīng)歷,并在多個課題上取得突出成績。
他在CVPR/ICCV/ECCV/NIPS/PAMI等計算機視覺與機器學(xué)習頂級會議與期刊發(fā)表逾百篇論文。他在2010年獲得機器學(xué)習領(lǐng)域最權(quán)威國際會議NIPS的最佳學(xué)生論文獎,并在2009年與2011年獲得計算機視覺最高學(xué)術(shù)會議ICCV的杰出評審員獎。
他曾指導(dǎo)香港中文大學(xué)的研究團隊參加ImageNet、ActivityNet、以及COCO等計算機視覺領(lǐng)域的主要國際競賽,獲得多個冠軍。此外,他也擔任CVPR,ECCV,AAAI,ACM Multimedia等主要國際會議的領(lǐng)域主席,以及頂級國際期刊IJCV的編委。
林達華教授2012年獲得美國麻省理工學(xué)院計算機科學(xué)博士學(xué)位,2007年獲得香港中文大學(xué)資訊工程碩士學(xué)位,2004年獲得中國科學(xué)技術(shù)大學(xué)電子工程與資訊科學(xué)學(xué)士學(xué)位。