8 種面部表情實時追蹤,你的喜怒哀樂全被 AI 看穿了
與人類一樣,AI 也學(xué)會了 “察言觀色”
有研究表明,人類在相似的社會環(huán)境下表達情感的面部表情幾乎是相同的。如果一個人皺眉、嘟嘴、臉色漲紅,你一定知道 TA 是在生氣,現(xiàn)在 AI 同樣能夠 “看穿”這一點。
情感分析一直是 AI 的重點研究方向,它分為文本識別、語音識別、視覺識別三種主要途徑,后者也就是面部表情的分析。
最近這項研究又有了新的進展。在識別生氣,憤怒、開心、悲傷等情緒特征的基礎(chǔ)上,AI 或許能夠更進一步追蹤面部情緒變化的全過程。
近日,三星人人工智能研究院(Samsung AI)聯(lián)合倫敦帝國理工學(xué)院(Imperial College London)在《自然機器智能》期刊發(fā)表了一篇名為《自然狀態(tài)下人臉連續(xù)性效價和喚醒水平估計》的論文。
在論文中,研究人員稱他們開發(fā)了一種基于深度神經(jīng)網(wǎng)絡(luò)的 AI 系統(tǒng),該系統(tǒng)可以通過分析日常環(huán)境下拍攝的圖像\視頻,高精度地估計人臉面部的情緒效價和情緒喚醒。
這意味著 AI 系統(tǒng)不僅能夠快速、實時且精準地監(jiān)測面部情緒,同時還能呈現(xiàn)不同情緒所達到的程度。
用深度神經(jīng)網(wǎng)絡(luò)識別面部表情上述提到的情緒效價( Valence )和情緒喚醒(Arousal),是心理學(xué)專家用來評估人類情緒的專業(yè)術(shù)語。
其中,前者描述了一個人對于某事物的感興趣或排斥的程度。后者是指一個人對外界刺激重新產(chǎn)生反應(yīng)的程度,比如是微笑,大笑,狂笑,還是歇斯底里的笑。
在大部分人眼中,通過看臉評估情緒效價和喚醒是很容易的,但對于機器來說卻是一項艱難的挑戰(zhàn)。
在全世界范圍內(nèi),眾多科研機構(gòu)和人員都在開發(fā)基于深度神經(jīng)網(wǎng)絡(luò)的模型,以根據(jù)人們的面部表情預(yù)測情緒,然而,到目前為止所開發(fā)的大多數(shù)模型僅能夠檢測出憤怒、快樂、悲傷等主要情緒狀態(tài),而不是人類情感中更微妙的情緒特征。
而本次研究提出的深度神經(jīng)網(wǎng)絡(luò)模型能夠在識別 8 種基本面部情緒之上,進一步評估情緒的效能水平(積極狀態(tài) or 消極狀態(tài))以及喚醒水平(激動 or 平靜)。
如研究人員在論文中寫道,“長期以來我們一直致力于研究面部情感分析,一般來說,情感的離散類別有限,無法覆蓋人類每天表現(xiàn)出的所有情緒范圍,因此,我們把注意力轉(zhuǎn)移到更普遍的情感維度上,即效價和喚醒。”
他們將該模型在三個具有挑戰(zhàn)性的數(shù)據(jù)集上進行了測試,效果如下:
如我們所見,在連續(xù)性狀態(tài)下,模型能夠精準識別面部情緒,并實時反映其情緒所達到的程度,如藍色條越高代表越憤怒。
黃色條的高度代表悲傷的程度。
研究人員介紹,該模型主要是通過特定五官來分析面部表情,如一個人的嘴唇、鼻子、眼睛等,這使得它能夠把注意力集中在與估計效價和喚醒水平最相關(guān)的區(qū)域,并實現(xiàn)分析人臉在自然狀態(tài)下的情緒特征。
另外,該 AI 模型還能夠在 8 種常見的面部情緒中,給出更精確的監(jiān)測定位(如右下角)。
研究人員稱,該模型能夠在給定的面部圖像上,準確地、連續(xù)性地估計情緒效價和喚醒,是因其經(jīng)過了有注釋的圖像數(shù)據(jù)集的訓(xùn)練,這些圖像包含了有關(guān)效價和喚醒的信息。
同時在算法方面,為了提高模型在任務(wù)中的性能,他們使用了離散情緒類別作為輔助標簽,以提供額外監(jiān)督;為了防止在網(wǎng)絡(luò)訓(xùn)練過程中出現(xiàn)過擬合問題,采用了隨機過程、抖動正則化相結(jié)合的方法。
當(dāng)然除了關(guān)鍵算法,構(gòu)建機器學(xué)習(xí)系統(tǒng)還需要一個基本要素:合適的數(shù)據(jù)集。以上 Demo 的訓(xùn)練數(shù)據(jù)集為 AFEW-VA 和 SEWA,它們是研究團隊專門自建的可用于訓(xùn)練情緒識別的深層神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)集。
研究人員說:“我們創(chuàng)建 AFEW-VA 數(shù)據(jù)集,目的是要驗證在自然條件下模型的有效性,而不是受控于實驗室條件下的有效性。因此該數(shù)據(jù)集包含的內(nèi)容均來自真實世界所拍攝的圖像和視頻。”
在最初的評估中,深度神經(jīng)網(wǎng)絡(luò)模型能夠在自然條件下拍攝的人臉圖像中達到前所未有的準確度,而且在 AffectNet 和 SEWA 數(shù)據(jù)集上進行測試時,它所表現(xiàn)的性能與人工標注基本能夠達到一致性。
研究人員說:“我們的神經(jīng)網(wǎng)絡(luò)在兩個數(shù)據(jù)集上的表現(xiàn)優(yōu)于專家注釋之間的一致性?!?,這意味著如果將神經(jīng)網(wǎng)絡(luò)視為另一個人工注釋者,那么它與人類注釋者之間的一致性至少與其他人類注釋者之間的一致性相同,這樣的結(jié)果是非常顯著的?!?/p>
更重要的是,除了性能表現(xiàn)良好外 , 采用深度學(xué)習(xí)更易于操作和退推廣,因為它的預(yù)測是基于普通相機拍攝的圖像和視頻,例如它可以用于市場分析,或創(chuàng)造更具交互性的機器人。
論文的最后,研究人員強調(diào),無論是情緒類型識別的精度度,還是反映不同情緒的變化過程,該 AI 模型要優(yōu)于所有現(xiàn)有的方法。
看到這里有同學(xué)可能會好奇,AI 為什么要達到如此高的情緒識別度?
有哪些潛在應(yīng)用場景其實,面部情感分析的目的是讓計算機更好地理解人的情緒狀態(tài),從而創(chuàng)建更友好的人機交互過程。
在現(xiàn)實環(huán)境中,它在智能駕駛、新零售、臨床醫(yī)療等諸多領(lǐng)域都有著廣泛的應(yīng)用場景,也正是這些領(lǐng)域?qū)?AI 識別人類情緒的能力提出了更高的要求。
例如在智能駕駛領(lǐng)域,AI 對駕駛員的表情識別是提升智能汽車安全性和舒適性的關(guān)鍵因素。比如當(dāng)系統(tǒng)推薦了一首駕駛員或乘客不喜歡的音樂時,通過分析車內(nèi)人員的面部表情,系統(tǒng)便可自動 “切歌”。
或者在新零售領(lǐng)域,商家可以采用表情識別技術(shù)分析顧客情緒,了解他們對不同商品的喜好程度,以此推薦適合的廣告,實現(xiàn)精準營銷等等。
隨著人工智能技術(shù)和相關(guān)學(xué)科的飛速發(fā)展,人們對自動化和人機交互的需求日益強烈,表情識別作為計算機理解人類情感的基礎(chǔ),相關(guān)研究成果也有了很大的進展,不過,總體而言仍處于實驗室探索階段,距離大規(guī)模場景落地還有很長的一段距離。
另外,據(jù)有關(guān)研究表明,人類的面部表情至少有 21 種,除了高興、悲傷、憤怒、厭惡等 8 種常見情緒外,還有 13 種可別區(qū)分的復(fù)合表情。那么你覺得未來 AI 真的能看懂人類復(fù)雜的情緒變化嗎?