QQ在線客服

當(dāng)前位置:首頁(yè)> 資訊> 科技評(píng)論

從圍棋到移動(dòng)DSP人工智能商用的最前沿

2016-03-24 16:18 來源: 站長(zhǎng)資源平臺(tái) 瀏覽(970)人   


  人工智能科學(xué)家們一直以來對(duì)攻克棋類游戲十分著迷。從跳棋到國(guó)際象棋,他們不斷證明計(jì)算機(jī)程序,或者說人工智能已經(jīng)比任何一個(gè)人類棋手都要優(yōu)秀。但圍棋卻是唯一沒有被計(jì)算機(jī)攻克的棋類,被稱作棋類游戲“最后的王冠”。

  “深思”的AlphaGO

圍棋 人工智能

  人們對(duì)于棋類游戲的破解從蠻力開始,計(jì)算機(jī)可以憑借遠(yuǎn)超人類的計(jì)算能力,推出在任何一種局面下的最優(yōu)解。例如跳棋的可能性約為10的20次方,計(jì)算機(jī)可以枚舉出所有走法;國(guó)際象棋大約為10的47次方,此時(shí)機(jī)器的計(jì)算能力開始捉襟見肘,好在科學(xué)家們有了新辦法:程序可以在所有走棋的選項(xiàng)中,找出幾個(gè)最佳解,然后將計(jì)算能力放在所選的幾步棋產(chǎn)生的后續(xù)變化上。

  計(jì)算機(jī)程序之所以可以這么做,是因?yàn)閲?guó)際象棋有著較多的約束性規(guī)則和價(jià)值判斷結(jié)構(gòu),比如馬要走日字型,其殺傷力大于兵,而皇后可沿隨意直行,價(jià)值更在二者之上。

  相比之下,圍棋的難點(diǎn)在于規(guī)則簡(jiǎn)單卻變化驚人,它可產(chǎn)生的棋局達(dá)10的170次方,遠(yuǎn)超宇宙中所有原子的數(shù)量,而僅僅是黑白兩子卻又孕育出多變的戰(zhàn)術(shù),一步棋的價(jià)值,往往隨著接下來的落子不同而不同。這些都不是由規(guī)則本身所約束形成的。

  那么,如何讓計(jì)算機(jī)程序像人類一樣對(duì)弈?

  AlphaGO使用了三個(gè)技術(shù)來實(shí)現(xiàn):蒙特卡洛樹搜索作為主架構(gòu)、強(qiáng)化學(xué)習(xí)作為訓(xùn)練方法、深度的神經(jīng)網(wǎng)絡(luò)是學(xué)習(xí)工具。(這里不詳細(xì)展開敘述,有興趣的讀者可以自行了解。)

  AlphaGO相比之前圍棋算法的突破在于使用了Deep Learning深度學(xué)習(xí)和一個(gè)高效的快速減枝算法,從過去的人教機(jī)器的策略變成機(jī)器自我學(xué)習(xí)。Deep learning起源于圖像識(shí)別(類似于科幻電影中某安全局使用的天眼系統(tǒng),利用攝像頭全世界找人),而目前Deep learning在工業(yè)界使用最廣領(lǐng)域之一是在線廣告行業(yè),在國(guó)內(nèi)像BAT以及京東等平臺(tái)的廣告系統(tǒng)都在使用這門技術(shù)。

  借助Deep Learning可以簡(jiǎn)單概括AlphaGO的工作原理:首先想要教機(jī)器程序?qū)W會(huì)下棋,得讓他能自己理解圍棋中蘊(yùn)含的一般法則。為了做到這一點(diǎn),AlphaGO需要大量的練習(xí)數(shù)據(jù)和處理數(shù)據(jù)的能力。

  科學(xué)家們找了3000萬份人類已知的棋譜,并讓AlphaGO自己“左右互搏”,從而產(chǎn)生大量的樣本數(shù)據(jù)。隨后這些數(shù)據(jù)被灌注到AlphaGO的算法中,它由兩個(gè)關(guān)鍵部分組成,決策網(wǎng)絡(luò)(Policy Network)負(fù)責(zé)提煉圍棋的特征、規(guī)則并總結(jié)經(jīng)驗(yàn),然后給出每一步的推薦走法;價(jià)值網(wǎng)絡(luò)(Value Network)負(fù)責(zé)根據(jù)前者的推薦,來計(jì)算每步棋可能的獲勝概率。由于圍棋的可能性過大,所以價(jià)值網(wǎng)絡(luò)通常只會(huì)審查幾步之后的結(jié)果,選擇最有可能贏得比賽的落子。

  AlphaGO正是憑借科學(xué)家們?cè)跈C(jī)器學(xué)習(xí)上的智慧,站到了與千年前發(fā)明圍棋這項(xiàng)游戲的先賢們同樣的高度,甚至更高。

  AlphaGO本身是一個(gè)通用計(jì)算程序,意味著未來可以應(yīng)用并拓展到更多的領(lǐng)域,而不只是下棋。事實(shí)上,人工智能早已進(jìn)入了我們的生活中,在商業(yè)和學(xué)術(shù)上都有了廣泛的應(yīng)用。例如自動(dòng)駕駛、人臉識(shí)別、翻譯、圖像分類,甚至于你每天上網(wǎng)時(shí)看到的廣告,都有人工智能的身影在里面。

  移動(dòng)DSP中的人工智能

圍棋 人工智能

  廣告將是下一個(gè)因人工智能而變革的行業(yè),目前最成熟的人工智能商業(yè)化應(yīng)用就是在互聯(lián)網(wǎng)及程序化廣告行業(yè),精準(zhǔn)、高效的投放機(jī)制徹底改變了傳統(tǒng)廣告。相比人工智能,人的優(yōu)劣勢(shì)是短時(shí)間的記憶容量和準(zhǔn)確度優(yōu)先,而分類整理信息的速度有限。當(dāng)需要處理的信息過于龐大、規(guī)則復(fù)雜、但目標(biāo)清晰、可量化計(jì)算時(shí),人工智能就有了發(fā)揮的空間。

  DSP是匯聚了大量互聯(lián)網(wǎng)流量的需求方廣告平臺(tái),廣告主的目標(biāo)一直以來就很明確:把廣告?zhèn)鬟_(dá)給自己目標(biāo)用戶。因?yàn)榛ヂ?lián)網(wǎng)本身數(shù)字化的特性,大量的數(shù)據(jù)將會(huì)被記錄下來,比如IP&cookie,瀏覽的網(wǎng)頁(yè)內(nèi)容、時(shí)間,購(gòu)買的商品等。這些都是廣告投放時(shí),來判斷是否適合投放的主要依據(jù)和元數(shù)據(jù)。

  而在移動(dòng)互聯(lián)網(wǎng)時(shí)代,無線二字將計(jì)算的維度進(jìn)一步提升,同時(shí)信息脈絡(luò)也更清楚。

  首先,信息量成幾何增長(zhǎng),移動(dòng)設(shè)備可以揭示更多的數(shù)據(jù),例如GPS位置信息、移動(dòng)設(shè)備信息等,又因?yàn)槭褂梅奖悖藗兊娜粘I钊缟缃?、出行、吃飯、旅游都?huì)使用到手機(jī),從而產(chǎn)生大量數(shù)據(jù)。

  其次,移動(dòng)端的數(shù)據(jù)信息鏈接的更為緊密,相比以往PC時(shí)代的IP和Cookie,移動(dòng)設(shè)備號(hào)的唯一性可以更好的把相關(guān)信息串聯(lián)起來,讓分散的信息回歸到一個(gè)人上。

  在合法且安全保密的情況下,通過對(duì)這些信息的處理,移動(dòng)DSP能篩選出最合適的流量投放廣告,提高廣告的效果。人工智能可以像下圍棋一樣,從海量數(shù)據(jù)中劃分出對(duì)產(chǎn)品最感興趣的用戶,然后對(duì)每個(gè)消費(fèi)者點(diǎn)擊廣告的概率進(jìn)行預(yù)測(cè),再加上DSP的實(shí)時(shí)競(jìng)價(jià)交易模式,考慮到錢的因素后,清晰的衡量投放效果的好壞,得出一個(gè)理想的eCPM。整個(gè)過程都有人工智能的參與,它在不斷的學(xué)習(xí)中優(yōu)化自己的投放功力。

  同時(shí),DSP的競(jìng)價(jià)環(huán)境更為復(fù)雜,因?yàn)樾枰A(yù)判其他的競(jìng)價(jià)者會(huì)如何出價(jià),是否能夠獲得流量,加上動(dòng)態(tài)變化的外部環(huán)境,像圍棋一樣,每一個(gè)選擇都有著無窮無盡的變化。人工智能的運(yùn)用使得DSP超越了傳統(tǒng)的根據(jù)廣告的特性挑選流量-投放-分析-再挑選流量投放的人工運(yùn)營(yíng)方式。

  這一點(diǎn)在移動(dòng)互聯(lián)網(wǎng)時(shí)代尤為凸顯,信息量的幾何數(shù)增長(zhǎng)+信息維度越來越多,人工操作遇到瓶頸,再深入下去會(huì)投入巨大人力和管理成本,選擇移動(dòng)DSP作為廣告投放的助手可謂順理成章。

  確實(shí)目前的人工智能也有瓶頸,也有不如人的地方,比如對(duì)一些太復(fù)雜的局面做宏觀的判斷時(shí)會(huì)偶有失誤,需要人為的從中進(jìn)行優(yōu)化干預(yù)。人工智能也像圍棋一樣,世界頂尖的高手鳳毛麟角,好的人工智能優(yōu)化師也是屈指可數(shù)。但人工智能可以復(fù)用,這將大大提高DSP的平均優(yōu)化水平。

  商業(yè)化代表作:OCPC

  越來越多的移動(dòng)廣告平臺(tái)開始研發(fā)人工智能來輔助甚至替代運(yùn)營(yíng)人員:即用機(jī)器代替運(yùn)營(yíng)人員投放廣告,比如Facebook的OCPM和多盟的OCPC系統(tǒng)。

  Facebook的OCPM系統(tǒng)即Optimized CPM。廣告主在推廣一個(gè)APP時(shí),填寫期望的APP單激活用戶成本和整體的預(yù)算,廣告系統(tǒng)會(huì)參考設(shè)定的成本智能的幫助廣告主去出價(jià),國(guó)內(nèi)由于環(huán)境不同,DSP的結(jié)算一般按CPC的方式,并且廣告主對(duì)成本的要求也會(huì)更嚴(yán)格,多盟在OCPM的基礎(chǔ)上,結(jié)合中國(guó)移動(dòng)DSP的流量特征和行業(yè)規(guī)則,開發(fā)出自主的智能投放引擎OCPC

  所謂OCPC即智能出價(jià)的CPC,系統(tǒng)會(huì)像AlphaGO一樣,借助多盟DMP,首先對(duì)每一個(gè)流量進(jìn)行標(biāo)簽分類,然后針對(duì)不同廣告主對(duì)流量的價(jià)值進(jìn)行評(píng)估,依照結(jié)果系統(tǒng)會(huì)智能的給出合理的價(jià)格,并根據(jù)不同的流量情況,調(diào)整廣告的創(chuàng)意組合。

圍棋 人工智能

  廣告主一直希望廣告投放的效果成本可量化并且可實(shí)時(shí)反饋,比如一個(gè)游戲用戶的獲取成本或后續(xù)付費(fèi),一個(gè)電商用戶的消費(fèi)金額等等。以手機(jī)游戲廣告為例,廣告主期望在一定的用戶獲取成本內(nèi),投放量越多越好,以達(dá)到最大的用戶觸及,獲得轉(zhuǎn)化。

  因此,人工智能投放系統(tǒng)OCPC可以針對(duì)每一個(gè)廣告投放模擬一個(gè)獨(dú)立的運(yùn)營(yíng)人員來實(shí)施,這個(gè)虛擬的“人”會(huì)關(guān)注多維度的、實(shí)時(shí)反饋的、歷史積累的海量數(shù)據(jù),針對(duì)該廣告的特點(diǎn)、目標(biāo)和實(shí)時(shí)反饋的投放效果,進(jìn)行快速的計(jì)算和調(diào)整,得出最佳一步“棋”。

  例如在游戲廣告投放時(shí),每一次請(qǐng)求過來,人工智能都能清晰知道以下信息:此次請(qǐng)求相關(guān)用戶和所在場(chǎng)景的特征;用戶歷史上點(diǎn)擊和下載其他游戲,甚至是付費(fèi)的情況;當(dāng)前DSP內(nèi)整個(gè)廣告庫(kù)其他廣告的情況,以及外部競(jìng)爭(zhēng)環(huán)境。然后,根據(jù)以上信息和規(guī)則,針對(duì)當(dāng)前游戲廣告的成本目標(biāo)和已投放的結(jié)果,給出一個(gè)相對(duì)最優(yōu)的出價(jià)。

  人工智能,未來可期

  人們的生活越來越信息化,人工智能的發(fā)揮空間也就越大,一些科幻電影里的場(chǎng)景也不會(huì)太遙遠(yuǎn),比如當(dāng)你走在大街上不小心劃破了手,這時(shí)旁邊的公交車站上的一塊電子廣告屏?xí)蚰阏故疽粭l創(chuàng)口貼的廣告,并給你遞上產(chǎn)品。

  人工智能發(fā)展的障礙在于如何獲得人類的信任:大多數(shù)普通人對(duì)于人工智能還不太了解,電影等文藝作品中的劇情,放大了人們對(duì)于未知事物的恐懼和拒絕心理。然而事實(shí)上,人工智能的可控性和可預(yù)見性都要比人類自己高出很多。

  Facebook的OCPM和多盟OCPC也一樣,不僅是廣告主,還有平臺(tái)運(yùn)營(yíng)人員都對(duì)其存在一定程度的質(zhì)疑。比如一開始成本很高,點(diǎn)擊單價(jià)出的很大時(shí),確實(shí)會(huì)猶豫是不是人工智能出了問題,但對(duì)人工智能多些信任,往往會(huì)使得結(jié)果往更好的方向發(fā)展。據(jù)悉,多盟OCPC系統(tǒng)從最開始不到5%的使用率,經(jīng)過一年多的成長(zhǎng),到現(xiàn)在已有90%的使用率,都代表了信任是可以用時(shí)間和正向的結(jié)果來推進(jìn)的。

  另一個(gè)人工智能需要面臨的挑戰(zhàn)是計(jì)算能力的極限。最完美的情況是,每天上百億的廣告請(qǐng)求,人工智能可以針對(duì)每個(gè)廣告給出上百億次獨(dú)立的最優(yōu)出價(jià),然而由于機(jī)器性能等原因,目前DSP的人工智能還達(dá)不到這種水平。但對(duì)流量的劃分已經(jīng)能達(dá)到上百萬份,即一個(gè)廣告給出上百萬個(gè)有針對(duì)性的智能出價(jià),并進(jìn)行跟蹤分析修正出價(jià),這遠(yuǎn)超出人工運(yùn)營(yíng)的上限,并且隨著科技的發(fā)展,效果仍在提升。

  DeepMind創(chuàng)始人之一哈薩比斯認(rèn)為雖然AlphaGO的深度學(xué)習(xí)效果十分驚人,已經(jīng)可以通過算法洞察一件事物的內(nèi)在規(guī)則,但人工智能仍是計(jì)算機(jī)程序,還未達(dá)到真正“智”的階段——像人類一樣思考,并把知識(shí)轉(zhuǎn)化為工具。AlphaGO還做不到把圍棋上的經(jīng)驗(yàn),應(yīng)用到其他領(lǐng)域上,它與我們常用的Excel等計(jì)算機(jī)程序并無本質(zhì)差別。

  不過他也認(rèn)為,人工智能的未來是值得期待的,因?yàn)樗诓粩嗟膶W(xué)習(xí),會(huì)越來越強(qiáng)大,“如果問我人工智能是否有極限?目前我們還沒發(fā)現(xiàn)它?!?/p>


【版權(quán)與免責(zé)聲明】如發(fā)現(xiàn)內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息發(fā)郵件至 kefu@2898.com ,我們將及時(shí)溝通與處理。 本站內(nèi)容除了2898站長(zhǎng)資源平臺(tái)( www.afrimangol.com )原創(chuàng)外,其它均為網(wǎng)友轉(zhuǎn)載內(nèi)容,涉及言論、版權(quán)與本站無關(guān)。
投稿

關(guān)注我們

站長(zhǎng)資源平臺(tái)微信公眾號(hào)

微信二維碼