QQ在線客服

信息流戰(zhàn)爭的新賽點:今日頭條、百度如何沖破“繭房”?

2018-04-04 11:26 來源: 站長資源平臺 瀏覽(896)人   

  信息流戰(zhàn)爭的新賽點:今日頭條、百度如何沖破“繭房”?在相關(guān)的許多報道中,媒體都或明或暗的強(qiáng)調(diào)了一點:信息流推薦技術(shù)本身早已被國內(nèi)外論證了是一個成功的移動互聯(lián)網(wǎng)產(chǎn)品,但之所以出現(xiàn)劣幣驅(qū)逐良幣的問題還是因為使用這個技術(shù)的企業(yè)出了問題。


信息流戰(zhàn)爭的新賽點:今日頭條、百度如何沖破“繭房”?


  半個月前還沉浸在“抖音”高速增長的喜悅中的今日頭條,最近卻有點焦頭爛額。央視、人民日報、第一財經(jīng)周刊等央媒和核心財經(jīng)媒體,在上周對今日頭條及旗下的抖音產(chǎn)品進(jìn)行了一輪違規(guī)發(fā)布廣告的曝光以及價值觀的批判。

  也正因此,不少媒體在引述相關(guān)報道的時候都會強(qiáng)調(diào),去年初,今日頭條創(chuàng)始人張一鳴在接受《財經(jīng)》雜志專訪時提出的,不認(rèn)為今日頭條應(yīng)該有價值觀這一論調(diào)。

  這在一定程度道出了今日頭條的核心問題,但事實上更為關(guān)鍵的是,如今這個階段的基于人工智能算法的內(nèi)容之戰(zhàn),已不僅僅是打破“信息繭房”這么簡單。從技術(shù)之戰(zhàn)開始,這場信息流大戰(zhàn)的賽點,已發(fā)生了輕微的變化。

  一、推薦準(zhǔn)確性的PK,仍將決定于數(shù)據(jù)而非算法的技巧

  對信息流來說,算法準(zhǔn)確性是競爭重點,但真正的決勝點,卻是數(shù)據(jù)。

  1、數(shù)據(jù)熱啟動是百度實現(xiàn)奇襲的根源

  首先需要明確一個理論,推薦算法的準(zhǔn)確性并不是被計算出來的,而是被統(tǒng)計出來的(這一點在后文底層技術(shù)分析會詳細(xì)說明),這意味著數(shù)據(jù)量越大、越相關(guān),越能得出準(zhǔn)確的推薦效果。

  而且,由于復(fù)雜網(wǎng)絡(luò)向量關(guān)系的存在,一個向量特征的準(zhǔn)確性影響是呈幾何擴(kuò)散的,數(shù)據(jù)對推薦準(zhǔn)確性的影響是非線性增長的關(guān)系。在足夠多的數(shù)據(jù)量情況下,會快速提升,直到準(zhǔn)確率接近100%開始變緩(畢竟100%準(zhǔn)確十分困難,越接近越難)如圖:

  也就是說,在算法準(zhǔn)確性這里,數(shù)據(jù)熱啟動的價值將變得更為重要,足夠豐富的數(shù)據(jù),一旦介入信息流推薦算法,就可以馬上實現(xiàn)高的準(zhǔn)確率,追趕間距很窄。

  以百度為例,其老本行搜索業(yè)務(wù)與內(nèi)容直接相關(guān),在內(nèi)容大數(shù)據(jù)方面有直接優(yōu)勢,官方對外宣稱整合了千億特征、百億樣本的數(shù)據(jù)體系,構(gòu)建了囊括大到科文史哲,小到一個冷僻的小游戲的特征數(shù)據(jù)。這為其數(shù)據(jù)熱啟動做好了充分的準(zhǔn)備,而且,主動搜索表達(dá)出的用戶向量特征,比通過被動點擊總結(jié)的向量特征可能更為準(zhǔn)確有效。從這樣的技術(shù)角度看,百度信息流可以只用一年時間完成其他公司三五年才達(dá)成的目標(biāo),在較短的時間內(nèi)“杠住”今日頭條并不意外。

  2、只有足夠大的試驗平臺才能讓準(zhǔn)確率“朝上走”

  另一個算法準(zhǔn)確性的問題是推薦試算的問題,即通過推薦的實踐來反饋當(dāng)前算法的準(zhǔn)確性,從而實現(xiàn)所謂的模型迭代。

  例如,平臺通過各種方式得出某類用戶可能喜歡李娜,但推送李娜比賽新聞后效果很差(點擊、停留等指標(biāo)低),就證明這個推斷可能是不準(zhǔn)確的,需要返回調(diào)整。這樣的反復(fù)試驗?zāi)軌蜃屚扑]逐漸接近真相。

  而這些,說來說去都是硬實力的比拼,比的是誰的平臺大、空間足夠廣闊,這會讓UC這樣早期沒跟上的信息流平臺越來越落后(如果試驗環(huán)境不夠充分,下一次迭代的準(zhǔn)確性未必比這次好,準(zhǔn)確率呈現(xiàn)反復(fù)波動而非一致提升),而百度這樣本來就憑借搜索頁面占據(jù)用戶眼球的平臺“廟大好念經(jīng)”。

  也即,算法準(zhǔn)確性可能不是什么奇巧淫技,比來比去還是看誰的膀子粗。

  二、技術(shù)下一程,要從冰冷的統(tǒng)計學(xué)走向有溫度的內(nèi)容尊重

  上文準(zhǔn)確性所行之事,從宏觀層面都是統(tǒng)計學(xué)的“花招”。而信息流的下半場競爭,則將更具有尊重內(nèi)容本身的人文色彩。也即從“量”的上半場進(jìn)入“質(zhì)”的下半場。

  1、算法不帶價值觀,但產(chǎn)品要有溫度

  張一鳴“算法不帶價值觀”被廣為詬病,但從上文的技術(shù)推導(dǎo)本身而言,算法可能真的沒有價值觀,這些冰冷的統(tǒng)計學(xué)數(shù)據(jù)不關(guān)注也不可能關(guān)注到內(nèi)容本身。

  但同樣是推薦系統(tǒng),網(wǎng)易云音樂在QQ音樂、蝦米音樂等一眾軟件中獨樹一幟,被廣為贊譽。好聽的冷門歌曲、年少時聽過的磁帶、收音機(jī)播過的音樂,在恰當(dāng)?shù)臅r機(jī)跳上來給予用戶驚喜?!坝袦囟取钡漠a(chǎn)品收獲用戶粘性是一種必然,有溫度的產(chǎn)品也一定是企業(yè)長久發(fā)展的必要。

  同樣是內(nèi)容產(chǎn)業(yè),信息流莫不如是。

  2、“人人平等”要變成“生而不平等”

  這里的轉(zhuǎn)化有雙重含義,首先是推薦機(jī)制不再只局限于“博眼球”的統(tǒng)計學(xué)需求指標(biāo),從而丟掉了優(yōu)質(zhì)內(nèi)容。其次是打擊套路寫作,讓上百萬的內(nèi)容創(chuàng)作者們實現(xiàn)真正的創(chuàng)作豐富化,而不是束縛于推薦機(jī)制的繭房中。

  想要實現(xiàn)這種轉(zhuǎn)化,完全寄希望于人工不太現(xiàn)實(雖然百度這些平臺都在強(qiáng)調(diào)自己的人工投入),最終還是要通過技術(shù)本身去甄別內(nèi)容,打入內(nèi)容的“內(nèi)部”,自主判斷什么是好文章、什么是好圖片、什么是好視頻、什么是好音樂、甚至什么是好人(內(nèi)容源)。

  今日頭條在公開算法末尾就如何判斷內(nèi)容好壞做了一個章節(jié),但該章節(jié)并沒有太多驕傲的“技術(shù)”宣揚,說明它仍在發(fā)力被社會期許的“好內(nèi)容”。因此,如果說百度或者其他信息流平臺下一階段要徹底超越今日頭條,“好內(nèi)容”將是最合適、最必要的角力點。

  百度發(fā)力“人工智能皇冠上的明珠”NLP(自然語言處理)或許就是在走這條路。雖然同時強(qiáng)調(diào)自己的AI技術(shù),但百度作為綜合性科技公司相對頭條,在AI的寬度、深度上公認(rèn)更有優(yōu)勢,在利用自然語言處理技術(shù),對內(nèi)容的質(zhì)量、新穎度、情感傾向等進(jìn)行深度理解和挖掘方面,較今日頭條可能更有先機(jī)。

  百度先于今日頭條搞出的“創(chuàng)作大腦”,表面上是為了更好地留住作者,而深層次可能更在于百度想在理解、區(qū)分內(nèi)容好壞方面更先一步。畢竟,AI輔助寫作首先需要的就是對知識、對圖像的理解,將是錘煉內(nèi)容識別技術(shù)的恰當(dāng)機(jī)會。

  無論如何,信息流的技術(shù)競爭一定要回到尊重作者、尊重內(nèi)容的“供給側(cè)競爭”(相對于只關(guān)心用戶需求的需求側(cè)競爭,它本質(zhì)上文提及的統(tǒng)計指標(biāo)集合)上來,讓每一個內(nèi)容個體“生而不平等”,由他評走向自我價值認(rèn)同。

  如果”澳網(wǎng)出線局勢深度分析”與“李娜3歲時干的事你絕對不知道”這樣的文章不再被同等對待,最終所謂“信息繭房”等表面問題也將迎刃而解。

  而這方面,雖然百度已經(jīng)占得先機(jī),但頭條、天天快報甚至手握公認(rèn)優(yōu)質(zhì)內(nèi)容的微信入局,必將引致一場新的技術(shù)惡戰(zhàn)。

  三、算法流派眾多,但一切歸于貝葉斯

  基于前文,我們能發(fā)現(xiàn),在信息流推薦中,數(shù)據(jù)仍然是決勝點,而信息流也必然要更加尊重內(nèi)容。而從底層技術(shù)角度,當(dāng)我們回到算法的起源,也同樣可以印證這些。

  以目前主流的算法為例歸類分析:基于內(nèi)容的推薦、協(xié)同過濾推薦、基于關(guān)聯(lián)規(guī)則的推薦、基于社會化網(wǎng)絡(luò)分析的推薦等,用通俗的語言即可解釋。

  1、基于內(nèi)容的推薦算法

  即用戶喜歡什么東西,推薦一些相似的東西。該推薦算法簡單有效,推薦結(jié)果符合人們的認(rèn)知;無須用戶的歷史評分信息。但是,該算法必須知道內(nèi)容的特征,界定“什么才是相似”,比如體育里的籃球、NBA、耐克……如果不能得到足夠的信息,則推薦效果較差、結(jié)果較單一。

  2、協(xié)同過濾技術(shù)

  即把興趣差不多的用戶群體歸類,然后給他們推薦相同偏好的內(nèi)容。它通過協(xié)作的方式分析用戶之間的喜好,避免特征提取不完全的情況。但存在冷啟動問題,無法準(zhǔn)確對新用戶進(jìn)行推薦,存在數(shù)據(jù)稀疏性問題。有從用戶出發(fā)和從內(nèi)容出發(fā)兩種協(xié)同,如圖所示:

  圖:從用戶出發(fā)和從內(nèi)容出發(fā)的協(xié)同過濾推薦(來源:CSDN“數(shù)據(jù)挖掘工人”博客)

  3、關(guān)聯(lián)規(guī)則推薦

  即通過某些技術(shù)挖掘大數(shù)據(jù),建立內(nèi)容之間的關(guān)聯(lián)規(guī)則,起初用在實體零售,比如經(jīng)典案例尿不濕與啤酒的搭售。在信息流領(lǐng)域中,主要是用統(tǒng)計學(xué)的方式發(fā)掘那些表面上看不出關(guān)聯(lián)的內(nèi)容與內(nèi)容之間的某些相關(guān)性,及相關(guān)程度。

  4、社會化網(wǎng)絡(luò)分析

  即身邊的人喜歡什么,就給該用戶推薦類似的內(nèi)容。例如親戚、朋友、同學(xué)等雙邊關(guān)系,微博關(guān)注、微信公眾號訂閱等單邊關(guān)系,織就一個由用戶組成的節(jié)點網(wǎng)絡(luò),探索與分析各節(jié)點、邊的重要程度,利用這些重要關(guān)系來進(jìn)行推薦。

  上述這些主要的推薦算法,都源于貝葉斯理論。其主要解決的就是根據(jù)已發(fā)生的事實推斷關(guān)聯(lián)事件發(fā)生的概率。

  而信息流算法核心推薦系統(tǒng)正是通過利用用戶的歷史行為數(shù)據(jù),分析用戶的興趣愛好并構(gòu)建相應(yīng)的用戶模型,從待推薦的項目中選擇與其興趣偏好相符的項目進(jìn)行推薦。例如,在一個極簡化的模型中,已知一個喜歡李娜的用戶喜歡網(wǎng)球的概率為x,那么就可以得出喜歡網(wǎng)球的用戶喜歡李娜的概率y,藉此推薦內(nèi)容。這

  種推斷的準(zhǔn)確性,就是信息流算法能夠達(dá)到的準(zhǔn)確性,其基礎(chǔ)框架就是貝葉斯理論??梢钥闯觯还苁腔诤畏N類型的推薦,在算法前的機(jī)器學(xué)習(xí)層面都是由貝葉斯推斷一層層、一步步堆積、衍生而來。不管最終構(gòu)筑成多么龐大的體系,但它們開始的基點卻是一樣的,這也使得算法推薦容易陷于“信息繭房”的怪圈。

  四、“人人平等”造就信息流“創(chuàng)作繭房”

  在業(yè)務(wù)層面,貝葉斯的特性也不可避免地造就了“創(chuàng)造繭房”現(xiàn)象。而打破“創(chuàng)造繭房”,就唯有跳出當(dāng)下的貝葉斯框架,靠的就是上文所言的內(nèi)容尊重,從“人人平等”變成“生而不平等”,最終也給出信息流算法技術(shù)演化的應(yīng)有方向。

  1、概率統(tǒng)計基礎(chǔ)上的算法,都是“他評體系”

  主流算法,就是通過推斷個體與個體之間的關(guān)系(方式可以有上文提到的多種),參考熱度等評價指標(biāo),從而有目的進(jìn)行推薦。例如,對一個喜歡李娜的用戶推薦澳網(wǎng)的資訊,在推薦時就已經(jīng)根據(jù)復(fù)雜的計算(基礎(chǔ)是貝葉斯)。由一個預(yù)期的點擊率、停留時間、點贊、評論情況計算,計算不達(dá)標(biāo)的,就不會推薦出去。

  在今日頭條算法發(fā)布會上,曹歡歡在講到今日頭條的數(shù)據(jù)量時,稱其有幾十億“向量特征”。所謂向量,指的是帶方向,例如喜歡李娜和喜歡網(wǎng)球是兩個“原始特征”,而“喜歡李娜→喜歡網(wǎng)球”才構(gòu)成一個向量特征(帶概率數(shù)據(jù))。

  但事實上,向量不過就是從一個點到另一個點,是點與點之間的數(shù)據(jù)關(guān)系,每一個內(nèi)容個體(一篇文章、一個短視頻等)都被當(dāng)作一個點存在。是否被推薦,是由各種外圍向量關(guān)系決定,是典型的“他評體系”(數(shù)學(xué)上,點已經(jīng)不可再分割)。

  2、“人人平等”后,“創(chuàng)作繭房”成信息流頑疾根源

  這意味著,內(nèi)容和內(nèi)容,在算法這里是“人人平等”的,一篇精心編撰的圖文與一個拼湊熱文會被一視同仁,都依據(jù)向量特征進(jìn)行推薦。但這也造成了內(nèi)容質(zhì)量的“參差不齊”。

  可以說,在當(dāng)下的算法體系下,內(nèi)容個體真正缺乏的是“自我認(rèn)可”,高質(zhì)量內(nèi)容源不被重視;算法更多地是“世俗評價”,算法為上,人人都在追求曝光量。

  于是,在當(dāng)前算法模式下,創(chuàng)作導(dǎo)向被冰冷的統(tǒng)計學(xué)規(guī)則限制,越來越收斂到某些高推薦、高曝光、高點擊的范圍內(nèi)(褥羊毛有意為之,或者被環(huán)境脅迫),最終形成“創(chuàng)作繭房”。

  算法推薦直觀上造成了用戶層面的“信息繭房”現(xiàn)象,更深層次看,則引發(fā)了內(nèi)容生產(chǎn)者的“創(chuàng)作繭房”問題。

  誠然,他評體系確實對增強(qiáng)推薦內(nèi)容與用戶的匹配有重要意義,提升準(zhǔn)確性仍然是算法的重要任務(wù),但解決“創(chuàng)作繭房”問題,不再把內(nèi)容個體當(dāng)做一個不能分割的點,而把算法擴(kuò)展到內(nèi)容的內(nèi)部,尊重每一個內(nèi)容,會是下一階段信息流技術(shù)突破的重點。


     2898站長資源平臺網(wǎng)站排行榜:http://www.afrimangol.com/ranklist.htm 


【版權(quán)與免責(zé)聲明】如發(fā)現(xiàn)內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息發(fā)郵件至 kefu@2898.com ,我們將及時溝通與處理。 本站內(nèi)容除了2898站長資源平臺( www.afrimangol.com )原創(chuàng)外,其它均為網(wǎng)友轉(zhuǎn)載內(nèi)容,涉及言論、版權(quán)與本站無關(guān)。
投稿

關(guān)注我們

站長資源平臺微信公眾號

微信二維碼