QQ在線客服

信息流戰(zhàn)爭的新賽點:今日頭條、百度如何沖破“繭房”?

2018-04-04 11:26 來源: 站長資源平臺 瀏覽(933)人   

  信息流戰(zhàn)爭的新賽點:今日頭條、百度如何沖破“繭房”?在相關的許多報道中,媒體都或明或暗的強調了一點:信息流推薦技術本身早已被國內外論證了是一個成功的移動互聯(lián)網產品,但之所以出現(xiàn)劣幣驅逐良幣的問題還是因為使用這個技術的企業(yè)出了問題。


信息流戰(zhàn)爭的新賽點:今日頭條、百度如何沖破“繭房”?


  半個月前還沉浸在“抖音”高速增長的喜悅中的今日頭條,最近卻有點焦頭爛額。央視、人民日報、第一財經周刊等央媒和核心財經媒體,在上周對今日頭條及旗下的抖音產品進行了一輪違規(guī)發(fā)布廣告的曝光以及價值觀的批判。

  也正因此,不少媒體在引述相關報道的時候都會強調,去年初,今日頭條創(chuàng)始人張一鳴在接受《財經》雜志專訪時提出的,不認為今日頭條應該有價值觀這一論調。

  這在一定程度道出了今日頭條的核心問題,但事實上更為關鍵的是,如今這個階段的基于人工智能算法的內容之戰(zhàn),已不僅僅是打破“信息繭房”這么簡單。從技術之戰(zhàn)開始,這場信息流大戰(zhàn)的賽點,已發(fā)生了輕微的變化。

  一、推薦準確性的PK,仍將決定于數(shù)據(jù)而非算法的技巧

  對信息流來說,算法準確性是競爭重點,但真正的決勝點,卻是數(shù)據(jù)。

  1、數(shù)據(jù)熱啟動是百度實現(xiàn)奇襲的根源

  首先需要明確一個理論,推薦算法的準確性并不是被計算出來的,而是被統(tǒng)計出來的(這一點在后文底層技術分析會詳細說明),這意味著數(shù)據(jù)量越大、越相關,越能得出準確的推薦效果。

  而且,由于復雜網絡向量關系的存在,一個向量特征的準確性影響是呈幾何擴散的,數(shù)據(jù)對推薦準確性的影響是非線性增長的關系。在足夠多的數(shù)據(jù)量情況下,會快速提升,直到準確率接近100%開始變緩(畢竟100%準確十分困難,越接近越難)如圖:

  也就是說,在算法準確性這里,數(shù)據(jù)熱啟動的價值將變得更為重要,足夠豐富的數(shù)據(jù),一旦介入信息流推薦算法,就可以馬上實現(xiàn)高的準確率,追趕間距很窄。

  以百度為例,其老本行搜索業(yè)務與內容直接相關,在內容大數(shù)據(jù)方面有直接優(yōu)勢,官方對外宣稱整合了千億特征、百億樣本的數(shù)據(jù)體系,構建了囊括大到科文史哲,小到一個冷僻的小游戲的特征數(shù)據(jù)。這為其數(shù)據(jù)熱啟動做好了充分的準備,而且,主動搜索表達出的用戶向量特征,比通過被動點擊總結的向量特征可能更為準確有效。從這樣的技術角度看,百度信息流可以只用一年時間完成其他公司三五年才達成的目標,在較短的時間內“杠住”今日頭條并不意外。

  2、只有足夠大的試驗平臺才能讓準確率“朝上走”

  另一個算法準確性的問題是推薦試算的問題,即通過推薦的實踐來反饋當前算法的準確性,從而實現(xiàn)所謂的模型迭代。

  例如,平臺通過各種方式得出某類用戶可能喜歡李娜,但推送李娜比賽新聞后效果很差(點擊、停留等指標低),就證明這個推斷可能是不準確的,需要返回調整。這樣的反復試驗能夠讓推薦逐漸接近真相。

  而這些,說來說去都是硬實力的比拼,比的是誰的平臺大、空間足夠廣闊,這會讓UC這樣早期沒跟上的信息流平臺越來越落后(如果試驗環(huán)境不夠充分,下一次迭代的準確性未必比這次好,準確率呈現(xiàn)反復波動而非一致提升),而百度這樣本來就憑借搜索頁面占據(jù)用戶眼球的平臺“廟大好念經”。

  也即,算法準確性可能不是什么奇巧淫技,比來比去還是看誰的膀子粗。

  二、技術下一程,要從冰冷的統(tǒng)計學走向有溫度的內容尊重

  上文準確性所行之事,從宏觀層面都是統(tǒng)計學的“花招”。而信息流的下半場競爭,則將更具有尊重內容本身的人文色彩。也即從“量”的上半場進入“質”的下半場。

  1、算法不帶價值觀,但產品要有溫度

  張一鳴“算法不帶價值觀”被廣為詬病,但從上文的技術推導本身而言,算法可能真的沒有價值觀,這些冰冷的統(tǒng)計學數(shù)據(jù)不關注也不可能關注到內容本身。

  但同樣是推薦系統(tǒng),網易云音樂在QQ音樂、蝦米音樂等一眾軟件中獨樹一幟,被廣為贊譽。好聽的冷門歌曲、年少時聽過的磁帶、收音機播過的音樂,在恰當?shù)臅r機跳上來給予用戶驚喜?!坝袦囟取钡漠a品收獲用戶粘性是一種必然,有溫度的產品也一定是企業(yè)長久發(fā)展的必要。

  同樣是內容產業(yè),信息流莫不如是。

  2、“人人平等”要變成“生而不平等”

  這里的轉化有雙重含義,首先是推薦機制不再只局限于“博眼球”的統(tǒng)計學需求指標,從而丟掉了優(yōu)質內容。其次是打擊套路寫作,讓上百萬的內容創(chuàng)作者們實現(xiàn)真正的創(chuàng)作豐富化,而不是束縛于推薦機制的繭房中。

  想要實現(xiàn)這種轉化,完全寄希望于人工不太現(xiàn)實(雖然百度這些平臺都在強調自己的人工投入),最終還是要通過技術本身去甄別內容,打入內容的“內部”,自主判斷什么是好文章、什么是好圖片、什么是好視頻、什么是好音樂、甚至什么是好人(內容源)。

  今日頭條在公開算法末尾就如何判斷內容好壞做了一個章節(jié),但該章節(jié)并沒有太多驕傲的“技術”宣揚,說明它仍在發(fā)力被社會期許的“好內容”。因此,如果說百度或者其他信息流平臺下一階段要徹底超越今日頭條,“好內容”將是最合適、最必要的角力點。

  百度發(fā)力“人工智能皇冠上的明珠”NLP(自然語言處理)或許就是在走這條路。雖然同時強調自己的AI技術,但百度作為綜合性科技公司相對頭條,在AI的寬度、深度上公認更有優(yōu)勢,在利用自然語言處理技術,對內容的質量、新穎度、情感傾向等進行深度理解和挖掘方面,較今日頭條可能更有先機。

  百度先于今日頭條搞出的“創(chuàng)作大腦”,表面上是為了更好地留住作者,而深層次可能更在于百度想在理解、區(qū)分內容好壞方面更先一步。畢竟,AI輔助寫作首先需要的就是對知識、對圖像的理解,將是錘煉內容識別技術的恰當機會。

  無論如何,信息流的技術競爭一定要回到尊重作者、尊重內容的“供給側競爭”(相對于只關心用戶需求的需求側競爭,它本質上文提及的統(tǒng)計指標集合)上來,讓每一個內容個體“生而不平等”,由他評走向自我價值認同。

  如果”澳網出線局勢深度分析”與“李娜3歲時干的事你絕對不知道”這樣的文章不再被同等對待,最終所謂“信息繭房”等表面問題也將迎刃而解。

  而這方面,雖然百度已經占得先機,但頭條、天天快報甚至手握公認優(yōu)質內容的微信入局,必將引致一場新的技術惡戰(zhàn)。

  三、算法流派眾多,但一切歸于貝葉斯

  基于前文,我們能發(fā)現(xiàn),在信息流推薦中,數(shù)據(jù)仍然是決勝點,而信息流也必然要更加尊重內容。而從底層技術角度,當我們回到算法的起源,也同樣可以印證這些。

  以目前主流的算法為例歸類分析:基于內容的推薦、協(xié)同過濾推薦、基于關聯(lián)規(guī)則的推薦、基于社會化網絡分析的推薦等,用通俗的語言即可解釋。

  1、基于內容的推薦算法

  即用戶喜歡什么東西,推薦一些相似的東西。該推薦算法簡單有效,推薦結果符合人們的認知;無須用戶的歷史評分信息。但是,該算法必須知道內容的特征,界定“什么才是相似”,比如體育里的籃球、NBA、耐克……如果不能得到足夠的信息,則推薦效果較差、結果較單一。

  2、協(xié)同過濾技術

  即把興趣差不多的用戶群體歸類,然后給他們推薦相同偏好的內容。它通過協(xié)作的方式分析用戶之間的喜好,避免特征提取不完全的情況。但存在冷啟動問題,無法準確對新用戶進行推薦,存在數(shù)據(jù)稀疏性問題。有從用戶出發(fā)和從內容出發(fā)兩種協(xié)同,如圖所示:

  圖:從用戶出發(fā)和從內容出發(fā)的協(xié)同過濾推薦(來源:CSDN“數(shù)據(jù)挖掘工人”博客)

  3、關聯(lián)規(guī)則推薦

  即通過某些技術挖掘大數(shù)據(jù),建立內容之間的關聯(lián)規(guī)則,起初用在實體零售,比如經典案例尿不濕與啤酒的搭售。在信息流領域中,主要是用統(tǒng)計學的方式發(fā)掘那些表面上看不出關聯(lián)的內容與內容之間的某些相關性,及相關程度。

  4、社會化網絡分析

  即身邊的人喜歡什么,就給該用戶推薦類似的內容。例如親戚、朋友、同學等雙邊關系,微博關注、微信公眾號訂閱等單邊關系,織就一個由用戶組成的節(jié)點網絡,探索與分析各節(jié)點、邊的重要程度,利用這些重要關系來進行推薦。

  上述這些主要的推薦算法,都源于貝葉斯理論。其主要解決的就是根據(jù)已發(fā)生的事實推斷關聯(lián)事件發(fā)生的概率。

  而信息流算法核心推薦系統(tǒng)正是通過利用用戶的歷史行為數(shù)據(jù),分析用戶的興趣愛好并構建相應的用戶模型,從待推薦的項目中選擇與其興趣偏好相符的項目進行推薦。例如,在一個極簡化的模型中,已知一個喜歡李娜的用戶喜歡網球的概率為x,那么就可以得出喜歡網球的用戶喜歡李娜的概率y,藉此推薦內容。這

  種推斷的準確性,就是信息流算法能夠達到的準確性,其基礎框架就是貝葉斯理論??梢钥闯?,不管是基于何種類型的推薦,在算法前的機器學習層面都是由貝葉斯推斷一層層、一步步堆積、衍生而來。不管最終構筑成多么龐大的體系,但它們開始的基點卻是一樣的,這也使得算法推薦容易陷于“信息繭房”的怪圈。

  四、“人人平等”造就信息流“創(chuàng)作繭房”

  在業(yè)務層面,貝葉斯的特性也不可避免地造就了“創(chuàng)造繭房”現(xiàn)象。而打破“創(chuàng)造繭房”,就唯有跳出當下的貝葉斯框架,靠的就是上文所言的內容尊重,從“人人平等”變成“生而不平等”,最終也給出信息流算法技術演化的應有方向。

  1、概率統(tǒng)計基礎上的算法,都是“他評體系”

  主流算法,就是通過推斷個體與個體之間的關系(方式可以有上文提到的多種),參考熱度等評價指標,從而有目的進行推薦。例如,對一個喜歡李娜的用戶推薦澳網的資訊,在推薦時就已經根據(jù)復雜的計算(基礎是貝葉斯)。由一個預期的點擊率、停留時間、點贊、評論情況計算,計算不達標的,就不會推薦出去。

  在今日頭條算法發(fā)布會上,曹歡歡在講到今日頭條的數(shù)據(jù)量時,稱其有幾十億“向量特征”。所謂向量,指的是帶方向,例如喜歡李娜和喜歡網球是兩個“原始特征”,而“喜歡李娜→喜歡網球”才構成一個向量特征(帶概率數(shù)據(jù))。

  但事實上,向量不過就是從一個點到另一個點,是點與點之間的數(shù)據(jù)關系,每一個內容個體(一篇文章、一個短視頻等)都被當作一個點存在。是否被推薦,是由各種外圍向量關系決定,是典型的“他評體系”(數(shù)學上,點已經不可再分割)。

  2、“人人平等”后,“創(chuàng)作繭房”成信息流頑疾根源

  這意味著,內容和內容,在算法這里是“人人平等”的,一篇精心編撰的圖文與一個拼湊熱文會被一視同仁,都依據(jù)向量特征進行推薦。但這也造成了內容質量的“參差不齊”。

  可以說,在當下的算法體系下,內容個體真正缺乏的是“自我認可”,高質量內容源不被重視;算法更多地是“世俗評價”,算法為上,人人都在追求曝光量。

  于是,在當前算法模式下,創(chuàng)作導向被冰冷的統(tǒng)計學規(guī)則限制,越來越收斂到某些高推薦、高曝光、高點擊的范圍內(褥羊毛有意為之,或者被環(huán)境脅迫),最終形成“創(chuàng)作繭房”。

  算法推薦直觀上造成了用戶層面的“信息繭房”現(xiàn)象,更深層次看,則引發(fā)了內容生產者的“創(chuàng)作繭房”問題。

  誠然,他評體系確實對增強推薦內容與用戶的匹配有重要意義,提升準確性仍然是算法的重要任務,但解決“創(chuàng)作繭房”問題,不再把內容個體當做一個不能分割的點,而把算法擴展到內容的內部,尊重每一個內容,會是下一階段信息流技術突破的重點。


     2898站長資源平臺網站排行榜:http://www.afrimangol.com/ranklist.htm 


【版權與免責聲明】如發(fā)現(xiàn)內容存在版權問題,煩請?zhí)峁┫嚓P信息發(fā)郵件至 kefu@2898.com ,我們將及時溝通與處理。 本站內容除了2898站長資源平臺( www.afrimangol.com )原創(chuàng)外,其它均為網友轉載內容,涉及言論、版權與本站無關。