當前位置：首頁> 創(chuàng)業(yè)> 創(chuàng)業(yè)動態(tài)

信息流戰(zhàn)爭的新賽點：今日頭條、百度如何沖破“繭房”？

2018-04-04 11:26　來源: 站長資源平臺　瀏覽（933）人

分享按鈕

　　信息流戰(zhàn)爭的新賽點：今日頭條、百度如何沖破“繭房”？在相關的許多報道中，媒體都或明或暗的強調了一點：信息流推薦技術本身早已被國內外論證了是一個成功的移動互聯(lián)網產品，但之所以出現(xiàn)劣幣驅逐良幣的問題還是因為使用這個技術的企業(yè)出了問題。

　　半個月前還沉浸在“抖音”高速增長的喜悅中的今日頭條，最近卻有點焦頭爛額。央視、人民日報、第一財經周刊等央媒和核心財經媒體，在上周對今日頭條及旗下的抖音產品進行了一輪違規(guī)發(fā)布廣告的曝光以及價值觀的批判。

　　也正因此，不少媒體在引述相關報道的時候都會強調，去年初，今日頭條創(chuàng)始人張一鳴在接受《財經》雜志專訪時提出的，不認為今日頭條應該有價值觀這一論調。

　　這在一定程度道出了今日頭條的核心問題，但事實上更為關鍵的是，如今這個階段的基于人工智能算法的內容之戰(zhàn)，已不僅僅是打破“信息繭房”這么簡單。從技術之戰(zhàn)開始，這場信息流大戰(zhàn)的賽點，已發(fā)生了輕微的變化。

　　一、推薦準確性的PK，仍將決定于數(shù)據(jù)而非算法的技巧

　　對信息流來說，算法準確性是競爭重點，但真正的決勝點，卻是數(shù)據(jù)。

　　1、數(shù)據(jù)熱啟動是百度實現(xiàn)奇襲的根源

　　首先需要明確一個理論，推薦算法的準確性并不是被計算出來的，而是被統(tǒng)計出來的（這一點在后文底層技術分析會詳細說明），這意味著數(shù)據(jù)量越大、越相關，越能得出準確的推薦效果。

　　而且，由于復雜網絡向量關系的存在，一個向量特征的準確性影響是呈幾何擴散的，數(shù)據(jù)對推薦準確性的影響是非線性增長的關系。在足夠多的數(shù)據(jù)量情況下，會快速提升，直到準確率接近100%開始變緩（畢竟100%準確十分困難，越接近越難）如圖：

　　也就是說，在算法準確性這里，數(shù)據(jù)熱啟動的價值將變得更為重要，足夠豐富的數(shù)據(jù)，一旦介入信息流推薦算法，就可以馬上實現(xiàn)高的準確率，追趕間距很窄。

　　以百度為例，其老本行搜索業(yè)務與內容直接相關，在內容大數(shù)據(jù)方面有直接優(yōu)勢，官方對外宣稱整合了千億特征、百億樣本的數(shù)據(jù)體系，構建了囊括大到科文史哲，小到一個冷僻的小游戲的特征數(shù)據(jù)。這為其數(shù)據(jù)熱啟動做好了充分的準備，而且，主動搜索表達出的用戶向量特征，比通過被動點擊總結的向量特征可能更為準確有效。從這樣的技術角度看，百度信息流可以只用一年時間完成其他公司三五年才達成的目標，在較短的時間內“杠住”今日頭條并不意外。

　　2、只有足夠大的試驗平臺才能讓準確率“朝上走”

　　另一個算法準確性的問題是推薦試算的問題，即通過推薦的實踐來反饋當前算法的準確性，從而實現(xiàn)所謂的模型迭代。

　　例如，平臺通過各種方式得出某類用戶可能喜歡李娜，但推送李娜比賽新聞后效果很差（點擊、停留等指標低），就證明這個推斷可能是不準確的，需要返回調整。這樣的反復試驗能夠讓推薦逐漸接近真相。

　　而這些，說來說去都是硬實力的比拼，比的是誰的平臺大、空間足夠廣闊，這會讓UC這樣早期沒跟上的信息流平臺越來越落后（如果試驗環(huán)境不夠充分，下一次迭代的準確性未必比這次好，準確率呈現(xiàn)反復波動而非一致提升），而百度這樣本來就憑借搜索頁面占據(jù)用戶眼球的平臺“廟大好念經”。

　　也即，算法準確性可能不是什么奇巧淫技，比來比去還是看誰的膀子粗。

　　二、技術下一程，要從冰冷的統(tǒng)計學走向有溫度的內容尊重

　　上文準確性所行之事，從宏觀層面都是統(tǒng)計學的“花招”。而信息流的下半場競爭，則將更具有尊重內容本身的人文色彩。也即從“量”的上半場進入“質”的下半場。

　　1、算法不帶價值觀，但產品要有溫度

　　張一鳴“算法不帶價值觀”被廣為詬病，但從上文的技術推導本身而言，算法可能真的沒有價值觀，這些冰冷的統(tǒng)計學數(shù)據(jù)不關注也不可能關注到內容本身。

　　但同樣是推薦系統(tǒng)，網易云音樂在QQ音樂、蝦米音樂等一眾軟件中獨樹一幟，被廣為贊譽。好聽的冷門歌曲、年少時聽過的磁帶、收音機播過的音樂，在恰當?shù)臅r機跳上來給予用戶驚喜?！坝袦囟取钡漠a品收獲用戶粘性是一種必然，有溫度的產品也一定是企業(yè)長久發(fā)展的必要。

　　同樣是內容產業(yè)，信息流莫不如是。

　　2、“人人平等”要變成“生而不平等”

　　這里的轉化有雙重含義，首先是推薦機制不再只局限于“博眼球”的統(tǒng)計學需求指標，從而丟掉了優(yōu)質內容。其次是打擊套路寫作，讓上百萬的內容創(chuàng)作者們實現(xiàn)真正的創(chuàng)作豐富化，而不是束縛于推薦機制的繭房中。

　　想要實現(xiàn)這種轉化，完全寄希望于人工不太現(xiàn)實（雖然百度這些平臺都在強調自己的人工投入），最終還是要通過技術本身去甄別內容，打入內容的“內部”，自主判斷什么是好文章、什么是好圖片、什么是好視頻、什么是好音樂、甚至什么是好人（內容源）。

　　今日頭條在公開算法末尾就如何判斷內容好壞做了一個章節(jié)，但該章節(jié)并沒有太多驕傲的“技術”宣揚，說明它仍在發(fā)力被社會期許的“好內容”。因此，如果說百度或者其他信息流平臺下一階段要徹底超越今日頭條，“好內容”將是最合適、最必要的角力點。

　　百度發(fā)力“人工智能皇冠上的明珠”NLP（自然語言處理）或許就是在走這條路。雖然同時強調自己的AI技術，但百度作為綜合性科技公司相對頭條，在AI的寬度、深度上公認更有優(yōu)勢，在利用自然語言處理技術，對內容的質量、新穎度、情感傾向等進行深度理解和挖掘方面，較今日頭條可能更有先機。

　　百度先于今日頭條搞出的“創(chuàng)作大腦”，表面上是為了更好地留住作者，而深層次可能更在于百度想在理解、區(qū)分內容好壞方面更先一步。畢竟，AI輔助寫作首先需要的就是對知識、對圖像的理解，將是錘煉內容識別技術的恰當機會。

　　無論如何，信息流的技術競爭一定要回到尊重作者、尊重內容的“供給側競爭”（相對于只關心用戶需求的需求側競爭，它本質上文提及的統(tǒng)計指標集合）上來，讓每一個內容個體“生而不平等”，由他評走向自我價值認同。

　　如果”澳網出線局勢深度分析”與“李娜3歲時干的事你絕對不知道”這樣的文章不再被同等對待，最終所謂“信息繭房”等表面問題也將迎刃而解。

　　而這方面，雖然百度已經占得先機，但頭條、天天快報甚至手握公認優(yōu)質內容的微信入局，必將引致一場新的技術惡戰(zhàn)。

　　三、算法流派眾多，但一切歸于貝葉斯

　　基于前文，我們能發(fā)現(xiàn)，在信息流推薦中，數(shù)據(jù)仍然是決勝點，而信息流也必然要更加尊重內容。而從底層技術角度，當我們回到算法的起源，也同樣可以印證這些。

　　以目前主流的算法為例歸類分析：基于內容的推薦、協(xié)同過濾推薦、基于關聯(lián)規(guī)則的推薦、基于社會化網絡分析的推薦等，用通俗的語言即可解釋。

　　1、基于內容的推薦算法

　　即用戶喜歡什么東西，推薦一些相似的東西。該推薦算法簡單有效，推薦結果符合人們的認知；無須用戶的歷史評分信息。但是，該算法必須知道內容的特征，界定“什么才是相似”，比如體育里的籃球、NBA、耐克……如果不能得到足夠的信息，則推薦效果較差、結果較單一。

　　2、協(xié)同過濾技術

　　即把興趣差不多的用戶群體歸類，然后給他們推薦相同偏好的內容。它通過協(xié)作的方式分析用戶之間的喜好，避免特征提取不完全的情況。但存在冷啟動問題，無法準確對新用戶進行推薦，存在數(shù)據(jù)稀疏性問題。有從用戶出發(fā)和從內容出發(fā)兩種協(xié)同，如圖所示：

　　圖：從用戶出發(fā)和從內容出發(fā)的協(xié)同過濾推薦（來源：CSDN“數(shù)據(jù)挖掘工人”博客）

　　3、關聯(lián)規(guī)則推薦

　　即通過某些技術挖掘大數(shù)據(jù)，建立內容之間的關聯(lián)規(guī)則，起初用在實體零售，比如經典案例尿不濕與啤酒的搭售。在信息流領域中，主要是用統(tǒng)計學的方式發(fā)掘那些表面上看不出關聯(lián)的內容與內容之間的某些相關性，及相關程度。

　　4、社會化網絡分析

　　即身邊的人喜歡什么，就給該用戶推薦類似的內容。例如親戚、朋友、同學等雙邊關系，微博關注、微信公眾號訂閱等單邊關系，織就一個由用戶組成的節(jié)點網絡，探索與分析各節(jié)點、邊的重要程度，利用這些重要關系來進行推薦。

　　上述這些主要的推薦算法，都源于貝葉斯理論。其主要解決的就是根據(jù)已發(fā)生的事實推斷關聯(lián)事件發(fā)生的概率。

　　而信息流算法核心推薦系統(tǒng)正是通過利用用戶的歷史行為數(shù)據(jù)，分析用戶的興趣愛好并構建相應的用戶模型，從待推薦的項目中選擇與其興趣偏好相符的項目進行推薦。例如，在一個極簡化的模型中，已知一個喜歡李娜的用戶喜歡網球的概率為x，那么就可以得出喜歡網球的用戶喜歡李娜的概率y，藉此推薦內容。這

　　種推斷的準確性，就是信息流算法能夠達到的準確性，其基礎框架就是貝葉斯理論?？梢钥闯?，不管是基于何種類型的推薦，在算法前的機器學習層面都是由貝葉斯推斷一層層、一步步堆積、衍生而來。不管最終構筑成多么龐大的體系，但它們開始的基點卻是一樣的，這也使得算法推薦容易陷于“信息繭房”的怪圈。

　　四、“人人平等”造就信息流“創(chuàng)作繭房”

　　在業(yè)務層面，貝葉斯的特性也不可避免地造就了“創(chuàng)造繭房”現(xiàn)象。而打破“創(chuàng)造繭房”，就唯有跳出當下的貝葉斯框架，靠的就是上文所言的內容尊重，從“人人平等”變成“生而不平等”，最終也給出信息流算法技術演化的應有方向。

　　1、概率統(tǒng)計基礎上的算法，都是“他評體系”

　　主流算法，就是通過推斷個體與個體之間的關系（方式可以有上文提到的多種），參考熱度等評價指標，從而有目的進行推薦。例如，對一個喜歡李娜的用戶推薦澳網的資訊，在推薦時就已經根據(jù)復雜的計算（基礎是貝葉斯）。由一個預期的點擊率、停留時間、點贊、評論情況計算，計算不達標的，就不會推薦出去。

　　在今日頭條算法發(fā)布會上，曹歡歡在講到今日頭條的數(shù)據(jù)量時，稱其有幾十億“向量特征”。所謂向量，指的是帶方向，例如喜歡李娜和喜歡網球是兩個“原始特征”，而“喜歡李娜→喜歡網球”才構成一個向量特征（帶概率數(shù)據(jù)）。

　　但事實上，向量不過就是從一個點到另一個點，是點與點之間的數(shù)據(jù)關系，每一個內容個體（一篇文章、一個短視頻等）都被當作一個點存在。是否被推薦，是由各種外圍向量關系決定，是典型的“他評體系”（數(shù)學上，點已經不可再分割）。

　　2、“人人平等”后，“創(chuàng)作繭房”成信息流頑疾根源

　　這意味著，內容和內容，在算法這里是“人人平等”的，一篇精心編撰的圖文與一個拼湊熱文會被一視同仁，都依據(jù)向量特征進行推薦。但這也造成了內容質量的“參差不齊”。

　　可以說，在當下的算法體系下，內容個體真正缺乏的是“自我認可”，高質量內容源不被重視；算法更多地是“世俗評價”，算法為上，人人都在追求曝光量。

　　于是，在當前算法模式下，創(chuàng)作導向被冰冷的統(tǒng)計學規(guī)則限制，越來越收斂到某些高推薦、高曝光、高點擊的范圍內（褥羊毛有意為之，或者被環(huán)境脅迫），最終形成“創(chuàng)作繭房”。

　　算法推薦直觀上造成了用戶層面的“信息繭房”現(xiàn)象，更深層次看，則引發(fā)了內容生產者的“創(chuàng)作繭房”問題。

　　誠然，他評體系確實對增強推薦內容與用戶的匹配有重要意義，提升準確性仍然是算法的重要任務，但解決“創(chuàng)作繭房”問題，不再把內容個體當做一個不能分割的點，而把算法擴展到內容的內部，尊重每一個內容，會是下一階段信息流技術突破的重點。

2898站長資源平臺網站排行榜：http://www.afrimangol.com/ranklist.htm

【版權與免責聲明】如發(fā)現(xiàn)內容存在版權問題，煩請?zhí)峁┫嚓P信息發(fā)郵件至 kefu@2898.com ，我們將及時溝通與處理。本站內容除了2898站長資源平臺（ www.afrimangol.com ）原創(chuàng)外，其它均為網友轉載內容，涉及言論、版權與本站無關。

網站	權重	銷量
演藝圈門戶網	4	6
日歷大全	6	142
葉一云	6	0
高校網	6	17
創(chuàng)優(yōu)信息發(fā)布網	6	110
學習驛站	6	368
英語大全	5	5
供應商網	6	0
中醫(yī)養(yǎng)生	5	46
考試信息網	5	41

信息流戰(zhàn)爭的新賽點：今日頭條、百度如何沖破“繭房”？

上一篇：裁員漩渦中的金立工業(yè)園：臨時通知放假、賠償也要分期

下一篇：美團收購摩拜：王興與李斌談了半年胡瑋煒稱不存在出局

解鎖社群密碼：從0到1搭建你的專屬部落

TruBit與MoneyGram合作在拉丁美洲推出全球跨境支付服

支付寶提示“當前操作可能存在風險，為保護資金安全，我們中斷了此次操作”怎么辦？

如果公司要求只能認證一個，是認證服務號好還是小程序？

AIGC 平衡 SEO 與用戶體驗的深度解決方案

解鎖社群密碼：從0到1搭建你的專屬部落

從萬達到百度為什么要支持企業(yè)維權

小米開放零售體系今年底授權店將開到2000家

同程藝龍IPO價格定為9.8港元，預計11月26日上市

萬科股權之戰(zhàn) 打聽一下抓住商機

微博下一個巨頭嗎？利潤率全面開花

消息盒

信息流戰(zhàn)爭的新賽點：今日頭條、百度如何沖破“繭房”？

信息流戰(zhàn)爭的新賽點：今日頭條、百度如何沖破“繭房”？