QQ在線客服

當(dāng)前位置:首頁> 資訊> 動態(tài)

Magi:一個可以給搜索結(jié)果評分的搜索引擎

2019-11-14 09:50 來源: 網(wǎng)絡(luò) 瀏覽(923)人   

  “Peak Labs”公司近日發(fā)布了其人工智能系統(tǒng) Magi 的公眾版“ magi.com ”。通過這一搜索引擎,用戶輸入關(guān)鍵詞,即可獲取 Magi 從互聯(lián)網(wǎng)文本中自主學(xué)習(xí)到的結(jié)構(gòu)化知識和網(wǎng)頁搜索結(jié)果,每個結(jié)構(gòu)化結(jié)果后面都會附上來源鏈接和其可信度評分。


jufbr7fim2fmy1e4!1200.jpg


  這跟我們使用的傳統(tǒng)搜索引擎不同,傳統(tǒng)搜索引擎返回的是一系列的鏈接,要解讀問題,還需要自己去點擊網(wǎng)頁挖掘有用信息。

  這一引擎發(fā)布后,引來大批網(wǎng)友圍觀,將它的服務(wù)器玩掛了。Magi 作者發(fā)微博做了回應(yīng):“突然很多人關(guān)注到了我們,真的很感謝大家,其實搜索引擎真的不是我們的主業(yè),我們自己沒做任何推廣,更沒來得及準(zhǔn)備應(yīng)對這恐怖的流量……Magi 單次搜索的計算量比一般的網(wǎng)頁搜索要重很多,請大家手下留情,同時再次表示抱歉!”

  magi.com 的結(jié)果中,答案在搜索框的正下方,鏈接則在頁面右邊,跟主流搜索引擎的用戶界面相反。如在 magi.com 里搜索“編程語言”,出來的首先是各種主流編程語言的合集:C#、Python、Java、JavaScript…同時給予“編程語言”這個詞以“描述”和“屬性”解釋。紅黃綠的顏色代表 Magi 給出的可信評分級別。

  在答案的右側(cè)提供了一些鏈接,用鼠標(biāo)劃過它們即可看到,答案是從哪個具體的來源學(xué)習(xí)到的:

  Magi 的關(guān)注點在用戶搜索行為的本質(zhì),相對傳統(tǒng)搜索引擎來說做了一點小改進 :“幫你思考”。當(dāng)輸入想了解事物或信息,傳統(tǒng)搜索引擎給出的是按照結(jié)果的權(quán)重 (Page Rank) 展現(xiàn)的鏈接信息,需要自己去歸納和判斷可信度。Magi 多做了一步,不僅收錄互聯(lián)網(wǎng)上的海量文本,還會去嘗試?yán)斫獠W(xué)習(xí)這些文本中蘊含的知識和數(shù)據(jù)。

  季逸超表示,Magi 類似于民用版的 IBM Watson 或非學(xué)術(shù)版的 Wolfram Alpha。Wolfram Alpha 是一個讀得懂你提問的搜索引擎,它的目標(biāo)是“計算一切” 。按照發(fā)明者 Stephen Wolfram 的說法,它是一個計算知識引擎,而不是像百度或者谷歌那樣的搜索引擎。簡單地說來,它其實是一個繪圖計算器、參考書圖書館、以及搜尋引擎的綜合體,非常超前。

  除了直接給出計算結(jié)果,Wolfram Alpha 還能夠處理基于自然語言的事實問答問題,例如:

  如果輸入“China GDP”,出現(xiàn)的將不是一大堆網(wǎng)頁,而是直觀的數(shù)據(jù)和圖表。包括:中國 GDP 最新情況,從 1970 年至今的中國 GDP 增長情況(圖表形式)、中國通貨膨脹率、失業(yè)人口率。

  如果輸入“How many people in China”,你可以看到當(dāng)前中國的總?cè)丝跀?shù)、人口密度、平均每年人口增長率、預(yù)期壽命和平均年齡等數(shù)據(jù)。

  Magi 的背后

  Magi 來自中國團隊 Peak Labs,創(chuàng)始人季逸超在開發(fā)者圈子內(nèi)也小有名氣。2011 年,還在北大附中讀書期間,他就獨自完成了猛犸瀏覽器 iOS 的開發(fā)。2012 年,季逸超創(chuàng)辦了自己的公司,繼續(xù)推動瀏覽器和輸入法項目。目前,Peak Labs 主要精力都放在 Magi 項目上,專注于背后的技術(shù),以及相關(guān)商業(yè)產(chǎn)品的開發(fā)。

  “我們真正做商業(yè)化的,是 Magi 背后的技術(shù)——基于遷移學(xué)習(xí)的開放信息提取?!盡agi 采取的遷移學(xué)習(xí) NLU 算法,具有的優(yōu)勢在于只需使用通用數(shù)據(jù)訓(xùn)練 AI 引擎,就能使 AI 引擎很好的適用專業(yè)垂直領(lǐng)域。Magi 首先使用互聯(lián)網(wǎng)知識和自有的數(shù)據(jù)進行預(yù)訓(xùn)練,而專業(yè)垂直領(lǐng)域的任務(wù)僅需極少量人工數(shù)據(jù)標(biāo)注,站長資源平臺就能達到大規(guī)模數(shù)據(jù)的訓(xùn)練效果。

  季逸超在知乎上給出了詳細而全面的技術(shù)解讀

  一、利用率和通用性

  Magi 不再依賴于預(yù)設(shè)的規(guī)則和領(lǐng)域,“不帶著問題” 地去學(xué)習(xí)和理解互聯(lián)網(wǎng)上的文本信息,同時盡可能找出全部信息 (exhaustive) 而非挑選唯一最佳 (most promising)。Magi 通過一系列預(yù)訓(xùn)練任務(wù)淡化了具體實體或領(lǐng)域相關(guān)的概念,轉(zhuǎn)而學(xué)習(xí) “人們可能會關(guān)注內(nèi)容中的哪些信息?”。為 Magi 設(shè)計了專門的特征表達、網(wǎng)絡(luò)模型、訓(xùn)練任務(wù)、系統(tǒng)平臺(下面都會講到),并投入大量精力逐漸構(gòu)建了 proprietary 的專用訓(xùn)練 / 預(yù)訓(xùn)練數(shù)據(jù)。Magi 通過終身學(xué)習(xí)持續(xù)聚合和糾錯,為人類用戶和其他人工智能提供可解析、可檢索、可溯源的知識體系。

  二、覆蓋率和時效性

  配合自家 web 搜索引擎以評估來源質(zhì)量,信息源和領(lǐng)域不設(shè)白名單,綜合 Clarity(清晰度)、Credibility(可信度)、Catholicity(普適性)三個 Magi 權(quán)衡知識工程的規(guī)?;蜏?zhǔn)確性難題的量化標(biāo)準(zhǔn)來進行來源質(zhì)量評估。且注重時效性,時效性體現(xiàn)在上文提到的對既有知識的時間線追蹤,做到不再周期性觸發(fā) batch 更新,整個系統(tǒng)持續(xù)在線上學(xué)習(xí)、聚合、更新、糾錯。

  三、可塑性和國際化

  沒有前置 NER 和 dependency parsing 等環(huán)節(jié),減少母文本信息的損失。為 Magi 的提取模型設(shè)計了專用的 Attention 網(wǎng)絡(luò)結(jié)構(gòu)以及數(shù)個配套的預(yù)訓(xùn)練任務(wù)。技術(shù)棧完全 language-independent,可以實現(xiàn)低資源和跨語言 transfer。

  它做對了什么?

  Magi 官網(wǎng)和季逸超自己也坦承還存在一些不足,比如消歧義、工程性,以及規(guī)?;蜏?zhǔn)確度等。對于搜索慢的問題,季逸超在微博中說,這是由于單次搜索的計算量比一般的網(wǎng)頁搜索要重很多。Magi 搜索結(jié)果目前還不夠好,但這也不妨礙它成為一個未來的搜索引擎方向,給用戶提供一個可信任的和理解學(xué)習(xí)之后的知識。特別是發(fā)展在這個 AI 時代,搜索引擎的結(jié)果更應(yīng)該貼近用戶的需求。

  現(xiàn)在的主流搜索引擎依靠機器抓取,建立在超鏈分析基礎(chǔ)上的網(wǎng)頁搜索,采用搜索爬蟲和排序算法的組合,以關(guān)鍵詞為核心自動檢索,實現(xiàn)海量信息的自動獲取與重要性排序。作為獲取信息的入口,它直接關(guān)系到我們獲取的信息的質(zhì)量,也成就了早期的互聯(lián)網(wǎng)公司。

  但現(xiàn)在搜索引擎的過度商業(yè)化操作已經(jīng)引起了用戶的反感。Magi 的優(yōu)勢在于去除了商業(yè)化的元素,篩除了廣告,使搜索到的信息更純粹,更有價值,節(jié)省用戶的時間。

  季逸超在他的微博里說道:“現(xiàn)在的 Magi 飽含一個工程師樸素的初心,既不想拿廣告惡心你,也對你的隱私毫無興趣。”

  Magi 引擎的“火”,說明了搜索引擎在向更好的方向發(fā)展。



【版權(quán)與免責(zé)聲明】如發(fā)現(xiàn)內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息發(fā)郵件至 kefu@2898.com ,我們將及時溝通與處理。 本站內(nèi)容除了2898站長資源平臺( www.afrimangol.com )原創(chuàng)外,其它均為網(wǎng)友轉(zhuǎn)載內(nèi)容,涉及言論、版權(quán)與本站無關(guān)。