“爬蟲”濫用成害蟲:搬點評、搶車票、扒隱私……
“爬蟲”濫用成害蟲:搬點評、搶車票、扒隱私……近日,有自媒體披露在線旅游網(wǎng)站馬蜂窩旅游網(wǎng)涉及產(chǎn)品點評抄襲甚至作假行為。馬蜂窩回應(yīng)表示,將針對審查漏洞采取積極改進措施,但對于歪曲事實的言論和已被查證的有組織攻擊行為將采取法律手段維護自身權(quán)益。民事訴訟事件有待司法機關(guān)調(diào)查,但業(yè)內(nèi)人士表示,這一事件折射出技術(shù)倫理和法律問題。
記者調(diào)查發(fā)現(xiàn),近5年,互聯(lián)網(wǎng)行業(yè)中用戶生產(chǎn)內(nèi)容平臺(UGC)中數(shù)據(jù)造假情況長期存在,尤其是網(wǎng)絡(luò)“爬蟲”技術(shù)的非法操作不僅侵犯相關(guān)平臺知識產(chǎn)權(quán)和消費者合法權(quán)益,還可導(dǎo)致平臺上的用戶敏感信息泄露。
捅“馬蜂窩”之后:UGC數(shù)據(jù)造假受關(guān)注
日前,微信公號“小聲比比”發(fā)布題為《估值175億的旅游獨角獸,是一座僵尸和水軍構(gòu)成的鬼城?》的文章,援用乎睿數(shù)據(jù)團隊所供數(shù)據(jù)稱,作為馬蜂窩核心資產(chǎn)之一的2100萬“真實點評”中,有1800萬條是通過機器人從攜程等競爭對手那里抄襲過來的。其中,超過7000個抄襲賬號,合計抄襲572萬條餐飲點評,1221萬條酒店點評,占總點評數(shù)的85%。
隨著事件日益發(fā)酵,UGC平臺數(shù)據(jù)造假這一行業(yè)問題引發(fā)關(guān)注。業(yè)內(nèi)人士認為,從其他平臺抓數(shù)據(jù)的目的,就是為了制造流量很大的假象,既給用戶看、商家看,更要給投資人看,獲取不同輪次的投資以便上市。而從其他網(wǎng)站抓取頁面商家內(nèi)容和用戶點評數(shù)據(jù)非常簡單,使用“爬蟲”技術(shù)和人工編輯就能做到。
一位App研發(fā)者李濱介紹,爬蟲最早應(yīng)用在搜索引擎領(lǐng)域,爬取網(wǎng)站頁面提供給其他用戶進行快速搜索和訪問,當(dāng)前爬蟲技術(shù)已是“大數(shù)據(jù)”概念的重要組成部分,爬取對象也從一些種子擴充至整個網(wǎng)絡(luò)數(shù)據(jù)。為此,行業(yè)還達成了Robots協(xié)議,形成互聯(lián)網(wǎng)行業(yè)就抓取數(shù)據(jù)普遍遵守的規(guī)則。
然而,近年來,一些公司開始利用“爬蟲”技術(shù)從其他平臺惡意抓取數(shù)據(jù)。例如今年7月,生活分享平臺“小紅書”官微發(fā)布聲明指責(zé)大眾點評大量抄襲小紅書用戶的內(nèi)容,隨后,大眾點評道歉;今年2月,視頻彈幕網(wǎng)站嗶哩嗶哩大量用戶的視頻、昵稱、頭像及用戶評論,出現(xiàn)在某新成立的視頻網(wǎng)站上;而航空公司的官網(wǎng)上的機票、訂座等信息,長期被代理公司將機票信息爬取、占座,然后在其他網(wǎng)站上加價銷售。
“爬蟲”被濫用,數(shù)據(jù)造假已成網(wǎng)絡(luò)“灰產(chǎn)”
網(wǎng)宿科技發(fā)布的《2018上半年中國互聯(lián)網(wǎng)安全報告》顯示,今年上半年,Web應(yīng)用攻擊總數(shù)環(huán)比增長了97.82%,惡意“爬蟲”攻擊數(shù)量環(huán)比增長了55.79%。另有數(shù)據(jù)顯示,交通出行類惡意“爬蟲”流量占比居首位,其次是電商、社交、點評、運營商、公共行政等,網(wǎng)絡(luò)爬蟲的非法使用給互聯(lián)網(wǎng)競爭環(huán)境帶來諸多負面影響。
“目前,市面上大的互聯(lián)網(wǎng)公司都會推出自己的刷票軟件,目的是為了分享12306網(wǎng)站的"流量紅利"?!敝袊F科院電子所相關(guān)負責(zé)人說,“這些刷票軟件用"爬蟲"等技術(shù)刷新12306網(wǎng)站頁面,截取官網(wǎng)車次、票量等數(shù)據(jù)制作成自己的網(wǎng)站頁面,再使用程序進行搶票,收取不合法的差價。其中,大約一半的12306訂票網(wǎng)站流量來自"爬蟲"技術(shù)支撐的刷票軟件,不僅給網(wǎng)站服務(wù)器造成巨大壓力,也擾亂了正常的訂票秩序,由此帶來的購票難是鐵路部門一直頭疼的問題?!?/p>
山東日中律師事務(wù)所律師陳冠汶說,公司未經(jīng)許可或授權(quán)的情況下利用“爬蟲”技術(shù)獲得可能帶來商業(yè)利益的信息可以被判定構(gòu)成不正當(dāng)競爭。記者梳理相關(guān)案件發(fā)現(xiàn),法院往往認為,技術(shù)作為一種工具手段在價值上具有中立性,但這并不意味著技術(shù)本身可以作為豁免當(dāng)事人法律責(zé)任的依據(jù)。
——2017年,廣東省深圳市中級人民法院審理的一起案件中,武漢元光科技有限公司為提高其開發(fā)的智能公交“車來了”App在中國市場的用戶量及信息查詢的準確度,未經(jīng)深圳市谷米科技有限公司許可,指使公司員工利用網(wǎng)絡(luò)“爬蟲”軟件獲取谷米公司服務(wù)器中的實時數(shù)據(jù),謀取該軟件在實時公交信息查詢軟件中的競爭優(yōu)勢,違反了誠實信用原則和公認的商業(yè)道德,構(gòu)成不正當(dāng)競爭。
——2016年,上海知識產(chǎn)權(quán)法院二審民事判決書認為,百度公司大量使用大眾點評網(wǎng)的點評信息的行為,通過百度地圖和百度知道與大眾點評網(wǎng)爭奪網(wǎng)絡(luò)用戶,會導(dǎo)致大眾點評網(wǎng)的流量減少,同時,又推介自己的團購等業(yè)務(wù),攫取了大眾點評網(wǎng)的部分交易機會。百度公司的行為損害了漢濤公司(大眾點評網(wǎng)所屬公司)的利益,且其行為違反公認的商業(yè)道德,構(gòu)成不正當(dāng)競爭。
搜狐視頻高級主管閔博認為,濫用網(wǎng)絡(luò)“爬蟲”還有可能對網(wǎng)絡(luò)安全造成影響,引發(fā)網(wǎng)站服務(wù)器宕機?!耙恍?quot;爬蟲"工具的使用者在采取"全站爬取"的模式時,相當(dāng)于模擬了大量用戶在短時間內(nèi)對源站服務(wù)器發(fā)起訪問請求,一旦訪問量在瞬間達到承載極值,就會引起服務(wù)器宕機,從而威脅網(wǎng)絡(luò)空間的安全?!?/p>
還有業(yè)內(nèi)人士指出,被網(wǎng)絡(luò)“爬蟲”抓取的信息不僅可以用于同類型平臺制作,還可能被轉(zhuǎn)售或者可能用于釣魚網(wǎng)站制作等其他違法行為,不但會給平臺帶來重大損失,更可能導(dǎo)致平臺上的用戶敏感信息泄露,進而使用戶遭遇各類網(wǎng)絡(luò)和電信詐騙。
記者在社交網(wǎng)站和購物網(wǎng)站檢索時發(fā)現(xiàn),一些賣家堂而皇之地售賣“爬蟲”自動評價軟件或進行個人隱私信息爬取的接派單任務(wù)。在QQ群搜索中輸入關(guān)鍵詞“網(wǎng)絡(luò)爬蟲”,也會出現(xiàn)多個涉及外包網(wǎng)絡(luò)“爬蟲”技術(shù)的群組。業(yè)內(nèi)人士透露,這些群組中進行的網(wǎng)絡(luò)“爬蟲”任務(wù)大部分都屬于未獲授權(quán)而進行的違規(guī)爬取操作,由于該項技術(shù)具有一定的隱秘性,在爬取普通用戶隱私數(shù)據(jù)時較難被識別。
技術(shù)加法律遏制造假,勿讓“爬蟲”成害蟲
“一個技術(shù)如何使用,責(zé)任主體都應(yīng)捫心自問,這是否侵犯個人隱私,是否破壞言論自由,是否損害公共利益,是否損害其他數(shù)據(jù)財產(chǎn)擁有者的財產(chǎn)所有權(quán),是否涉及不正當(dāng)競爭。許多大的互聯(lián)網(wǎng)公司,會同時有"爬蟲"部門和"反爬蟲"部門。"爬蟲"技術(shù)在互聯(lián)網(wǎng)行業(yè)早已被廣泛使用,但"爬蟲"絕不能成為害蟲?!敝袊嗣翊髮W(xué)法學(xué)院教授劉俊海表示。
記者了解到,目前的“反爬”技術(shù)有兩種:一種是限制同一IP、同一電腦在一定時間內(nèi)訪問網(wǎng)站的次數(shù),另一種是設(shè)置復(fù)雜的驗證碼機制,讓“爬蟲”不好識別。但對一些網(wǎng)站來說,封IP的做法可能誤傷真實用戶,而設(shè)置一個非常復(fù)雜的驗證碼,又可能損失用戶。因此,除了加大技術(shù)防范力度之外,要運用好法律手段,克服取證難的盲點,明確使用紅線。
業(yè)內(nèi)人士表示,雖然網(wǎng)絡(luò)安全法對非法獲取個人信息等相關(guān)行為進行了規(guī)定,但對于爬取公開信息行為并未予以規(guī)定。相關(guān)部門應(yīng)進一步查漏補缺,盡快縮小新技術(shù)應(yīng)用的法律模糊地帶。
據(jù)中國傳媒大學(xué)教授、大數(shù)據(jù)挖掘與社會計算實驗室主任沈浩介紹,歐洲已出臺GDPR《通用數(shù)據(jù)保護條例》,想要采集歐盟境內(nèi)企業(yè)和個人的信息,即使你不在歐盟邊界內(nèi),采集活動也要受到相應(yīng)的管制和控制。但目前國內(nèi)還沒有全面的規(guī)定,要從根源上解決這類問題,還是要從立法層面入手。
此外,以前國內(nèi)對網(wǎng)站數(shù)據(jù)造假的懲罰案例很少,懲罰并不算嚴格,也是數(shù)據(jù)或者內(nèi)容造假的重要原因之一。搜狐視頻高級主管閔博認為,有關(guān)部門應(yīng)加強對網(wǎng)絡(luò)“爬蟲”工具使用者的監(jiān)管,對于惡意阻塞網(wǎng)絡(luò)訪問等濫用行為要嚴格查處,充分保障中小型互聯(lián)網(wǎng)企業(yè)的網(wǎng)絡(luò)空間安全使用權(quán)。
專家認為,未經(jīng)對方允許從其他平臺抓取數(shù)據(jù)并謀取商業(yè)利益的一般屬于不正當(dāng)競爭行為,由工商部門負責(zé)監(jiān)管。但是因為這類行為通常比較隱蔽,工商部門一般需要有人舉報并提供相應(yīng)證據(jù)或線索后啟動調(diào)查,因此需要借助技術(shù)手段更有效地進行打擊。
誠信經(jīng)營,遵法守法,互聯(lián)網(wǎng)絕不是例外。正如北京知識產(chǎn)權(quán)法院在一起涉及爬蟲技術(shù)的案件審判中所言,網(wǎng)絡(luò)運營者應(yīng)當(dāng)遵循合法、正當(dāng)、必要的原則,盡到網(wǎng)絡(luò)運營者的管理義務(wù)。第三方應(yīng)用開發(fā)者在收集、使用個人數(shù)據(jù)信息時,應(yīng)當(dāng)遵循誠實信用的原則及公認的商業(yè)道德。
2898站長資源平臺網(wǎng)站資訊:http://www.afrimangol.com/news/