解讀百度就“違反Robots協議”向360巨額索賠:一場數據爭奪戰
來源:站長新聞 2013-11-01
攪局者360面臨的巨額訴訟官司即將開庭。百度起訴奇虎360違反“Robots協議”(又稱機器人協議或爬蟲協議)抓取、復制其網站內容的不正當競爭行為,并索賠1億元人民幣。這個官司在今年2月便已立案,或許由于Robots協議太棘手,等了大半年才開庭。
Robots抓取案根源是百度數據優勢
筆者在今年1月6日便率先發現360內測360百科,大量詞條從界面風格、到詞條屬性、到擴展閱讀幾乎保持一致。當時我推測360搜索在2013年的發展方向或將是:在產品線上,360搜索完全走百度的模式——從新聞、網頁、問答、地圖、音樂到視頻等(軟件和應用搜索是360特有的)。不過奇虎360后續陸續推出了“雷電手機搜索”“軟件搜索”“良醫搜索”以及“購物搜索”,實現與百度產品的差異化。
一方面綜合搜索百度有先發優勢,有著十多年的數據和技術積累,360想在這方面趕超幾無可能;另一方面360爬取百度數據的做法,遭到后者多重打壓:既有懸在頭上的訴訟,也有重定向等技術手段。在360搜索結果點擊百度知道、百科等頁面,將被重定向,二次點擊使得用戶無法享受完整的搜索體驗。
當360搜索從無到有,并快速搶占22%(CNZZ最新)市場份額躋身中國搜索老二時,360在PC客戶端渠道掌控上優勢盡現,反過來,就搜索來說百度也有反制360的手段:數據。細心觀察Google、360等搜索引擎會發現,首頁結果出現百度知道、百科和貼吧內容的幾率非常大,搜搜問問、愛問知識人和奇虎問答則是補充。如果搜索引擎沒有百度的數據,用戶找到想要的結果的幾率會降低很多。
百度在2004年開始每年推出一個重量級產品:貼吧、知道和百科。現在百度的數據優勢顯示了當初UGC策略的英明之處。這些用戶創造的數據已經成為百度的核心資產,同時百度官方運營人員也功不可沒,而360直接將百度辛苦積攢的數據拿去使用,百度自然難以接受。數據是否豐富將很大程度決定搜索體驗。
Robots協議,網站維護自身利益的工具?
Robots協議是網站站長與搜索引擎之間共同討論后形成、通過Robots.txt落地。網站站長用它決定對搜索引擎的開放程度,引導爬蟲如何更有效地爬取自己。現被廣泛采用。Google、百度等搜索引擎均嚴格遵守。通常網站可以在服務器根目錄下的“Robots.txt”中指明哪些內容可以被搜索引擎抓取,哪些不可以;也可以指明對那個搜索引擎開放,或者對哪個不開放。限制某個搜索引擎,Robots初衷是限制“BadRob”,即壞爬蟲。所謂壞,是指存在安全或隱私問題,抑或太高頻率爬取導致服務器壓力。
事實上,Robots最初是用來約束搜索引擎的。搜索引擎夢想是獲取所有數據,Robots限制了這一點。Robots也可以設置站點地圖、屏蔽死鏈接以及減輕服務器壓力不讓爬蟲爬取大文件。但整體而言搜索引擎是不歡迎Robots的,據某站長介紹,如何要想從搜索引擎獲得更多流量,最好別用Robots文件。
不過百度是一家搜索公司,也是一家內容網站——當被Google、360等搜索引擎爬取時,李彥宏的角色就是網站站長。Robots協議對其也有保護作用。對360啟用Robots限制很大程度是為了維護自身數據優勢,防范競爭。Robots協議現在已逐步成為網站主維護利益的工具。
2008年淘寶屏蔽了Google、百度等搜索引擎也是利用Robots協議,理由是欺詐風險,今年淘寶屏蔽微信也是類似的理由。京東商城也通過Robots協議屏蔽了阿里旗下的購物搜索引擎一淘:因為一淘未經允許抓取京東商品評價,而這些評價花費了京東上億的積分激勵資源。屏蔽一淘得到蘇寧易購的效仿。
360對百度不滿意之處在于:百度的Robots采用了允許部分網站的方式,360被排除在外。其他搜索引擎例如搜狗就可以搜索百度內容。據接近百度內部人士介紹,搜索引擎要加入百度robots協議的白名單,一般需要與之簽署一份書面協議。盡管360前幾天與百度打了一場足球賽,但暫時應該還難以與之簽署書面協議。
顯而易見,百度屏蔽360、淘寶屏蔽百度、京東和蘇寧易購屏蔽一淘,均是利用Robots協議來應對競爭對手,而不是因為對方的爬蟲是“壞爬蟲”。
用戶創造內容的版權歸屬成為焦點
Robots的效力與“口頭約定”差不多。但進入搜索引擎行業的均會遵循這個游戲規則,這得靠自律。但是違反協議本身是否被法律制裁,現在難以判斷。如果爭論焦點圍繞著作權,屆時還要看360的行為是否符合避風港原則。
360認為百度不應該將Robots協議這么用,他們抓取的數據是用戶創造的,百度不應該屏蔽。并且百度不應該只對自己屏蔽。就算360覺得委屈,更合適的方式是推動Robots協議修訂,并且說服業界接受,這很難。但現在360采用不遵守協議直接爬取的方法,有點“以暴制暴”的感覺:“規則不公平,抑或有人濫用來對付我,我就不遵守這個規則。”
用戶創造內容是否可以不經過網站允許被抓取呢?百度用戶創造的內容并沒有明確的所有權歸屬。國內只有知乎等少數UGC社區有CC協議(知識共享),百度內容究竟是屬于用戶還是百度,UGC社區需要更加明確的版權協議。但360并不能因此就要求百度必須開放數據。況且這些數據的產生百度確實有所付出,例如運營、技術、軟硬件資源等。
那么國外有無先例呢?在12年前,美國加州北部的聯邦地方法院,eBay起訴Bidder’s Edg案中,Bidder‘Edg違反Robots協議抓取eBay數據,BE敗訴。但是在2011年4月微軟向歐盟起訴Google,因為Google限制競爭對手的搜索引擎正常訪問YouTube,微軟卻獲勝了。
難以預測本次百度起訴360案結局怎么樣,因為可以借鑒的先例也給出了不同的答案。不過本案結局勢必會給接下來國內的互聯網內容歸屬、非法律范疇協議糾紛值提供重大的借鑒意義。
本案也將很大程度影響360搜索此后的發展方向。2008年奇虎便推出了問答,但與百度知道還有差距。接下來360很可能會收購知乎這類內容社區,還會加強自有UGC社區建設,很簡單,如果人才智力是互聯網公司最有價值的流動資產,那么數據將是未來最重要的固定資產。360現在的數據集中在底層安全數據,應用型數據還太少。這是它冒著被索賠1億元的風險去爬取別家數據的根本原因。
文章編輯: 365webcall網站客服系統(www.365webcall.com)
我的評論
| 登錄賬號: | 密碼: | 快速注冊 | 找回密碼 |