Google收購 Kaggle 為什麼會震動三界(AI、機器學習、資料科學界)?

ADVERTISEMENT

在昨晚的 Google Cloud Next Google雲端計算開發者大會上,華人 AI 學界的驕傲、Google雲首席科學家李飛飛宣佈了一則重大訊息:Google收購 Kaggle。

其實,關於這事兒,近兩天陸續有風聲傳出。但Google和 Kaggle 對各路媒體總是一副“無可奉告”的態度,導致大家各自猜測,但無從證實。即便是李飛飛在 Next 大會上對全世界進行宣佈,也僅僅停留在“沒錯,我們是收購了 Kaggle,這事兒對雙方都有好處”的層面;對收購細節、未來計劃等資訊一概無涉,更不要提收購協議和價格。

但是,Google+Kaggle,即便不進行任何發酵,也是震動資料科學、AI、機器學習三界(好吧,在很多方面“三界”本是一體)的大事件。其衍生出來的潛藏資訊:對開發者社群的意義、行業走向,以及Google的機器學習佈局等——雖然當事者惜字如金,卻為嗅覺敏銳的觀察者帶來巨大的想象空間。這隱約使人聯想起 2014 年Google對 DeepMind 的收購:雖則後者與 Kaggle 不管在業務、還是運營方式上都完全不同,但 Kaggle 所掌握的行業資源,隻在 DeepMind 之上;兩次收購對於Google的意義,同樣位於極高的戰略層面。

李飛飛宣佈Google雲收購 Kaggle

下面我們來整理一遍,關於此次收購迄今為止披露的所有資訊。

Kaggle 簡介

凡是玩資料科學和機器學習的老司機,有兩個網站一定不會錯過:GitHub 和 Kaggle。前者用來分享,後者進行實戰練習。對於不熟悉 Kaggle 的童鞋,我們先來進行一段簡介。

簡而言之,Kaggle 是玩資料、ML 的開發者們展示功力、揚名立萬的江湖。

它在 2010 創立,專注於舉辦資料科學周邊的線上競賽。它吸引了大量資料科學家、機器學習開發者的參與,為各類現實中的商業難題開發基於資料的演算法解決方案。競賽的獲勝者、領先者,在收穫對方公司提供的優厚報酬之外,還將引起業內科技巨頭的注意,獲得各路 HR 青睞,為自己的職業道路鋪上紅地毯。

ADVERTISEMENT

因此,與 GitHub 不同的地方在於,Kaggle 為其社群提供了一整套服務。其中最有名的是它的招聘服務以及名為 Kaggle Kernels 的程式碼分享工具。

或許因為如此,Kaggle 社群在圈內極受歡迎:使用者基數大、粘性強。通常認為 Kaggle 平臺有幾十萬資料科學家。至於具體多少,有媒體認為是五十萬,有人說八十萬(李飛飛),還有人說超過一百萬。

總而言之,Kaggle 是當今最大的資料科學家、機器學習開發者社群,其行業地位獨一無二。

而大約一年前,Kaggle 開始全力在 AI、機器學習領域發力,相關競賽項目紛紛上馬。李飛飛評論道:

“Kaggle 是搜尋、分析公共資料集,開發機器學習模型,和提高資料科學專業水平的最佳場所。”

“AI 民主化”的使命

在大會上,李飛飛發表了主題為“讓 AI 民主化”的演講。在此次演講和之後撰寫的博文裡,她對Google收購 Kaggle 的意圖給出了官方版本的解釋:

“我強調 AI 民主化的重要性——我們必須降低進入 AI 領域的門檻,讓 AI 技術能為儘可能多的開發者社群、使用者和企業所用,讓 AI 被用於解決他們各自的問題和需求。Kaggle 加入Google,能加速這一程式。”

冠冕一些來講,推動 AI 技術的分享和推廣,是Google收購 Kaggle 背後的 “mission”,即使命。

加入Google之後的 Kaggle

ADVERTISEMENT

雖然Google對收購協議的內容進行保密,我們仍能從雙方已透露的資訊看出一些端倪。比如,有一件事是確定無疑的:Kaggle 將保留獨立品牌和團隊。

Kaggle 創始人 Anthony Goldbloom 也在昨晚發表博文,回顧 Kaggle 創立以來取得的成績,對支援 Kaggle 社群的開發者表示感謝,並透露了一些將來的計劃:

“ Kaggle 團隊仍會是一個整體,並將作為Google雲旗下的獨立品牌運營。我們會繼續擴充套件 Kaggle 上的競賽和開源資料平臺;並且我們會繼續對所有的資料科學家、公司、和技術敞開懷抱。Kaggle Kernels 會繼續對各類機器學習庫和工具包組成的多樣生態進行支援,不管其是否來自Google。

加入Google能讓我們實現更多。此次收購,把世界上最大的資料科學社群與最先進的機器學習雲結合到了一起。

加入Google後,我們能夠向社群提供Google雲技術。這將使大家能利用更強大的基礎設施和部署服務(deployment services),進行可擴充套件的訓練,並且幫助 Kaggle 擁有儲存、獲取大型資料集的能力。”

Anthony Goldbloom(圖片與本新聞無關)

李飛飛在大會和部落格上的表態,雖沒有 Anthony Goldbloom 詳細,但也印證了一些 Anthony Goldbloom 提到的一些要點。比如,飛飛老師說Google雲將為 Kaggle 社群成員提供雲機器學習開發環境,Kaggle 和Google雲將繼續支援訓練和部署服務,並幫助社群儲存、獲取大型資料集。

結合飛飛老師對 “AI 民主化”的表態,以及在大會上回溯她親手建立的 ImageNet、對資料庫重要性進行的強調;雷鋒網認為,我們應當可以期待Google雲在資料上為 Kaggle 提供強力支援,幫助 Kaggle 社群的開發者獲取更多、更有價值的資料集。而這確實擊中了資料科學家和機器學習開發者的一大痛點。這無疑也將直接提升Google對資料科學、機器學習社群的影響力,以及在其中的口碑和品牌認同。

收購 Kaggle 之後的Google

ADVERTISEMENT

Google的核心業務與 AI 緊密相關,也已經成為推動這一輪 AI 技術浪潮的主要玩家之一。AI、資料科學和機器學習對於Google的戰略意義,已毋庸贅言。自從去年 AlphaGo 與李世石的世紀之戰,Google的江湖聲望更是如日中天。

但是,在 AI 應用和技術的各個領域,如自動駕駛、語音識別、深度學習等,Google很可能已經感覺到壓力。眾所周知,Google Waymo 自動駕駛業務並不是一帆風順。在語音識別領域,微軟和 IBM 屢創紀錄。深度學習領域,Facebook AI 實驗室 FAIR,以及 OpenAI 都在生成對抗網路 “GAN” 這一前沿技術上投入巨大,產出豐厚研究成果。業內人士對於Google在 AI 技術上“領先”於其它對手的印象,已經不再那麼牢固(如果此前稱得上“牢固”的話)。

想要維持“老大哥”地位,就要進一步投入。而有一個領域是Google遠遠甩開對手的:沒錯,我說的是 Tensorflow。在深度學習開源工具上,Tensorflow 的市場佔有率遠遠超出其他任何框架、平臺。因此,對於開發者這一群體,Google的影響力具有天然優勢。而收購 Kaggle 則將這一優勢無限擴大。

當然,我們不要忘記,Kaggle 加入的部門是Google雲。與競爭對手亞馬遜 AWS、微軟 Asure 相比,Google雲的地位一直十分尷尬,市場佔有率遠遠落後於前兩者。此次的 Google Cloud Next 大會,重點其實是宣傳Google在雲端計算上的巨大投入和決心。而細看Google對於此次收購的官方表態,也不乏對Google雲將來能為 Kaggle 所提供的各種支援的強調。Google或許希望 Kaggle 能成為Google雲業務的一項突破口比如借 Kaggle 平臺讓開發者體驗Google雲、為後者做宣傳。至於其它具體玩法,現在不得而知,尚待將來觀察。

另外,外媒紛紛猜測,收購 Kaggle 可使Google在僱傭尖端開發人才上獲得便利。這是一個十分合情合理的推測。

周邊

Google與 Kaggle 的合作已經開始

雷鋒網訊息,上個月(2 月 16 日),Kaggle 與Google聯合舉辦了 Google Cloud & YouTube-8M Video Understanding Challenge。這是迄今為止世界最大規模的視訊理解挑戰賽。該挑戰要求機器學習開發者,尋找出自動標記 Youtube 視訊的方法。詳情請戳這裡。

澳大利亞媒體的哀嘆:“Google買走了我們的 Kaggle!”

雷鋒網瞭解到,Anthony Goldbloom 是墨爾本大學畢業生。他於 2010 年在悉尼創辦 Kaggle ,但在 2011 年將公司總部遷去了舊金山,這次更是直接被美國企業收購。不出意料,對這次Google收購 Kaggle 報道最積極的當屬澳大利亞媒體。這再次讓小編聯想起 DeepMind——以及它被收購後英國 AI 圈的反應。

» 雷鋒網

ADVERTISEMENT