格靈深瞳趙勇:人臉識別怎麼讓《疑犯追蹤》成真?

ADVERTISEMENT

看過《疑犯追蹤》的人,是否對其中的人工智慧嘆為觀止?那麼,像劇中那樣能夠讓裝置做到深度感知和行為認知,進而發現潛在風險的“天眼”,真能在現實中出現嗎?

格靈深瞳創始人、CEO 趙勇

“要瞭解我們在做什麼,我推薦一部美劇,叫做《疑犯追蹤》。”格靈深瞳聯合創始人、CEO趙勇一本正經地告訴創業家&i黑馬。

這並不是一部簡單的罪案類美劇。除了懸疑外,其中還加入了極強的科技因素:超級AI。這不是影視劇裡常見的和人類非要搞出個你死我活的機器“生物”,而是與人類相互學習、協助破案的異國“天網”。它能把國家每個角落的影象和語音資訊整合,自動理解,並把結果深度關聯,匯報出潛在的風險。“這正是我們想做的一件事。”趙勇說。

格靈深瞳從事的是計算機視覺和深度學習的技術研發,它的公司slogan就是一句簡單的話語:“讓計算機看懂世界”。趙勇是美國布朗大學計算機工程系的博士,曾在Google總部研究院擔任研究員,同時,他也是Google Glass早期的核心研發成員。2013年,趙勇創辦了格靈深瞳。目前,公司研發的皓目行為分析儀已經進入5家大型銀行監控系統,威目車輛分析特徵識別系統進入多地公安局視訊偵查系統和交通管理系統。

這是一家頗有些神祕的公司。據說,其中的員工都是來自海內外名校的學霸,要想加入,比考入哈佛難度還高。而這些“極客”們,辦公的地點,卻是與之形成了極大反差的,頤和園臨河古色古香的一所僻靜的四合院。也就是在這裡,趙勇和黑智談到了自己創業的原由,以及格靈深瞳現在的技術發展目標。

計算機視覺和深度學習密不可分

如今在百度就職的吳恩達博士,曾參與“Google大腦”項目的研發。在2012年,Google大腦通過學習了上百萬張圖片,從中識別出了“貓”,震驚了世界。吳恩達也因此成為全球深度學習領域的頂尖學者。

格靈深瞳的計算機視覺,也與深度學習密切結合。在這裡,機器通過學習裝置捕捉到的影像,能夠識別影象,認知這個世界。

用趙勇的話來說,計算機視覺,簡單來說,就是“用計算機來解決視覺問題”。而深度學習作為機器學習中的一種方法,所對應的,實際上就是演算法。“深度學習和計算機視覺現在已經是密不可分的了。當然,這並不是說深度學習能夠解決計算機視覺裡的所有問題。”趙勇說。他舉例道,在計算機視覺裡,比如幾何類型的問題,比如光學的問題,都有其他的解決方法。像自動駕駛裡非常重要的怎麼獲取深度、怎麼測量速度、怎麼測量障礙物等問題,可以通過鐳射雷達或者超聲波等其他方法解決,這和機器學習並沒有什麼關係。

“但是我們做人臉識別或者影象等識別時,是和機器學習相關的。如果今機器學習沒有進展到深度學習,那麼我們今天在很多領域的各種指標,還會處於一個非常原始的狀態。”趙勇表示。深度學習和神經網路,正在幫助格靈深瞳研發出自己的智慧裝置,讓它們具備識圖能力,並且在安防、自動駕駛和醫療等領域發揮作用。

ADVERTISEMENT

在趙勇看來,這正是如今人工智慧逐漸走向商業化熱潮的一大原因。“人工智慧現在已經是第三次浪潮,如果說它前兩次浪潮有什麼區別,我認為,就是技術成熟到了一定程度,更接近實用了,更接近工業界的期待了。機器學習作為一種技能,它已經在不同的領域,如計算機視覺、語音識別的領域,推動它逐漸走向商業化了。現在很多學者離開了實驗室,開始創業,為什麼?因為他們感覺到,這已經可以產品化了。”

十年之後智慧化將不能阻擋

“我們是很幸運的。”趙勇說。在

2013年,人工智慧並沒有被很多人所瞭解,計算機視覺更是個大多數人陌生的領域,但是,那年剛剛誕生的格靈深瞳,仍然罩上了一層光環。

格靈深瞳成立三個月後,就獲得了真格基金和聯創策源的聯合天使投資。2014年格靈深瞳宣佈,拿到紅杉資本 A 輪數千萬美元的投資。業界也曾流傳,真格基金徐小平和聯創策源創始合夥人馮波對格靈深瞳高估值的傳說。

但是,在趙勇的回憶裡,那時還是個艱難的時期。當時O2O還大行其道,技術創業並不被重視,那時趙勇和人講自己的技術語言,基本還沒人聽得懂,“而且沒人在意。很多投資人見到我,隻對一個事情感興趣,就是Google眼鏡。他們說:你能不能山寨一個Google眼鏡,能做的話,我就投你;別再講人工智慧,你還沒有搞清楚辦企業和當大學老師的差別。”趙勇對創業家&i黑馬感慨。“當時遭受的主要都是打擊。”

2012年,剛剛見到徐小平時,趙勇曾對他說:“現在是1977年。”那是個人電腦開始逐漸成為主流PC代表的時期。而在趙勇看來,當時人工智慧的發展,和那個時代的意義差相彷彿。“或許今天我們不能看出哪個公司會成功,但是我想20年後,當人們回過頭來評價中國最好人工智慧公司的時候,一定是這個時期誕生的。”

“誰能成為未來發展最好的公司,往往是要看,誰能挺過最艱難的時候。”趙勇說。這也是他認為自己“幸運”的原因,在投資人的支援下,格靈深瞳堅持了下去。

這是個投資未來的時機。

當初Google眼鏡的研發,就是出於探索未來的目的。“未來人和資訊連線的入口,到底還是不是手機,這是一個很難辯論的問題。”趙勇說。“當時我們做Google眼鏡,也是在暢想,如果有一天有一樣東西能夠代替手機,它會是什麼?是不是有一種裝置,你在使用它的時候它就已經在你眼前了,而不需要把你的視線從生活中移開來?”

儘管Google眼鏡最終還是沒能獲得成功,但是,語音識別、影象識別等,正在逐漸成為新的智慧生活互動入口的道路之上。隨著演算法的進步,大資料的發展,人工智慧逐漸站上了風口,儘管人工智慧的發展前景仍然無法全面預測,但是智慧化,卻已成為大勢所趨。

“紅杉有一個觀點是,所有的公司最後都會變成人工智慧公司,我覺得是有道理的。”趙勇說。“我們的家庭,我們的個人資訊裝置、醫療體系、基礎設施,所有的東西都會越來越智慧化。比如說滴滴,它的前半場是O2O公司,下半場一定是人工智慧公司。因為日後最核心的競爭就在於如何把交通出行的效率提到最高,而要達到這個目標,光靠人是不行的,它將需要更智慧的體系。”

ADVERTISEMENT

那麼,格靈深瞳涉足的計算機視覺領域,又將會在哪些行業裡最先落地爆發呢?安全、汽車、醫療,這是趙勇給出的答案。

格靈深瞳成立之後,首先選擇的行業突破口就是安防。這是因為,大多數安防、監控產品,仍然隻是影象性的,隻能做到實時播放、抓取和儲存影象。

“疑犯追蹤”雖然隻是一部影視作品,但卻開啟了可想象的未來。安防產品所需要的,也正是能夠讓裝置做到深度感知和行為認知。“如果要我預測的話,三年以內,國內安防的主流產品和頂尖產品,必然是人工智慧的。十年之內,國內的攝像頭沒有完成智慧化,我是不相信的。我認為,這個程度至少會達到90%以上。海康、大華等國內安防公司,用十年左右完成了國內安防行業的數字化、網路化,那麼十年後,這個行業將邁進人工智慧化。”趙勇說。“自動駕駛也是一樣。特定環境下的自動駕駛汽車,我認為明年就會出現。但如果是能夠在公共道路上行駛的,我認為五六年之內還不太可能出現。但如果是10年之後,如果還是沒有,我會感到很驚訝。”

格靈深瞳威目車輛特徵識別系統

下注安防、汽車和醫療賽道

視訊監控在安防領域已經發揮了重要的作用。“天網”的建立,讓大多數公共場所的行為資訊得到了監控。在北京,現在就已經有了超過200萬個攝像頭在各處發揮作用。在現在的監控網路下,如果有犯罪行為,是很難做到毫無線索遺留。

而在這些數量巨大的攝像頭,攝錄的龐大的資料量中,尋找線索也是一件艱钜的任務。當一個人或物體從一個攝像頭移動到另外一個攝像頭的時候,追蹤其蹤跡,需要將其從其他影象中,重新識別出來。

格靈深瞳試圖打造的,就是一個利用人工智慧去分析線索的系統。格靈深瞳推出了威目檢視大資料系統,包括威目車輛特徵識別系統、威目視訊結構化系統、威目檢視大資料分析平臺三部分。威目車輛分析特徵識別系統,它能夠做到車輛識別。系統能夠辨識超過3000種車輛,它能夠識別出車型、車款、顏色、車牌、年檢標、遮陽板、紙巾盒、掛件、擺件、安全帶等10大特徵。對於上路的無牌車、模糊或故意遮擋車牌的車輛,它可以識別車牌的細分特徵,並且實現無論白天或黑夜,以及車頭、車尾均能自動識別。

假想一下這樣的應用場景。當警方提供一張車輛照片,格靈深瞳的威目,可以在交通視訊中,尋找到該車輛的行動軌跡。或者當你提供某種車輛的顏色、車型、尾號等資訊,它能夠通過結構化資訊搜尋,檢測到相關的影象或視訊資訊。

“這輛車駛過,它是什麼顏色的,車牌號碼是什麼,它的年檢標貼了嗎?駕駛人是誰,他有沒有系安全帶,有沒有在開車的時候抽菸或者打電話?我們都可以識別出來。”趙勇說。

同時,威目的視訊結構化系統能夠支援人/車/三輪或二輪車的分類與抓拍,支援車輛和人體的細分特徵識別,同時具備人臉識別功能,可以對動態、靜態的人臉進行檢測和識別。

ADVERTISEMENT

“今天我們可以做到,在幾千個資料庫裡面搜尋一個人,就像Google一樣可以搜尋結果,並且有很高的機率把正確的結果放到比較靠前的位置。”趙勇說。而這樣,如果要檢索一個人的行動軌跡,那麼,以往可能要通過看四五個小時的視訊來尋找,而現在,系統可以把符合特徵的人在十幾分鐘內列出。通過人工輔助,確定物件後,通過標籤標出關聯資訊,得到這個人的完整活動軌跡。而這,將使得情報檢索的成本大大降低。

安防是格靈深瞳商業化的主要市場。目前,威目車輛分析特徵識別系統已經進入了多地市公安局視訊偵查系統和交通管理系統。

此外,格靈深瞳還推出了皓目人體行為分析系統。“在小範圍內,比如我們幾個人,有沒有打架,有沒有人摔倒,有沒有人在不該接近你的時候接近了你,有沒有人在面對敏感裝置時做了什麼事?它可以提供監控分析。”趙勇表示,截止到去年12月份,該系統已經在30多個銀行做了試點,並且在中國目前最大的銀行之一的總行入圍採購名單。

格靈深瞳皓目行為分析儀

另外,還有一件需要攻克的事情是,如何將監控鏡頭中的影象清晰地識別出來。“大多數的時候,攝像頭是看不清人臉的。要看清一張臉,在高清攝像頭裡,人臉距離攝像頭的距離也必須要在四五米以內才行。”趙勇介紹。例如,當一個人出現在視訊畫面裡,20米外,他的臉孔就可能還不到18*18個畫素,他的模樣是無法準確辨別出的。如果要解決這個問題,就需要有一個更加高清解析度的相機。格靈深瞳寄予厚望的人眼攝像機已經研製成功,並在2016年下半年正式釋出,預計在2017年初開始銷售。它採用獨創的畫素動態瞬時分配技術,在距離人體50米外,可以達到數億級等效畫素,展現清晰人臉。

堅信汽車行業未來將被人工智慧顛覆的趙勇,在研發了一年多的無人駕駛之後,認為這是個長長的鏈條,需要引入更多的資源。2016年2月,趙勇聯合前英特爾研究院院長吳甘沙、國家智慧車未來挑戰賽前冠軍團隊負責人薑巖等一同創辦了馭勢科技,專注於無人駕駛和自動駕駛,為整車廠提供相應方案。

而就在2017年1月,馭勢科技在CES上,展出了自己研發的無人車“城市移動空間”。據吳甘沙表示,馭勢科技無人駕駛方案將在2017年商業化試運營、未來兩年實現量產。

馭勢科技在CES2017上展出的“城市移動空間”

醫療影象識別同樣是格靈深瞳深入的重點行業。格靈深瞳從消化道窺鏡入手,檢測息肉腺瘤和腫瘤。“現在我能透露的就這麼多了。”趙勇說。

安全、醫療與汽車,“我選擇的方向都是和生命息息相關的。”趙勇說。“不是說娛樂、影視等行業不需要人工智慧,而是我要做最重要的需求。尤其是,每一種新興技術,都必須要從2B做起,我們要做的,必須是客戶的剛需。”

所有的高新技術,一開始時,必然是成熟度不高,且隻能在專業的監督環境下工作,複雜工作場景是它還不能應付的。“這也就決定了,人工智慧最先開始的,必然是企業應用。”趙勇說。“第一,它還很貴;第二,它還並不成熟,隻能適應單一的環境,在複雜的環境容易出問題。所以它必須得成為某一個客戶的剛需,人家才會在它不成熟的時候去應用,而這種客戶往往是政府或者是大企業的客戶,它們有的需求太強了,必須這麼做,而且又不差錢。隻有等到技術成熟了,價格降低了,它才可能應用到C端。”

在計算機視覺領域,目前已經存在著眾多技術創業公司,其中也不乏明星企業的存在。但趙勇並不擔心,行業競爭將會因此爆發。“整個安防行業那麼大,光視訊這部分每年都有超過1000億的銷售額,在這千億市場裡面,智慧化佔了多少?我覺得連千分之一可能都不到。我們要怎麼每年擴大我們的銷售額?我覺得,這才是我們現階段應該關心的事情。”

而格靈深瞳下一步要專心去做的事,則是如何做到專業化、產品化、讓產品落地。“我們以前是更加偏向演算法的公司,所以,我們下一步要考慮的是,未來如何跟產業、跟我們的客戶、跟銷售離得更近一些,把產品設計得離使用者的業務系統更近一些。”趙勇說。

推薦關注黑智微信(ID:VR-2014)

» 黑智

ADVERTISEMENT