AI Challenger 開賽:國(guó)內(nèi)最大規(guī)模深度學(xué)習(xí)數(shù)據(jù)集上線,ImageNet 冠軍、Kaggle 大賽優(yōu)勝者加入角逐
由創(chuàng)新工場(chǎng)、搜狗和今日頭條聯(lián)合宣布發(fā)起的 AI Challenger 挑戰(zhàn)賽,在今年的比賽時(shí)間為 9 月 4 日至 12 月 3 日,每雙周評(píng)出周冠軍,每個(gè)賽題中效果突出的團(tuán)隊(duì)還將進(jìn)行答辯,角逐總冠軍。目前,報(bào)名者已超過(guò) 1000 名,參賽隊(duì)伍超過(guò) 500 支,其中很多人來(lái)自國(guó)內(nèi)外 AI 實(shí)力強(qiáng)勁的高校、公司和機(jī)構(gòu),不乏過(guò)去各類比賽的獲獎(jiǎng)?wù)?,比?ImageNet 兩項(xiàng)任務(wù)冠軍、天池阿里移動(dòng)推薦算法大賽冠軍以及 Kaggle 大賽的眾多優(yōu)勝者。
本文引用地址:http://www.ex-cimer.com/article/201709/363897.htm隨著以 30 萬(wàn)張圖片為基礎(chǔ)的計(jì)算機(jī)視覺賽道數(shù)據(jù)集和以 1000 萬(wàn)對(duì)英中對(duì)照的句子為基礎(chǔ)的自然語(yǔ)言賽道數(shù)據(jù)集的上傳,第一屆 AI Challenger(AIC)在 9 月 4 日正式拉開帷幕。這個(gè)由創(chuàng)新工場(chǎng)、搜狗和今日頭條聯(lián)合宣布發(fā)起的挑戰(zhàn)賽,希望打造中國(guó)最大的科研數(shù)據(jù)集與世界級(jí) AI 競(jìng)賽平臺(tái),推動(dòng)中國(guó)人工智能領(lǐng)域科研創(chuàng)新。
圖:(左起)搜狗 CEO 王小川、創(chuàng)新工場(chǎng)創(chuàng)始人兼 CEO 李開復(fù)、今日頭條顧問(wèn)兼技術(shù)戰(zhàn)略研究院院長(zhǎng)張宏江 在 8 月 14 日的 AI Challenger 啟動(dòng)儀式上
第一屆 AIC 共開辟了兩個(gè)賽道、五個(gè)賽題,分別是自然語(yǔ)言/機(jī)器翻譯領(lǐng)域的英中機(jī)器同聲傳譯(English-Chinese Simultaneous Interpretation)賽題、英中機(jī)器文本翻譯(English-Chinese Machine Translation)賽題,以及計(jì)算機(jī)視覺賽道的場(chǎng)景分類(Scene Classification)賽題、 人體骨骼關(guān)鍵點(diǎn)檢測(cè)(Human Skeleton System Keypoints Detection)賽題和圖像中文描述(Image Caption)賽題。
在數(shù)據(jù)集上線前夕,機(jī)器之心和 AI Challenger 競(jìng)賽組委會(huì)執(zhí)行委員會(huì)成員、創(chuàng)新工場(chǎng)人工智能研究院副院長(zhǎng)王詠剛聊了聊,從「發(fā)起人」和「建設(shè)者」的角度談了談 AI Challenger 的選題考量、數(shù)據(jù)集建設(shè)情況以及長(zhǎng)期的展望。
計(jì)算機(jī)視覺賽道:更專門化、更貼近商業(yè)應(yīng)用場(chǎng)景、更有中國(guó)特色的賽題設(shè)置
創(chuàng)新工場(chǎng)本次主要負(fù)責(zé)了計(jì)算機(jī)視覺賽道數(shù)據(jù)集的建設(shè)。去年開始規(guī)劃 AI Challenger 的建設(shè)之后,團(tuán)隊(duì)咨詢了大量競(jìng)賽方面的專家。包括 ImageNet 的發(fā)起人李飛飛、來(lái)自 MS COCO 團(tuán)隊(duì)的負(fù)責(zé)人和在 CVPR 主辦競(jìng)賽及研討會(huì)的研究者。專家們認(rèn)為:后 ImageNet 時(shí)代,需求最大的不再是通用數(shù)據(jù)集,而是和商業(yè)應(yīng)用場(chǎng)景結(jié)合更緊密的前沿領(lǐng)域?qū)iT數(shù)據(jù)集。因此,AIC 的團(tuán)隊(duì)通過(guò)與中國(guó)較為前沿的和視覺相關(guān)的領(lǐng)域,如無(wú)人駕駛、醫(yī)療影像、安防等從業(yè)者進(jìn)行溝通,確定了以下這三個(gè)更加專門化的、更具有中國(guó)特色的數(shù)據(jù)集方向。
其中,人體骨骼關(guān)鍵點(diǎn)檢測(cè)在無(wú)人駕駛領(lǐng)域和安防領(lǐng)域都有眾多應(yīng)用場(chǎng)景。無(wú)人駕駛需要純視覺方案來(lái)感知行人的動(dòng)作。這里的感知遠(yuǎn)比「識(shí)別」、「確定位置」要復(fù)雜。因?yàn)樾腥说膭?dòng)作模式非常多樣,對(duì)行人的動(dòng)作意圖檢測(cè)要遠(yuǎn)遠(yuǎn)難于對(duì)車的檢測(cè)。在現(xiàn)在前沿的行人動(dòng)作姿態(tài)檢測(cè)算法中,基于人體骨骼關(guān)鍵點(diǎn)的算法是其中一類主流算法,而這類主流算法的準(zhǔn)確度還不那么理想。而在安防領(lǐng)域,取得不錯(cuò)成果的人臉識(shí)別課題其實(shí)只覆蓋了安防領(lǐng)域中的「身份識(shí)別」這一個(gè)非常小的場(chǎng)景,而且需要在臉部相對(duì)比較清晰、完整的情況下進(jìn)行。但在更多的場(chǎng)景中,人的臉部都不一定清晰,而且需要分析人的整體動(dòng)作進(jìn)行追蹤。在人體追蹤技術(shù)里,人體骨骼關(guān)鍵點(diǎn)也是其中的重要因素。
「圖像描述任務(wù)是當(dāng)下的一個(gè)熱點(diǎn)方向,因?yàn)樗暮诵氖强缒J?、多模態(tài)的學(xué)習(xí)?!雇踉亜傟U述自己對(duì)圖像描述的理解。人工智能現(xiàn)在已經(jīng)能很好地完成感知(perception)任務(wù)了,在「從聲音和圖片中識(shí)別出內(nèi)容」這項(xiàng)工作上甚至可以取得勝過(guò)人類的成果。然而「語(yǔ)義理解」工作方面卻一直未見長(zhǎng)足進(jìn)展。圖像描述任務(wù)需要把感知模塊得到的結(jié)果用一定方法轉(zhuǎn)為文本內(nèi)容,是一個(gè)從感知到理解的過(guò)渡項(xiàng)目。當(dāng)前的圖像描述一般以 MS COCO 數(shù)據(jù)集為標(biāo)準(zhǔn)數(shù)據(jù)集,MS COCO 是一個(gè)包含 14 萬(wàn)張圖片的數(shù)據(jù)集,每張圖片有 4 - 5 句英文描述。在此基礎(chǔ)上,AIC 希望建設(shè)一個(gè)中文的圖像描述數(shù)據(jù)集,第一檢測(cè)現(xiàn)有的算法應(yīng)用到中文數(shù)據(jù)上效果如何,第二嘗試在此基礎(chǔ)上是否能做出有針對(duì)性的算法來(lái)增強(qiáng)效果。
圖像分類任務(wù)是上兩個(gè)問(wèn)題的「副產(chǎn)品」,人體骨骼關(guān)鍵點(diǎn)監(jiān)測(cè)和圖像描述都涉及了大量的場(chǎng)景,AIC 把其中的典型場(chǎng)景和一些可能帶來(lái)挑戰(zhàn)的場(chǎng)景結(jié)合起來(lái),篩選了 80 個(gè)場(chǎng)景下的 8 萬(wàn)張圖片,設(shè)計(jì)了一個(gè)相對(duì)簡(jiǎn)單,可以讓更多對(duì)深度學(xué)習(xí)感興趣的人參與進(jìn)來(lái)的問(wèn)題。
人體骨骼關(guān)鍵點(diǎn)和圖像描述的標(biāo)注難度都遠(yuǎn)大于 ImageNet 傳統(tǒng)的物體檢測(cè)、定位標(biāo)注。創(chuàng)新工場(chǎng)以及其他兩家合作伙伴在數(shù)據(jù)集的建設(shè)上投入了大量的人力物力,與多家團(tuán)隊(duì)合作完成了標(biāo)注工作。機(jī)器之心了解到,今年的計(jì)算機(jī)視覺數(shù)據(jù)標(biāo)注工作動(dòng)員了超過(guò) 100 名專業(yè)標(biāo)注員,創(chuàng)新工場(chǎng)也成立了 12 人的質(zhì)檢團(tuán)隊(duì),專門負(fù)責(zé)用基線模型對(duì)不同批次的標(biāo)注數(shù)據(jù)進(jìn)行交叉驗(yàn)證??偼度胧仟?jiǎng)金池投入的 4-5 倍,而計(jì)算機(jī)視覺方向的獎(jiǎng)金池規(guī)模累計(jì)大于 100 萬(wàn)人民幣。
今年的計(jì)算機(jī)視覺賽道數(shù)據(jù)集(訓(xùn)練集)以 21 萬(wàn)張圖片為基礎(chǔ),其中人體骨骼關(guān)鍵點(diǎn)檢測(cè)的訓(xùn)練集中包含了超過(guò) 35 萬(wàn)個(gè)人物,使用的圖片覆蓋了超過(guò) 250 種日常生活場(chǎng)景,壓縮后數(shù)據(jù)集大小為 14.8G;圖像中文描述的訓(xùn)練集包含了 105 萬(wàn)句中文描述,覆蓋了超過(guò) 200 種日常生活場(chǎng)景,壓縮后數(shù)據(jù)集大小 19.2G。
圖:人體骨骼關(guān)鍵點(diǎn)訓(xùn)練集中,14 個(gè)關(guān)鍵點(diǎn)的分布情況。其中,藍(lán)色代表「標(biāo)注且可見關(guān)鍵點(diǎn)」,橙色代表「標(biāo)注但不可見關(guān)鍵點(diǎn)」,綠色代表「未標(biāo)注關(guān)鍵點(diǎn)」(關(guān)鍵點(diǎn)在圖像外)
圖:計(jì)算機(jī)視覺日常場(chǎng)景分布圖,典型場(chǎng)景包括:球場(chǎng)、道路 、運(yùn)動(dòng)場(chǎng)、舞臺(tái)、房間、大廳、草地等等
王詠剛:打造越來(lái)越全面和多樣化的數(shù)據(jù)集是未來(lái)目標(biāo)
今年的比賽時(shí)間為 9 月 4 日至 12 月 3 日,為期三個(gè)月。每雙周會(huì)評(píng)出周冠軍,每個(gè)賽題中效果突出的團(tuán)隊(duì)還將進(jìn)行答辯,角逐總冠軍。自啟動(dòng)儀式開放報(bào)名以來(lái),平臺(tái)已經(jīng)匯聚了來(lái)自世界各地的超過(guò) 1000 名參賽者和超過(guò) 500 支參賽隊(duì)伍。他們中很多人來(lái)自國(guó)內(nèi)外 AI 實(shí)力強(qiáng)勁的高校和公司機(jī)構(gòu),其中不乏過(guò)去各類比賽的獲獎(jiǎng)?wù)?,比?ImageNet 兩項(xiàng)任務(wù)冠軍、天池阿里移動(dòng)推薦算法大賽冠軍以及 Kaggle 大賽的眾多優(yōu)勝者。
王詠剛表示,AI Challenger 并非只舉辦一年,而是一個(gè)長(zhǎng)期的愿景。一家投資、孵化了三十余家 AI 公司的投資機(jī)構(gòu),兩家以科研、技術(shù)能力著稱的互聯(lián)網(wǎng)公司,這三家主辦方承諾在 3 年內(nèi)投入數(shù)千萬(wàn)元人民幣,建設(shè)這個(gè)集科研數(shù)據(jù)集與 AI 競(jìng)賽為一體的平臺(tái)。今年開放的兩個(gè)賽道五個(gè)賽題,也只不過(guò)是「萬(wàn)里長(zhǎng)征第一步」。
「我們的偉大理想是建造一個(gè)世界一流的數(shù)據(jù)集,這不是一個(gè)一蹴而就的過(guò)程,需要幾年的時(shí)間慢慢打造?!雇踉亜傉f(shuō)。第一年,AIC 雖然都是學(xué)術(shù)研究前沿方向,然而出于謹(jǐn)慎的態(tài)度,只選擇了幾個(gè)「點(diǎn)」來(lái)進(jìn)行嘗試。團(tuán)隊(duì)希望在未來(lái),數(shù)據(jù)集能越來(lái)越全面和多樣化。王詠剛表示,在數(shù)據(jù)集公布后,他們會(huì)將過(guò)程和經(jīng)驗(yàn)整理為論文,在 CVPR 等會(huì)議上與研究者交流,更多地搜集研究者對(duì)數(shù)據(jù)的需求,為明年的數(shù)據(jù)集建設(shè)提供指導(dǎo)意見。
王詠剛認(rèn)為,數(shù)據(jù)集建設(shè)的路上還有很多高山等待著 AIC 去攀登,這其中包括視頻數(shù)據(jù)、虛擬系統(tǒng)生成數(shù)據(jù)等更多樣化的數(shù)據(jù)形式,也包括醫(yī)療影像數(shù)據(jù)等數(shù)據(jù)集的體量問(wèn)題,以及數(shù)據(jù)集外的標(biāo)注成本、版權(quán)問(wèn)題、隱私問(wèn)題亟待考慮與解決。
如同創(chuàng)新工場(chǎng)創(chuàng)始人兼 CEO 李開復(fù)在啟動(dòng)儀式上提到的,AI 在我國(guó)推進(jìn)的最大落差就是數(shù)據(jù)的落差。而 AIC 希望以競(jìng)賽平臺(tái)的形式給更多學(xué)生、學(xué)校、實(shí)驗(yàn)室和新創(chuàng)公司提供數(shù)據(jù)與計(jì)算能力,從而提升整個(gè)中國(guó)的人工智能水平。「希望當(dāng)我們?cè)谌迥旰蠡仡檿r(shí),當(dāng)我們看到中美 AI 人才沒有落差時(shí),也許會(huì)想到 AI Challenger 在這個(gè)重大過(guò)程中扮演了一個(gè)小小角色。」李開復(fù)如是說(shuō)。
評(píng)論