AI Challenger

AI Challenger

“AI Challenger全球AI挑戰賽”是由創新工場、搜狗和今日頭條聯合發起的AI科技競賽,於2017年8月14日啟動。 “AI Challenger全球AI挑戰賽”旨在打造中國最大的科研數據集與世界級AI競賽平台,推動中國人工智慧領域科研創新。 “AI Challenger全球AI挑戰賽”第一年啟動將開放超過1000萬條中英文翻譯數據、70萬個人體動作分析標註數據、30萬張圖片場景標註和語義描述數據,是國內迄今公開的規模最大的科研數據集。

賽事介紹

“AI Challenger全球AI挑戰賽”面向人工智慧領域科研人才,致力於打造大型、全面的科研數據集與世界級競賽平台。由創新工場、搜狗、今日頭條聯合創建,旨在從科研角度出發,滿足學術界對高質量數據集的需求,推進人工智慧在科研與商業領域的結合,促進世界範圍內人工智慧研發人員共同探索前沿領域的技術突破及套用創新。首屆大賽於2017年8月14日面向全球正式發布。

數據集是人工智慧領域科學研究、技術產品研發的核心基礎之一,與算法同樣重要。成規模、高質量的數據集建立需要專業的技術團隊和較大的資金投入,並非易事,這對學術研究以及人工智慧行業的發展是一個不小的制約。作為國內最大的非商業化競賽平台,AI Challenger投入數千萬啟動基金,解決數據集缺失的問題,為人工智慧科研提供海量數據及算法競賽、人才交流平台,輔以強大的學術界和產業界專家指導,全力支持與幫助國內外的高校、研究機構、產業界的研發團隊。AI Challenger以服務、培養人工智慧高端人才為使命,共同打造良性可持續的人工智慧科研新生態!

2017年是AI Challenger的誕生年,我們將公布百萬量級的計算機視覺數據集、千萬量級的機器翻譯數據集,並主辦多條細分賽道的AI競賽。其中,計算機視覺數據集包含以人體動作分析為主的人體骨骼關鍵點數據集、圖像中文描述數據集;機器翻譯數據集包含以口語對話為主的英中機器翻譯數據集,等等。首屆“AI Challenger 全球AI挑戰賽”將於9月4日正式拉開帷幕,各路高手展開為期三個月的比拼,並於12月中旬進行總決賽巔峰對決。獲獎團隊將分享合計超過200萬人民幣的獎金。

未來,“AI Challenger全球AI挑戰賽”將持續投入,建設和發布更大規模的AI前沿領域高質量數據集,涵蓋自動駕駛、智慧醫療、智慧金融、機器人等行業套用中的核心AI需求,主辦世界級的年度AI競賽,吸引世界範圍內的高端AI研發人才,促進人工智慧科研生態的持續健康發展。

AI Challenger,科研大數據,智慧競技場!

社會背景

數據、算法、計算能力是人工智慧的三大基石,其中,數據更是人工智慧科研的最寶貴資產。沒有足夠好的數據,就無法取得世界頂級的科研成果。在此方面,學術界和創業團隊所能獲得的數據資源通常遠少於產業界中的頂級企業。因此,將高質量的數據集建設與科學研究、技術產品研發、人才培養有效結合,對人工智慧發展具有重大意義,也是身為產業先驅應盡的一份社會責任。

“AI Challenger全球AI挑戰賽”正是在這樣的情況下應運而生,由創新工場、搜狗、今日頭條共同發起,於2017年8月向全世界發布。AI Challenger將結合前沿的科研及學術關注點,在多個領域,建設並開放高質量數據集,同時舉辦世界級的人工智慧算法競賽,激發學術界、產業界對人工智慧研發的積極性,推動人工智慧生態的發展。

賽事委員會

競賽主席

李開復:創新工場創始人兼CEO,人工智慧工程院院長,IEEEFellow

王小川:搜狗CEO

張一鳴:今日頭條創始人兼CEO

執行委員會

馬維英:今日頭條副總裁兼人工智慧實驗室主任,IEEE Fellow

王嘉平:創新工場人工智慧工程院副院長

王硯峰:搜狗語音互動技術中心總經理

王詠剛:創新工場人工智慧工程院副院長

楊洪濤:搜狗CTO

張宏江:今日頭條顧問兼技術戰略研究院院長,IEEE Fellow,ACM Fellow

計算機視覺指導委員會

劉世霞:清華大學副教授

馬毅:上海科技大學教授,IEEEFellow

孫劍:曠視科技首席科學家

王亮:中科院自動化所研究員兼模式識別國家重點實驗室副主任,國家傑青

王亦洲:北京大學長聘教授,國家傑青

機器翻譯指導委員會

黃書劍:南京大學副教授

林德康:奇點機智聯合創始人,原谷歌研究院高級管理科學家,ACL Fellow

劉洋:清華大學副教授,國家優秀青年基金得主

史曉東:廈門大學教授

趙鐵軍:哈爾濱工業大學教授,中文信息學會常務理事

賽事說明

賽程安排

2017年9月4日-2017年9月24日:

開放訓練數據集以及驗證數據集,參賽選手可以自行下載數據,在本地進行算法設計、模型訓練及評估。

2017年9月25日-2017年12月3日:

(1)開放測試數據集A集,參賽選手可自行下載數據,在本地使用先前訓練的模型進行預測,生成預測結果並提交至平台。結果提交後,系統會按照評測指標實時反饋分數,並更新榜單排名。

(2)每隊每周最多可提交2次(不同比賽提交次數會有調整)。

(3)榜單以所有參賽隊伍的歷史最優成績進行排名。當有團隊提交新的預測結果之後,榜單將實時更新。

雙周賽:

從9月25日至11月20日期間,組委會將舉辦4次雙周賽。10月9日將公布第一次雙周賽排名前三的隊伍,頒發獎金及證書。之後每兩周公布一次排名前三的隊伍名單,一共頒發四次雙周獎。

測試數據集B集:

最終榜單公布前,公布測試數據集B集,具體開放時間待定。B集開放之後,成績榜單將採用選手模型在測試數據集的B集上的預測結果表現,作為排名依據。

2017年12月3日:

預測結果提交截止。本次榜單決定場景分類競賽年度的獲獎隊伍,其他競賽將進入到下一輪的答辯環節。

2017年12月16日(暫定):

(1)人體骨骼關鍵點檢測、圖像中文描述、英中機器文本翻譯、英中機器同聲傳譯四個競賽系統最後一次榜單成績排名前五的隊伍將在當天受邀來到現場進行答辯,特殊情況可以遠程答辯,具體安排另行通知。

(2)參賽隊伍應提前準備答辯材料,包括PPT、算法代碼等。

(3)榜單成績和答辯成績的加權總成績將決出這四個競賽最終的大獎。同時,五個競賽的冠亞季軍及獲得優勝獎的隊伍將受邀來到現場參加頒獎典禮。

獎金設定

總獎金池超過200萬元人民幣。

競賽說明

(一)計算機視覺賽道

1、人體骨骼關鍵點檢測競賽

賽題介紹

人體骨骼關節點對於描述人體姿態、預測人體行為至關重要,是諸多計算機視覺任務和人工智慧套用的基礎。本次競賽邀請參賽者設計算法與模型,對自然圖像中可見的人體骨骼關節點進行檢測。

本次競賽的研究成果可以被直接套用於動作分類和識別,動作捕捉,圖像和視頻內容理解,人機互動,自動駕駛(行人動作和意圖識別),安防(異常行為檢測),無人零售(消費者行為理解)等領域。

數據集特色

作為人物動作理解的基礎數據集,此次發布的人體骨骼關鍵點數據集是目前規模最大,場景、人物動作及身體遮擋情況最複雜的數據集。此數據集標註了共30萬張圖片,包含了超過100種複雜生活場景內的實際人物動作與姿態,標註人物個數達到70萬量級,遠超過MSCOCO的10萬人,以及MPII的4萬人量級。該數據集將挑戰現有主流算法的魯棒性。

2、圖像中文描述競賽

賽題介紹

圖像中文描述問題融合了計算機視覺與自然語言處理兩個方向,是用人工智慧算法解決多模式、跨領域問題的典型代表。參賽者需要對給定的每一張測試圖片輸出一句話的描述。描述句子要求符合自然語言習慣,點明圖像中的重要信息,涵蓋主要人物、場景、動作等內容。此次發布的圖像描述數據集以中文描述語句為主,與同類科研任務常見的英文數據集相比,中文描述通常在句法、詞法上靈活度較大,算法實現的挑戰也較大。

本次競賽的研究成果可以被直接套用於圖像與視頻語義理解、圖像與視頻自動標註、圖像與視頻內容檢索、人工智慧輔助教育、機器人視覺、盲人輔助等人工智慧相關領域。

數據集特色

圖像中文描述數據集,是計算機視覺與自然語言處理兩個學科的交叉結晶。該數據集是目前規模最大、場景和語言使用最豐富的圖片中文描述數據集,使用了超過100種複雜生活場景的含有人物的圖片,其場景複雜度、人物動作複雜度、身體遮擋情況都高於現有的其他數據集;而且,此數據集的語言描述標註更符合中文語言使用習慣。

相對於MSCOCO和Flickr8k-CN,在完整描述圖片主體事件的基礎之上,該數據集創新性的引入了形容詞和中文成語,用以修飾圖片中的主要人物及背景事件,大大提升了描述語句的豐富度。同時,本數據集的30萬圖片標註量將遠遠大於Flickr8k-CN(8000張圖)。巨大的數據量和複雜的圖片場景將直接挑戰現有算法的可用性。

3、場景分類競賽

賽題介紹

本次場景分類競賽從400萬張網際網路圖片上精選出10萬張圖片,分屬於80個日常場景類別。每個場景類別包含大約1000張圖片。要求參賽選手根據圖片場景數據集建立算法,預測每張圖片所屬的場景類別。

(二)機器翻譯賽道

數據集特色

本次公開的機器翻譯的訓練數據為英中方向的高質量、大規模的口語領域的數據。訓練數據全部經過譯員檢查和矯正,句正確率在97%以上,英中雙語句對對照工整、質量高、噪音低。現有中英機器翻譯評測比賽採用有效數據從30萬(例如,The International Workshop on Spoken LanguageTranslation)到900萬(例如,ChineseWorkshop on MachineTranslation)不等。而此次採用的訓練數據量達到1000萬句對,是最大規模的口語領域英中比賽數據集。訓練數據領域性強,面向口語領域。

1、 英中機器文本翻譯競賽

賽題介紹

英中機器翻譯競賽的目標是評測各家英中文本機器翻譯的能力。本次文本機器翻譯語言方向為英文到中文。參賽隊伍需要根據評測方提供的數據,訓練機器翻譯系統,並且自由地選擇機器翻譯技術。例如,基於規則的翻譯技術、基於實例的翻譯技術、統計機器翻譯及神經網路機器翻譯技術等。

本次競賽的研究成果可以被直接套用於機器翻譯尤其是口語機器翻譯等領域。

2、 英中機器同聲傳譯競賽

賽題介紹

本次英中機器競賽主要任務為集中最佳化語音識別後處理和機器翻譯模組,解決機器同聲傳譯中的技術問題。語言翻譯方向為英文到中文。

相對於傳統的機器文本翻譯系統,機器同聲傳譯的輸入文本,暨語音識別模組的輸出信息具有無標點、無斷句、文本口語化以及夾雜語氣詞等特點。這一系列特點將為基於書面風格的傳統翻譯系統帶來極大幹擾和挑戰,因此選手首先需要設計多種策略,製作語音識別後處理模組,將語音識別後的文本,處理為可用於翻譯的文本。隨後,調用自己訓練的機器翻譯系統,將識別後處理的文本翻譯成目標語言。評測方將提供數據用以訓練機器翻譯系統,選手可以自由地選擇機器翻譯技術。

本次競賽的研究成果可以被直接套用於機器翻譯特別是同聲傳譯類套用。

相關詞條

熱門詞條

聯絡我們