動作捕捉是實時地準確測量、記錄物體在真實三維空間中的運動軌跡或姿態,並在虛擬三維空間中重建運動物體每一時刻運動狀態的高新技術。動作捕捉最典型的套用是對人物的動作捕捉,可以將人物肢體動作或面部表情動態進行三維數位化解算,得到三維動作數據,用來在CG製作等領域中逼真地模仿、重現真人的各種複雜動作和表情,從本質上提升CG動作效果;更重要的是讓CG動作製作效率提高數百倍,大大節省了人力成本和製作周期,製作者可以將更多精力投入在CG創意和細節刻畫等方面,大幅提升產品的整體製作水平。動作捕捉系統是指用來實現動作捕捉的專業技術設備。
系統組成
不同的動作捕捉系統依照的原理不同,系統組成也不盡相同。總體來講,動作捕捉系統通常由硬體和軟體兩大部分構成。硬體一般包含信號發射與接收感測器、信號傳輸設備以及數據處理設備等;軟體一般包含系統設定、空間定位定標、運動捕捉以及數據處理等功能模組。信號發射感測器通常位於運動物體的關鍵部位,例如人體的關節處,持續發出的信號由定位感測器接收後,通過傳輸設備進入數據處理工作站,在軟體中進行運動解算得到連貫的三維運動數據,包括運動目標的三維空間坐標、人體關節的6自由度運動參數等,並生成三維骨骼動作數據,可用於驅動骨骼動畫,這就是動作捕捉系統普遍的工作流程。系統分類及簡介
動作捕捉系統種類較多,一般地按照技術原理可分為:機械式、聲學式、電磁式、慣性感測器式、光學式等五大類 ,其中光學式根據目標特徵類型不同又可分為標記點式光學和無標記點式光學兩類。近期市場上出現所謂的熱能式動作捕捉系統,本質上屬於無標記點式光學動作捕捉範疇,只是光學成像感測器主要工作在近紅外或紅外波段。機械式動作捕捉系統


聲學式動作捕捉系統
一般由傳送裝置、接收系統和處理系統組成。傳送裝置一般是指超音波發生器,接收系統一般由三個以上的超聲探頭陣列組成。通過測量聲波從一個傳送裝置到感測器的時間或者相位差,確定到接受感測器的距離,由三個呈三角排列的接收感測器得到的距離信息解算出超聲發生器到接收器的位置和方向。這類產品的典型生產廠家有Logitech、SAC等,其最大優點是成本低,但缺點是精度較差,實時性不高,受噪聲和多次反射等因素影響較大。電磁式動作捕捉系統
一般由發射源、接收感測器和數據處理單元組成。發射源在空間產生按一定時空規律分布的電磁場;接收感測器安置在表演者身體的關鍵位置,


慣性感測器式動作捕捉系統
由姿態感測器、信號接收器和數據處理系統組成。姿態感測器固定於人體各主要肢體部位,通過藍牙等無線傳輸方式將姿態信號傳送至數據處理系統,進行運動解算。其中姿態感測器集成了慣性感測器、重力感測器、加速度計、磁感應計、微陀螺儀等元素,得到各部分肢體的姿態信息,再結合骨骼的長度信息和骨骼層級連線關係,計算出關節點的空間位置信息。代表性的產品有Xsens、3DSuit等,這類產品主要的優點是便攜性強,操作簡單,表演空間幾乎不受限制,便於進行戶外使用,但由於技術原理的局限,缺點也比較明顯,一方面感測器本身不能進行空間絕對定位,通過各部分肢體姿態信息進行積分運算得到的空間位置信息造成不同程度的積分漂移,空間定位不準確;另一方面原理本身基於單腳支撐和地面約束假設,系統無法進行雙腳離地的運動定位解算;此外,感測器的自身重量以及線纜連線也會對動作表演形成一定的約束,並且設備成本隨捕捉對象數量的增加成倍增長,有些感測器還會受周圍環境鐵磁體影響精度。
光學式動作捕捉系統
基於計算機視覺原理 ,由多個高速相機從不同角度對目標特徵點的監視和跟蹤來完成運動捕捉的任務。理論上對於空間中的任意一個點,只要它能同時為兩部相機所見,就可以確定這一時刻該點在空間中的位置。當相機以足夠高的速率連續拍攝時,從圖像序列中就可以得到該點的運動軌跡。這類系統採集感測器通常都是光學相機,不同的是目標感測器類型不一,一種是在物體上不額外添加標記,基於二維圖像特徵或三維形狀特徵提取的關節信息作為探測目標,這類系統可統稱為無標記點式光學動作捕捉系統,另一種是在物體上貼上標記點作為目標感測器,這類系統稱為標記點式光學動作捕捉。
無標記點式光學動作捕捉 原理大致有三種:第一種是基於普通視頻圖像的運動捕捉,通過二維圖像人形檢測提取關節點在二維圖像中的坐標,

標記點式光學動作捕捉系統一般由光學標識點(Markers)、動作捕捉相機、信號傳輸設備以及數據處理工作站組成,人們常稱的光學式動作捕捉系統通常是指這類標記點式動作捕捉系統。在運動物體關鍵部位(如人體的關節處等)貼上Marker點,多個動作捕捉相機從不同角度實時探測Marker點,數據實時傳輸至數據處理工作站,根據三角測量原理精確計算Marker點的空間坐標,再從生物運動學原理出發解算出骨骼的6自由度運動。這裡根據標記點發光技術不同還分為主動式和被動式光學動作捕捉系統:
主動式光學動作捕捉系統的Marker點由LED組成,LED貼上於人體各個主要關節部位,LED之間通過線纜連線,由綁在人體表面的電源裝置


系統特點分析
不同原理的動作捕捉系統各有優缺點,一般可從以下幾個方面進行性能評估:定位精度、採樣頻率、動作數據質量、快速捕捉能力、多目標捕捉能力、運動範圍、環境約束、使用便捷性、適用性等,據此對當前市場上常見的幾種動作捕捉系統進行對比如下:
1. 一般情況下,注重綜合性能的,包括精度、動作數據質量和適用性等,首先考慮被動式光學系統,可以得到很好的精度和動作效果,適用性強,是現有動作捕捉技術中最為成熟的一種,套用案例最多,經典的電影特效和CG作品中大多採用這種技術,較為實用,適合多數用戶使用;
2. 強調室外套用並且具備較好的定位精度的,考慮主動式光學系統,儘管在其他性能方面做出一定程度的讓步,但可以兼顧室外套用和定位精度的特殊套用需求;
3. 強調室外套用並且運動範圍幾乎不受限制的,考慮慣性式系統,系統受環境約束很少,前提是對動作質量要求不高;
4. 強調便捷性,特別是套用於人機互動、動作識別領域,對動作精度、質量及可靠性要求較低的,考慮無標記點式系統,如微軟的Kinect感測器,在實用性和成本方面是其它系統無法比擬的。
系統參數及其在實際套用中的物理意義
動作捕捉相機解析度
光學動作捕捉系統,不論是無標記點式還是標記點式,動作捕捉相機解析度都是系統的一個重要參數。與影視行業的攝像機解析度意義不同,動作捕捉相機解析度意義並不在於畫面的細膩程度和視覺體驗,因為系統並不需要精細的畫面,而是能夠分辨出視場內的標記點或目標特徵即可,因此動作捕捉相機的物理解析度通常不需要影視級攝像機那么高,但是這裡的解析度具有兩大物理意義:一是空間尺寸分辨能力,同樣的視場範圍,同樣的工作距離下,解析度越高,可識別的最小特徵尺寸越小,通常這個意義在於,高解析度的相機可以使用更小尺寸的Marker,Marker過大容易對動作表演造成干擾,一般情況下Marker大小不宜超過直徑20mm,但也不宜過小,太小容易被遮擋,可視角度隨之變小,一般肢體捕捉Marker點不宜小於直徑10mm;二是定位精度,儘管精度本身受解析度、硬體同步性能、軟體標定和三維重建算法等諸多因素影響,但解析度決定了空間尺寸的分辨能力,一定程度上決定了空間定位的不確定度,造成三維數據不同程度的抖動,從而限制了定位精度,在其它因素控制較好的情況下,解析度對系統精度起到決定性作用。動作捕捉相機解析度直接影響系統成本,通常更高的解析度意味著更高的設備成本,因此對於大部分追求實用性和性價比的用戶來講,解析度能夠滿足自身的需求即可,無需盲目追求高解析度。對於一般的動作捕捉套用來說,捕捉數據用來進行動畫製作,其捕捉精度在亞毫米量級已經足夠,因為這個量級的誤差在動畫中人眼是很難分辨的,在解析度一定、相機視角一定的情況下,決定這個精度的因素主要在於相機工作距離,更直觀地說,就是適用場地尺寸大小,捕捉場地越大,絕對精度越低,當場地大小超過絕對精度在亞毫米量級的要求時,應該採用更高解析度的動作捕捉相機。以這個精度要求為基準,以常用的動作捕捉60度左右相機視角為例,我們可以得到一個解析度與適用場地範圍的參考對照表:

動作捕捉相機採集幀率
動作捕捉相機採集幀率與通常所說的相機幀率一致,是指單位時間內圖像數據採集的次數,單位一般是fps,即幀/秒。相機採集幀率對於動作捕捉來講具有兩大物理意義:一是限定了動作採樣頻率,動作採樣頻率最大不超過相機採集幀率(在下面“採樣頻率”一節會詳細闡述);二是直接決定了運動跟蹤算法的有效性,進而決定了動作捕捉的正確率。運動跟蹤貫穿動作捕捉的整個過程,一方面軟體需要通過跟蹤進行不同目標的識別和區分,另一方面通過跟蹤預測可以縮小目標探測區域,有效地提升計算速率和捕捉實時性。一旦跟蹤失敗,往往動作捕捉數據會出錯,嚴重的會導致丟失關鍵幀,影響捕捉的實時性。一般地講,相機幀率越高,跟蹤性能越好,即捕捉數據正確率越高(主動式光學系統除外,參見下節)。
通常為了實現較好的動作捕捉性能,專業的動作捕捉系統製造商都會進行深入的研究以平衡硬體性能參數來滿足使用要求。其中,動作捕捉相機解析度和採集幀率是比較重要的一對相關參數,簡單地說,解析度越高應該對應越高的採集幀率,因為解析度增加相當於目標在圖像上的運動預測不確定度增加,為保證計算速度,在跟蹤搜尋視窗不變的情況下,目標逃離跟蹤視窗的機率大幅增加造成跟蹤失敗,解決這個問題最有效的方法就是提高採集幀率,降低運動預測的不確定度,以確保跟蹤正確率。專業的動作捕捉相機解析度與幀率的關係一般應滿足如下關係:

動作採樣頻率
一般地,人們會認為相機採集頻率越高越好,大部分情況下是可以這樣理解的,但這個理解並不全面,有個別情況屬於例外。事實上,相機採集頻率並不等於動作採樣頻率,用戶真正關心的實際是動作採樣頻率而不是相機採集頻率。採樣頻率指動作捕捉系統單位時間內採集動作關鍵幀的頻率,其中動作關鍵幀是指某一時刻得到的一套完整的動作數據。畢竟動作採樣頻率才決定了動作捕捉的細膩程度和採樣密度,特別是對於動作分析的用戶來講,採樣頻率對運動學計算意義重大,例如計算速度、加速度等參數時,較高的動作採樣頻率尤其重要。
對於無標記點式光學系統和被動式光學系統來講,動作採樣頻率和相機採集幀率一致,相機每曝光一次即得到一幀完整的動作數據,這時將相機幀率等價於動作採樣頻率是沒有問題的;但是,對於主動式光學系統來講,原理截然不同,由於採用時序編碼的LEDMarker點,不同的LED隨時間交替明暗變化,相機每曝光一次實際只對空間中的一個或幾個Marker點進行採集,以此實現對不同Marker點的ID識別區分,捕捉時視場內往往有幾十甚至上百個Marker點,當對所有Marker點完成一次採集時,才算作一次完整的動作採集,即一個動作關鍵幀,而相機採集次數可能已經進行了幾十次,這時動作採樣頻率遠小於相機幀率,這類系統往往標註很高的相機幀率,但實際的動作採樣率往往在30fps甚至更低。
同步採集時間精度
專業的動作捕捉系統,特別是各類光學動作捕捉系統,同步採集的時間精度是另一大重要的硬體參數,其物理意義是能夠影響系統定位精度。同步採集時間精度是指系統在獲取一個動作關鍵幀時,各相機曝光時刻間的時間差別,理論上講在同一個動作關鍵幀採集時,各相機須在完全相同的時刻同步曝光,才能保證視覺三維測量的準確性,在實際套用中,專業的生產廠商會採用同步控制裝置對系統進行精確同步控制,時間同步精度往往在百萬分之一秒以上。沒有同步控制裝置或同步精度低的,直接導致空間定位偏差大,或者頻繁出現異常噪聲直接影響動作捕捉的數據質量和使用效率。動作捕捉相機配置數量
動作捕捉相機配置數量具有重要的物理意義:視覺三維測量原理是特徵目標被多個相機同時觀測到,才能進行三維重建,當只有一個相機或沒有相機觀測到該目標時,對目標的重建就會失敗,造成數據缺失,這種情況多是由於複雜動作、多人表演或與道具結合的表演過程中的各種遮擋導致。相機數量越多,布置的空間視點越多,目標被完全遮擋的機率就越小,數據缺失的也就越少,捕捉質量也就越好,降低數據後處理的複雜度和工作量。此外,從視覺三維測量的原理出發,相機數量越多,也可以在一定程度上提升目標空間定位的精度。因此,在架設動作捕捉系統時,一定要考察清楚相機配置數量是否能夠滿足自身的捕捉需要,一般來講,動作捕捉場地越大,捕捉的對象越多,動作越複雜,需要的動作捕捉相機數量越多,數量配置與場地大小的大致對應關係可參考下表: