對於長時間跟蹤而言,一個關鍵的問題是:當目標重新出現在相機視野中時,系統應該能重新檢測到它,並開始重新跟蹤。但是,長時間跟蹤過程中,被跟蹤目標將不可避免的發生形狀變化、光照條件變化、尺度變化、遮擋等情況。傳統的跟蹤算法,前端需要跟檢測模組相互配合,當檢測到被跟蹤目標之後,就開始進入跟蹤模組,而此後,檢測模組就不會介入到跟蹤過程中。但這種方法有一個致命的缺陷:即,當被跟蹤目標存在形狀變化或遮擋時,跟蹤就很容易失敗;因此,對於長時間跟蹤,或者被跟蹤目標存在形狀變化情況下的跟蹤,很多人採用檢測的方法來代替跟蹤。該方法雖然在某些情況下可以改進跟蹤效果,但它需要一個離線的學習過程。即:在檢測之前,需要挑選大量的被跟蹤目標的樣本來進行學習和訓練。這也就意味著,訓練樣本要涵蓋被跟蹤目標可能發生的各種形變和各種尺度、姿態變化和光照變化的情況。換言之,利用檢測的方法來達到長時間跟蹤的目的,對於訓練樣本的選擇至關重要,否則,跟蹤的魯棒性就難以保證。
考慮到單純的跟蹤或者單純的檢測算法都無法在長時間跟蹤過程中達到理想的效果,所以,TLD方法就考慮將兩者予以結合,並加入一種改進的線上學習機制,從而使得整體的目標跟蹤更加穩定、有效。
簡單來說,TLD算法由三部分組成:跟蹤模組、檢測模組、學習模組;如下圖所示
其運行機制為:檢測模組和跟蹤模組互補干涉的並行進行處理。首先,跟蹤模組假設相鄰視頻幀之間物體的運動是有限的,且被跟蹤目標是可見的,以此來估計目標的運動。如果目標在相機視野中消失,將造成跟蹤失敗。檢測模組假設每一個視幀都是彼此獨立的,並且根據以往檢測和學習到的目標模型,對每一幀圖片進行全圖搜尋以定位目標可能出現的區域。同其它目標檢測方法一樣,TLD中的檢測模組也有可能出現錯誤,且錯誤無非是錯誤的負樣例和錯誤的正樣例這兩種情況。而學習模組則根據跟蹤模組的結果對檢測模組的這兩種錯誤進行評估,並根據評估結果生成訓練樣本對檢測模組的目標模型進行更新,同時對跟蹤模組的“關鍵特徵點”進行更新,以此來避免以後出現類似的錯誤。TLD模組的詳細;流程框圖如下所示: