簡介
《計算機視覺——算法與系統原理》 根據研究內容可以把計算機視覺劃分為計算理論、表達與算法和系統實現三個層次。本書系統地介紹了計算機視覺的計算理論和算法的原理,給出了主要算法的證明,介紹了計算機視覺系統的構成原理。為了便於讀者將理論與實現進行對照和進行自己的套用系統設計,本書還介紹了到目前為止國際上比較著名的計算機視覺系統。
本書可作為計算機科學、人工智慧、圖象處理與模式識別、人機互動、智慧型機器人、信息處理以及認知科學等有關專業的大學高年級學生和研究生的教學和自學教材使用,也可供以上領域中的科研工作者使用。
內容概述
研究計算機視覺的目的是為了讓計算機能夠利用圖象和圖象序列來識別和認知我們周圍的世界,以滿足社會對於計算機高級套用的需求。一個計算機視覺系統可以分為計算理論、表達與算法、系統實現三個層次。本書系統地介紹了計算機視覺的計算理論和算法的原理等。
目的與意義
人類研究計算機的目的,是為了提高社會生產力水平,提高生活質量,把人從單調複雜甚至危險的工作中解脫出來。今天的計算機在計算速度上已經遠遠超過了人,然而在很多方面,特別是在與人類智慧型活動有關的方面例如在視覺功能、聽覺功能、嗅覺功能、自然語言理解勸能等等方面,還不如人。這種現狀,無法滿足一些高級套用的要求。例如,我們希望計算機能夠及早地發現路上的可疑情況並提醒汽車駕駛員以避免發生事故,我們更希望計算機能夠幫助我們進行自動駕駛,目前的技術還不足以滿足諸如此類高級套用的要求,還需要更多的人工智慧的理論研究成果和系統實現的經驗。在人工智慧領域,尤其是在計算機視覺領域,已有哪些成果,其原理是什麼,還有哪些問題需要研究等等,是本書要介紹的主要內容。
(1)根據一幅或多幅二維投影圖象計算出觀察點到目標物體的距離;
(2)根據一幅或多幅二維投影圖象計算出目標物體的運動參數;
(3)根據一幅或多幅二維投影圖象計算出目標物體的表面物理特性;
(4)根據多幅二維投影圖像恢復出更大空間區域的投影圖象。
計算機視覺要達到的最終目的是實現利用計算機對於三維景物世界的理解,即實現人的視覺系統的某些功能。什麼是計算機視覺研究的本質問題?如果用一句話來概括,就是利用二維投影圖象來重構三維也納物體的可視部分。
人類智慧型系統是一個完整的功能系統、是—個整體。它不能被分割成毫不相干的幾個子系統來單獨運行。這與目前人工智慧通常採用的習慣出發點是根本不同的。人工智慧目前處於比較初級的研究階段,所研製和開發的對象都是獨立運行的功能子系統,例如,聽覺子系統、視覺子系統、觸覺子系統、推理子系統等等。一般認為,只有當這些單獨的子系統的研究都比較徹底,理論體系比較成熟,人的智慧型活動的內部機理全部搞清楚之後,才有可能在較高層次上研究真正意義下的人工智慧系統。然而,這種觀點的最大問題是人工智慧系統的工作機理與人類智慧型系統的工作機理完全不同。人類智慧型系統中的感知行為是多通道協同工作的。換句話說,每一個通道負責獲取一部分信息,這一部分信息對於完成環境或事件的理解也許是不完全的,但所有信息通道得到的信息總和(加上歷史信息和背景信息)卻是完全的。人工智慧研究中的子系統總是被希望做成一個完美的系統,一個不需要和其他通道合作就可以獨立工作的完整系統。這樣就要求該通道所提供的信息必須是完全的,而這與我們日常生活中的信息背景是不一樣的,是對信息源提出的過分苛刻的要求。為了達到這樣的要求,要么製造一些與現實環境相差甚大的理想數據,要么施加種種約束條件。但不管怎樣,這樣的系統一定是不很實用的和脆弱的。作者希望讀者現在就建立一個觀念:不要認為我們下面將要介紹的計算機視覺系統是孤立的和萬能的,而是在不同的套用背景中它應該與不同的感知通道相配合,例如用在人類通信中可以與語音通道相配合,用在發現和跟蹤目標中可以與雷射和超音波等技術相配合,等等。
為了達到計算機視覺的目的,有兩種技術途徑可以考慮。第一種是仿生學方法,即從分析人類視覺的過程入手,利用大自然提供給我們的最好參考系——人類視覺系統,建立起視覺過程的計算模型,然後用計算機系統實現之。第二種是工程方法,即脫離人類視覺系統框框的約束,利用一切可行的和實用的技術手段實現視覺功能。此方法的一般做法是,將人類視覺系統作為一個黑盒子對待,實現時只關心對於某種輸入,視覺系統將給出什麼樣的輸出。在大量統計實驗的基礎上,得到一個較為令人滿意的脈衝回響函式,然後利用工程的方法實現。這兩種方法從理論上都是可以使用的,但面臨的困難是,人類視覺系統對應於某種輸入的輸出到底是什麼,這是無法直接測得的。因為不像在動物實驗時可以做到的那樣,我們不能在人的腦細胞或者視網膜或者視神經之上插入電極進行刺激回響的測試,因而無法利用生理學實驗的方法得到任何實際的脈衝回響對。再音,即使可以用動物(例如狗)的視覺系統做上述實驗,然而對於什麼是視覺輸入的真正信號,什麼是噪音,實際上很難區分。而且由於人的智慧型活動是一個多功能系統綜合作用的結果,即使是得到了一個輸入輸出對,也很難肯定它是僅由當前的輸入視覺刺激所產生的回響,而不是一個與歷史狀態綜合作用的結果。由於仿生學方法的進展較緩,在本書中,我們討論的內容大多數屬於工程方法。
不難理解,計算機視覺的研究具有雙重意義。其一,是為了滿足人工智慧套用的需要,即用計算機實現人工的視覺系統的需要。這些成果可以安裝在計算機和各種機器人上,使計算機和機器入能夠具有“看”的能力。其二,視覺計算模型的研究結果反過來對於我們進一步認識和研究人類視覺系統本身的機理,甚至人腦的機理,也同樣具有相當大的參考意義。
創作過程
從1991年的秋季學期,本書的第一作者開始給計算機科學系的研究生和本科生開設“計算機視覺”課程。當時,很想找一本合適的中文版教材、但沒能找到,最後使用了一本日文的著作作為教材的藍本,再加上一些相關的英文論文。因為學生中第一外語學日語的很少,所以當時作者是一邊翻譯一邊講課的。從那時起作者就計畫寫一本計算機視覺方面的教材。後來,從1992年的秋季開始,作者先後得到了清華大學智慧型系統國家開放實驗室和國家自然科學基金委的支持,從事計算機視覺模型方面的研究,並在此方向上開始培養碩土生和博士生,教材和研究生參考書的雙重需求使作者下決心要儘早動筆。本書的實際寫作是1992年年底開始的。由於當時科研和其他業務工作的任務很重,作者花了一年時間完成了現在您所看到的本書的前三章及第五章的大部分內容,而且這主要是在寒假和暑假中完成的。1994年和1995年,由於承擔了一些國家計畫的工作和出國進行客座研究,曾使得寫作工作一度停止下來。後來,在眾多師長與同仁的鼓勵和清華大學出版社幾位編輯的關心下,我們兩位作者又用了兩年的時間,總算使這本書脫稿。
計算機視覺是一個發展中的學科方向,其理論體系還不完備,新理論、新算法、新套用還在不斷地湧現。目前,每年計算機視覺方面的文章有數千篇,有關的專業國際會議有十幾個。因此,現在要想寫出一本內容全面的計算機視覺教材和專業參考書是很困難的。儘管我們知道現在動筆很可能是掛一漏萬,但是為了教學和科研的需要,也實在不能等到理論體系完備了以後再動筆。
目錄
第一章 概論
1.1 人類視覺系統的構成與視覺機理
1.1.1 眼睛
1.1.2 視覺神經系統
1.1.3 視覺機理假說
1.1.4 視覺中的一些心理和生理特徵與現象
1.1.5 視知覺對深度的感知
1.2 計算機視覺研究的特點
1.3 計算機視覺與相關領域的關係
1.4 計算機視覺的發展
第二章 計算機視覺中的空間關係
2.1 基本概念
2.2 成象模型與視覺坐標系
2.3 齊次坐標與N矢量
2.4 平面對偶原理
2.5 直射變換、對射變換與標準極變換
2.6 平移運動
2.6.1 N速度與軌跡
2.6.2 平移運動的出現點與從平移恢復形狀