高維圖像識別技術讓PC也能看懂圖片
近年來,計算機圖形圖像處理技術獲得突破性的進展,個人PC中也涌現(xiàn)出越來越多令人驚嘆的圖形處理軟件,憑借著數(shù)學界領域的最新研究,個人電腦已經(jīng)開始學會了“看”圖,讀懂文字,辨別建筑物。
傳統(tǒng)的PC圖像識別技術主要基于統(tǒng)計學原理,其主要依靠分析視覺數(shù)據(jù)的特性,并將這些特性借助統(tǒng)計建模等數(shù)學分析方式提取出來,以最終應用到實際的圖像處理中。這種圖像識別技術仍舊是目前的主流,廣泛用于OCR文字識別、人臉識別、圖像處理等領域。但是這種傳統(tǒng)的數(shù)學分析方式存在很多局限,比如對圖片的質量要求很高,這一問題直到新的數(shù)學模型出現(xiàn)才得以改善。在2010年5月CHIP的“時尚科技”欄目中,我們就曾經(jīng)向大家介紹過一種PC圖像識別技術的新進展。2009年以華裔澳大利亞籍數(shù)學家陶哲軒為代表的一些數(shù)學家率先發(fā)現(xiàn)了在高維空間中一些原先公認很難的(NP-hard)組合問題,可以用一系列高效的凸優(yōu)化算法來解決。而由此產(chǎn)生的數(shù)學模型可以用來解決目前視覺計算所面臨的難題,而且最終的計算結果非常理想。
微軟亞洲研究院的研究員們當時利用這種數(shù)學思想取得了圖像識別領域的很大突破,使用這種新的數(shù)學模型帶口罩或墨鏡的人臉甚至都可以被PC讀取和識別。最近,微軟研究院的研究員們在這一技術領域再次取得了新的進展,他們讓PC能夠看“懂”建筑物,或者具備“認”字的能力,并糾正扭曲或變形的文字。
讀圖從看懂結構開始
傳統(tǒng)的二維圖像識別技術更多地依賴圖像特征點來工作,它首先通過統(tǒng)計學的方式來獲取圖像中最有代表性的點,之后在遇到新的圖像時會嘗試在其中尋找這些特征點,并將尋找到的點與原來統(tǒng)計得來的特征點進行對比。在圖片質量比較出色且沒有扭曲的情況下這種技術往往能工作得很好。但現(xiàn)實情況是,我們在拍攝圖片時,由于光線、所處的位置等諸多原因,最終無法獲得合格的圖像,這也就大大限制了這種圖像識別技術的發(fā)展。
微軟亞洲研究院的研究員們嘗試使用高維的數(shù)學模型和優(yōu)化工具來解決這個問題。簡單地理解,高維的數(shù)學模型采用矩陣的模式,可以幫助我們以整體的概念來看待圖像中的物體,而不像傳統(tǒng)技術那樣只獲取局部特征點,這更像是尋求圖像中物體的整體對稱性和規(guī)則性。例如,通常的樓房窗戶都是平直的矩形,桌子總是四四方方擁有4條腿等。借助這些規(guī)則,即便圖片只能提供有限的信息,PC也能夠更容易地識別出圖片中的物體。在高維數(shù)學模型中,輸入每一個點的數(shù)據(jù)都可以被用來預測某種規(guī)則性,因此這種高維的圖像識別技術可以利用圖片中幾乎每個像素點來獲取圖像中物體的整體規(guī)則結構,這意味著往往只需圖片的一小部分即可完成圖像中物體的矯正和識別。例如,在傳統(tǒng)圖像識別技術中,100×100的圖像區(qū)域往往提供不了多少特征點數(shù)據(jù),而在高維的圖像識別技術中,這意味著將有近10000個像素點都可以用來獲取圖像的規(guī)則結構信息。
從人的角度讀圖
借助規(guī)則性和規(guī)律性來識別周圍的環(huán)境和景物是人類的基本技能,實際上一個人從出生開始就在學習各種各樣的規(guī)則。比如什么是矩形、什么是圓形,以及桌子一般什么樣、房子一般什么樣等等。而高維圖像識別使得計算機具備了與人類相同的圖像識別方式。當我們看到照片中樓房的窗戶因為拍攝視角的問題而變得傾斜時,并不會認為窗戶就真的是傾斜的,我們甚至知道窗戶本來應該是方正的,同時我們還能分辨出擋在窗戶前的樹杈并不是窗戶的一部分。類似地,通過建立高維圖像識別的物體規(guī)律,微軟研究院的研究員們已經(jīng)能夠讓PC實現(xiàn)類似的功能,它能夠幫助我們把傾斜的樓宇校正,或者擦去樓宇前方的樹枝。
評論