基于上下文感知的智能視覺分析系統(tǒng)
前言
智能視頻監(jiān)控屬于第四代視頻安防監(jiān)控技術(shù),它是新技術(shù)發(fā)展推動(dòng)下的必然結(jié)果。在這一歷史性的技術(shù)演進(jìn)中,計(jì)算機(jī)視覺技術(shù)扮演著核心的角色。從內(nèi)涵上看,現(xiàn)代計(jì)算機(jī)視覺技術(shù)已經(jīng)不再僅僅停留在光學(xué)幾何(如2D和3D建模)和基于數(shù)字圖像處理學(xué)的特征提取方面,它更建立在連同傳統(tǒng)人工智能在內(nèi)的建模、學(xué)習(xí)和推理等機(jī)器學(xué)習(xí)理論之上。從外延上看,傳統(tǒng)的計(jì)算機(jī)視覺技術(shù)被稱為機(jī)器視覺,主要應(yīng)用在需要精密光學(xué)測量定位的自動(dòng)化生產(chǎn)線等工業(yè)領(lǐng)域,而現(xiàn)代計(jì)算機(jī)視覺技術(shù)則已拓展到了更加廣闊的應(yīng)用領(lǐng)域,智能視頻監(jiān)控就是一個(gè)典型的實(shí)例。
視頻監(jiān)控智能化的核心問題
2013年3月中國國內(nèi)報(bào)道了吉林省長春市嬰兒被偷車賊殘害的案例,有媒體質(zhì)疑:“平安城市”這樣的大范圍安防監(jiān)控項(xiàng)目為什么沒有發(fā)揮應(yīng)有的聯(lián)動(dòng)預(yù)警作用?類似的反思也針對同年4月在美國馬薩諸塞州波士頓馬拉松比賽中發(fā)生的爆炸案,犯罪嫌疑人不是被通過視頻監(jiān)控系統(tǒng)主動(dòng)發(fā)現(xiàn)其異常行為鎖定的,而是警方基于犯罪現(xiàn)場物證的反向推演在監(jiān)控錄像中圈定的。這些例證都說明了一個(gè)核心問題,即在提升智能視頻監(jiān)控的有效性方面,如何讓系統(tǒng)在廣域范圍內(nèi)產(chǎn)生針對同一個(gè)視頻場景事件或特定行為的主動(dòng)感知,并建立起一條高度關(guān)聯(lián)的邏輯推理鏈條。
基于計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)和人工智能技術(shù)的最新成果,我們認(rèn)為完全可以從技術(shù)上考慮實(shí)現(xiàn)一種有效的信息處理系統(tǒng),用以滿足上述來自實(shí)際應(yīng)用領(lǐng)域?qū)χ悄芤曨l監(jiān)控系統(tǒng)的需求。系統(tǒng)總體的架構(gòu)是:分區(qū)域設(shè)立分布式的視頻監(jiān)控中心,采用智能前端設(shè)備和監(jiān)控中心聯(lián)合對本地化的視頻數(shù)據(jù)進(jìn)行存儲(chǔ)及智能分析,這一層的功能主要是面向?qū)崟r(shí)過程,發(fā)現(xiàn)局部和區(qū)域分布范圍內(nèi)整體的視頻場景事件;在更廣域的范圍內(nèi)(如市縣級“智慧城市”工程的監(jiān)控范圍),由更高層的數(shù)據(jù)管理中心對來自分布式監(jiān)控的視頻數(shù)據(jù)進(jìn)行存儲(chǔ)、分析和集中管理,這一層主要是面向信息服務(wù),同時(shí)非實(shí)時(shí)地兼顧個(gè)別沒有智能視覺分析功能部署的區(qū)域過程,統(tǒng)籌全局的視頻場景事件。
從單點(diǎn)到區(qū)域范圍的智能化
智能視覺監(jiān)控系統(tǒng)的“單點(diǎn)智能化”指的是使監(jiān)控點(diǎn)的前端設(shè)備(也可能包括高清一體化攝像機(jī))具備智能視覺分析和識(shí)別的能力。各個(gè)前端設(shè)備(包括前端的智能終端,如DVR、NVR、IPC等)的智能化功能根據(jù)監(jiān)控業(yè)務(wù)的不同可能會(huì)有差別,但總的歸納起來應(yīng)該包括:移動(dòng)目標(biāo)的檢測和跟蹤、目標(biāo)的分類、人臉檢測、跟蹤和識(shí)別、車牌檢測和牌號(hào)識(shí)別、場景事件檢測、目標(biāo)的特定行為識(shí)別。智能前端設(shè)備分析輸出的結(jié)果是以元數(shù)據(jù)的形式存儲(chǔ)和傳遞的。
當(dāng)監(jiān)控場景內(nèi)的目標(biāo)從一個(gè)視場中移出并進(jìn)入另外一個(gè)部分重疊的視場時(shí),為了實(shí)現(xiàn)連續(xù)的目標(biāo)跟蹤,通常需要在攝像機(jī)之間進(jìn)行接力。對于一個(gè)完整意義上的智能視覺監(jiān)控系統(tǒng)來說,能夠通過前端設(shè)備的單點(diǎn)智能化分析單一場景內(nèi)發(fā)生的事件和目標(biāo)的行為是基本的要求,此外還必須在監(jiān)控中心依靠攝像機(jī)傳感網(wǎng)絡(luò)內(nèi)鄰近的其他攝像機(jī),從多通道、多區(qū)域中獲取連續(xù)的視頻序列,并對其進(jìn)行視覺綜合分析,這就是“區(qū)域范圍的智能化”的含義。這是一種把單點(diǎn)智能通過元數(shù)據(jù)連接在一起構(gòu)成的系統(tǒng)智能的能力。
分布式智能視覺監(jiān)控系統(tǒng)基于大規(guī)模攝像機(jī)傳感網(wǎng)絡(luò),為了提高系統(tǒng)在整體性能上對事件檢測和行為識(shí)別的準(zhǔn)確率,有必要把部署在監(jiān)控中心的智能分析系統(tǒng)與各個(gè)監(jiān)控現(xiàn)場獨(dú)立通道上的智能分析結(jié)果進(jìn)行集成,以構(gòu)成一個(gè)自底向上和頂向下結(jié)構(gòu)的反饋系統(tǒng)。系統(tǒng)在收集和記錄海量視頻數(shù)據(jù)的同時(shí),也在時(shí)刻傳遞著、計(jì)算著描述場景內(nèi)容特征的元數(shù)據(jù)。這種以元數(shù)據(jù)為中心的網(wǎng)絡(luò)計(jì)算環(huán)境被稱為“上下文環(huán)境”,簡稱上下文。
智能視覺監(jiān)控系統(tǒng)中的元數(shù)據(jù)
元數(shù)據(jù)是一種特殊的二次信息,用來描述原始信息本身的內(nèi)容、質(zhì)量、狀況和其它特性,通常用對于數(shù)據(jù)的自動(dòng)檢索和數(shù)據(jù)挖掘。分布式智能視覺監(jiān)控系統(tǒng)中的元數(shù)據(jù)由兩個(gè)層次組成,即基本屬性信息,以及描述場景內(nèi)容的信息。分布式智能視覺監(jiān)控系統(tǒng)追求的目標(biāo)就是構(gòu)造一個(gè)完整的W6(發(fā)生了什么事?發(fā)生在哪里?發(fā)生在什么時(shí)間?發(fā)生時(shí)場景內(nèi)都有誰?為什么會(huì)發(fā)生?怎么發(fā)生的?)系統(tǒng),其中“時(shí)間和地點(diǎn)”是在非智能化系統(tǒng)中就固有的功能。對這些問題的回答就蘊(yùn)藏在描述場景內(nèi)容特征的元數(shù)據(jù)當(dāng)中。元數(shù)據(jù)在系統(tǒng)中傳遞和進(jìn)一步深層利用的過程就是所謂“上下文感知”的過程。其目的是:通過對元數(shù)據(jù)進(jìn)行分層融合的處理,實(shí)現(xiàn)一個(gè)有效的分布式智能視覺分析系統(tǒng)。
元數(shù)據(jù)——基本的屬性信息?;緦哟蔚脑獢?shù)據(jù)無需經(jīng)過智能視覺分析算法的輸出即可得到。為了對場景事件和目標(biāo)的行為有一個(gè)完備的屬性記錄,主要包括基本的屬性信息,如:錄像時(shí)間、地點(diǎn)信息、攝像機(jī)的參數(shù)、設(shè)備制造商、安裝者、用戶信息。
元數(shù)據(jù)——描述場景內(nèi)容的信息。這部分元數(shù)據(jù)來自于對場景視頻進(jìn)行實(shí)時(shí)分析的結(jié)果,按照其描述的范圍分類,主要有局部場景內(nèi)的元數(shù)據(jù)(來自于智能前端設(shè)備的分析輸出)和全局場景內(nèi)的元數(shù)據(jù)(由分布式視頻監(jiān)控中心的上下文感知算法產(chǎn)生)。
上下文感知環(huán)境的建立
為了實(shí)現(xiàn)分布式智能視覺分析系統(tǒng)的“上下文感知”功能,首先需要構(gòu)建一個(gè)強(qiáng)大的視覺信息傳感網(wǎng)絡(luò),此外還需要一個(gè)支持元數(shù)據(jù)分層融合的邏輯路由。
視覺信息傳感網(wǎng)絡(luò)
在基于視覺信息傳感網(wǎng)絡(luò)的分布式視頻監(jiān)控系統(tǒng)中,監(jiān)控?cái)z像機(jī)獲取足夠清晰的視頻輸入可以提高監(jiān)控系統(tǒng)對智能事件檢測和行為識(shí)別的可靠性。視頻數(shù)據(jù)(圖像)的質(zhì)量體現(xiàn)在如下三個(gè)方面的技術(shù)指標(biāo):圖像的品質(zhì)和高清效果;對視場環(huán)境中干擾因素的抑制;對攝像機(jī)視覺功能異常的檢測和緊急處理。
攝像機(jī)成像的品質(zhì)和高清效果一般通過攝像機(jī)前端鏡頭和傳感器部分保證。對視場內(nèi)干擾因素的抑制也是衡量攝像機(jī)性能高低的重要條件,這些因素主要包括:低照度條件、寬動(dòng)態(tài)響應(yīng)、景物色彩溫度的改變和大氣中的霧霾等。在這些因素條件下都需要攝像機(jī)對場景的視頻質(zhì)量進(jìn)行增強(qiáng)。
在視覺監(jiān)控系統(tǒng)中,攝像機(jī)的視覺功能異常通常意味著整個(gè)系統(tǒng)的原始視頻輸入受到嚴(yán)重干擾。無論是人為蓄意還是由設(shè)備或環(huán)境因素所致,視覺功能異常對系統(tǒng)的效能都有很大的影響,甚至隱含著對攝像機(jī)設(shè)備的安全威脅。產(chǎn)生所謂“攝像機(jī)視覺功能異常”的可能原因有:人用手至于攝像機(jī)前、在攝像機(jī)上噴漆或移動(dòng)攝像機(jī)使其指向其他方向。這些行為一定會(huì)超過數(shù)秒,因此如何判斷真正的攝影機(jī)異常而不是因?yàn)槿巳阂苿?dòng)或是車輛震動(dòng)或其他正常的原因是真正技術(shù)所在。圖1所示是為一種因人為惡意遮擋導(dǎo)致的攝像機(jī)視覺功能異常。
對攝像機(jī)視覺功能異常的檢測一旦實(shí)現(xiàn),便可立即在視覺信息傳感網(wǎng)絡(luò)內(nèi)部觸發(fā)“傳感器安全威脅”緊急事件管理,在監(jiān)控中心端重新優(yōu)化分布式系統(tǒng)的視覺跟蹤進(jìn)程圖。
元數(shù)據(jù)的邏輯路由
在圖2所示的分布式智能視頻監(jiān)控系統(tǒng)拓?fù)?/strong>圖中,黑色箭頭表示元數(shù)據(jù)在系統(tǒng)網(wǎng)絡(luò)上的流動(dòng)情況。流動(dòng)方向可以是雙向的,即智能前端設(shè)備的元數(shù)據(jù)為監(jiān)控中心提供全局場景分析所用的局部描述特征,而監(jiān)控中心根據(jù)自己的計(jì)算結(jié)果補(bǔ)充前端智能結(jié)點(diǎn)在觀測信息上的局限性。
描述本地場景特征的元數(shù)據(jù)在分布式智能視頻監(jiān)控系統(tǒng)的前端設(shè)備上計(jì)算生成后,需要先在視覺信息傳感網(wǎng)絡(luò)內(nèi)部傳遞,然后在監(jiān)控中心端被深度利用以生成描述廣域監(jiān)控范圍場景的元數(shù)據(jù)。元數(shù)據(jù)的邏輯路由通常采用與海量視頻數(shù)據(jù)相對獨(dú)立的信息層,按照 “數(shù)據(jù)的分層傳輸方法”,在TCP/IP協(xié)議集中實(shí)現(xiàn)。
作為傳輸和利用元數(shù)據(jù)的另一種方案,在新一代面向智能視頻監(jiān)控的視頻編碼標(biāo)準(zhǔn)中,描述場景特征的元數(shù)據(jù)被封裝在兩個(gè)新型的信息層(對象層和分析層)中,不僅進(jìn)一步在編碼標(biāo)準(zhǔn)的基本層實(shí)現(xiàn)基于感興趣區(qū)域的空域分辨率可調(diào)整編碼,也為智能視覺分析算法提供了一個(gè)完整的元數(shù)據(jù)邏輯路由。
上下文感知算法
分布式智能視頻監(jiān)控系統(tǒng)的有效性是以具備上下文感知能力的視覺分析系統(tǒng)為前提的。上下文感知算法在分布式智能視頻監(jiān)控系統(tǒng)中扮演著重要角色,它關(guān)注的是對智能前端設(shè)備內(nèi)產(chǎn)生的元數(shù)據(jù)的深度利用,而不關(guān)心局部場景的元數(shù)據(jù)在前端設(shè)備上如何產(chǎn)生。
傳感網(wǎng)絡(luò)環(huán)境下的攝像機(jī)定標(biāo)
攝像機(jī)所處理的原始視頻(圖像)數(shù)據(jù)都可看作是3D世界坐標(biāo)系下的真實(shí)數(shù)據(jù)在以該攝像機(jī)焦點(diǎn)為中心的2D圖像坐標(biāo)系中的投影。由于每臺(tái)攝像機(jī)都有各自的2D圖像坐標(biāo)系,因此要正確地關(guān)聯(lián)和融合來自傳感網(wǎng)絡(luò)中不同攝像機(jī)的元數(shù)據(jù),必須先對各個(gè)攝像機(jī)進(jìn)行定標(biāo)。由于不同的攝像機(jī)之間可能存在色彩敏感度和空間分辨率上的差異,或者工作在不同的光照條件下,因此定標(biāo)工作應(yīng)不僅僅針對空域進(jìn)行,還應(yīng)當(dāng)包括時(shí)域和顏色空間。嚴(yán)格地說,攝像機(jī)的定標(biāo)不屬于上下文感知算法的一部分,但是它是非常必要的,可為上下文感知算法提供前置的預(yù)處理。
對攝像機(jī)進(jìn)行空域定標(biāo)后,將會(huì)導(dǎo)出兩個(gè)變換矩陣和,分別用于把不同視場內(nèi)的元數(shù)據(jù)變換到統(tǒng)一的世界坐標(biāo)系中以及把世界坐標(biāo)系下的數(shù)據(jù)投影到2D圖像坐標(biāo)系中,這實(shí)際上為元數(shù)據(jù)在更廣監(jiān)控范圍內(nèi)的深度利用提供了可能。對攝像機(jī)進(jìn)行時(shí)域定標(biāo)時(shí),需要針對不同攝像機(jī)觀測到的同一個(gè)運(yùn)動(dòng)目標(biāo)進(jìn)行軌跡的匹配,以求出針對不同攝像機(jī)時(shí)鐘的時(shí)間彎折曲線,在實(shí)際應(yīng)用中比較復(fù)雜。對攝像機(jī)進(jìn)行顏色空間上的定標(biāo)還要考慮不同光照條件下的實(shí)驗(yàn)數(shù)據(jù)收集,應(yīng)用操作起來更加繁瑣。
在實(shí)際工程項(xiàng)目中,如果定標(biāo)不準(zhǔn)確或是略去對攝像機(jī)在時(shí)域和顏色空間的定標(biāo),必然會(huì)降低不同的視覺信息通道向監(jiān)控中心提供元數(shù)據(jù)的可靠性,比如對場景內(nèi)同一個(gè)目標(biāo)的特征描述出現(xiàn)不一致甚至沖突的問題。這時(shí)為了得到可靠的元數(shù)據(jù)以描述全局監(jiān)控場景的實(shí)時(shí)狀態(tài),可對元數(shù)據(jù)進(jìn)行融合。有兩種方法可以采用:其一,通過網(wǎng)絡(luò),在監(jiān)控中心對元數(shù)據(jù)進(jìn)行狀態(tài)估計(jì);其二,選擇合適的場景事件模型,在監(jiān)控中心對由元數(shù)據(jù)組成的事件進(jìn)行推理。
全局場景的視覺跟蹤
在基于攝像機(jī)傳感網(wǎng)絡(luò)的分布式視頻監(jiān)控系統(tǒng)中,監(jiān)控中心收到來自各個(gè)前端設(shè)備的視頻流及相關(guān)的元數(shù)據(jù)通常描述的是有限時(shí)空范圍的視覺信息,由于攝像機(jī)定標(biāo)不準(zhǔn)確(詳見前述內(nèi)容)、場景的噪聲和目標(biāo)被遮擋等原因,分析得出的元數(shù)據(jù)存在不確定性的特點(diǎn)。為了實(shí)現(xiàn)在監(jiān)控中心對全局區(qū)域內(nèi)感興趣目標(biāo)可靠的視覺跟蹤,可以采用一種分層式點(diǎn)對點(diǎn)的多攝像機(jī)元數(shù)據(jù)融合算法。
該數(shù)據(jù)融合算法基于一種策略,以監(jiān)控中心的世界坐標(biāo)系為參考,把來自不同智能攝像機(jī)或是智能視頻分析通道的元數(shù)據(jù)合并為一個(gè)大的向量,使用分層Kalman預(yù)測器對場景內(nèi)被智能前端設(shè)備鎖定的多個(gè)視覺目標(biāo)進(jìn)行可靠跟蹤,并從這個(gè)大向量的分量重發(fā)現(xiàn)場景中的異常事件。算法的底層指的是各個(gè)智能前端設(shè)備的監(jiān)控層,上層指的是監(jiān)控中心層。
全局場景的事件融合
在不同領(lǐng)域知識(shí)的背景下,元數(shù)據(jù)的組合可以構(gòu)成事件;另一方面,事件具備多種由元數(shù)據(jù)表征的屬性。元數(shù)據(jù)本身只是屬性或特征的度量,而事件才能表達(dá)場景內(nèi)的語義,事件具備原子性,由它可進(jìn)一步構(gòu)造對場景語義的句法描述。
多種原因,如:攝像機(jī)定標(biāo)不準(zhǔn)確(詳見前述內(nèi)容)、視頻場景的噪聲和目標(biāo)被遮擋等,常會(huì)降低各個(gè)智能前端通道分析得出的元數(shù)據(jù)可靠性,這時(shí)為了依然保證監(jiān)控中心對全局場景事件檢測的準(zhǔn)確性,可以在事件模型中對其屬性(元數(shù)據(jù))進(jìn)行融合,然后得出優(yōu)化的推理結(jié)果。圖3 所示為在基于多攝像機(jī)傳感網(wǎng)絡(luò)的環(huán)境下,全局場景事件的檢測和識(shí)別可以通過對多臺(tái)攝像機(jī)傳遞的本地元數(shù)據(jù)進(jìn)行融合而得到。
結(jié)語
本文提出了一種具備上下文感知功能的分布式智能視覺分析系統(tǒng)。對上下文和上下文感知給出了具體的物理意義和實(shí)現(xiàn)手段。
以元數(shù)據(jù)為中心設(shè)計(jì)的分布式系統(tǒng),能夠保證場景異常事件或特定行為發(fā)生時(shí),在多臺(tái)攝像機(jī)構(gòu)成的多通道傳感器網(wǎng)絡(luò)內(nèi)實(shí)現(xiàn)元數(shù)據(jù)的傳遞和數(shù)據(jù)融合,從而提高在監(jiān)控中心全局意義上對場景事件識(shí)別的準(zhǔn)確率。元數(shù)據(jù)的融合在監(jiān)控中心進(jìn)行,因而可在全局意義上得到所監(jiān)控區(qū)域的場景視圖。
一個(gè)典型的上下文感知智能視覺分析系統(tǒng)能夠在場景內(nèi)事件觸發(fā)時(shí),把元數(shù)據(jù)送入監(jiān)控中心的事件隊(duì)列,然后依據(jù)上下文感知算法對元數(shù)據(jù)進(jìn)行融合,使事件隊(duì)列優(yōu)化,最終得出高可靠性的對全局事件的識(shí)別。
評論