基于上下文感知的智能視覺分析系統(tǒng)

作者：時(shí)間：2016-12-22 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

前言

　　智能視頻監(jiān)控屬于第四代視頻安防監(jiān)控技術(shù)，它是新技術(shù)發(fā)展推動(dòng)下的必然結(jié)果。在這一歷史性的技術(shù)演進(jìn)中，計(jì)算機(jī)視覺技術(shù)扮演著核心的角色。從內(nèi)涵上看，現(xiàn)代計(jì)算機(jī)視覺技術(shù)已經(jīng)不再僅僅停留在光學(xué)幾何(如2D和3D建模)和基于數(shù)字圖像處理學(xué)的特征提取方面，它更建立在連同傳統(tǒng)人工智能在內(nèi)的建模、學(xué)習(xí)和推理等機(jī)器學(xué)習(xí)理論之上。從外延上看，傳統(tǒng)的計(jì)算機(jī)視覺技術(shù)被稱為機(jī)器視覺，主要應(yīng)用在需要精密光學(xué)測量定位的自動(dòng)化生產(chǎn)線等工業(yè)領(lǐng)域，而現(xiàn)代計(jì)算機(jī)視覺技術(shù)則已拓展到了更加廣闊的應(yīng)用領(lǐng)域，智能視頻監(jiān)控就是一個(gè)典型的實(shí)例。

　　視頻監(jiān)控智能化的核心問題

　　2013年3月中國國內(nèi)報(bào)道了吉林省長春市嬰兒被偷車賊殘害的案例，有媒體質(zhì)疑：“平安城市”這樣的大范圍安防監(jiān)控項(xiàng)目為什么沒有發(fā)揮應(yīng)有的聯(lián)動(dòng)預(yù)警作用?類似的反思也針對同年4月在美國馬薩諸塞州波士頓馬拉松比賽中發(fā)生的爆炸案，犯罪嫌疑人不是被通過視頻監(jiān)控系統(tǒng)主動(dòng)發(fā)現(xiàn)其異常行為鎖定的，而是警方基于犯罪現(xiàn)場物證的反向推演在監(jiān)控錄像中圈定的。這些例證都說明了一個(gè)核心問題，即在提升智能視頻監(jiān)控的有效性方面，如何讓系統(tǒng)在廣域范圍內(nèi)產(chǎn)生針對同一個(gè)視頻場景事件或特定行為的主動(dòng)感知，并建立起一條高度關(guān)聯(lián)的邏輯推理鏈條。

　　基于計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)和人工智能技術(shù)的最新成果，我們認(rèn)為完全可以從技術(shù)上考慮實(shí)現(xiàn)一種有效的信息處理系統(tǒng)，用以滿足上述來自實(shí)際應(yīng)用領(lǐng)域?qū)χ悄芤曨l監(jiān)控系統(tǒng)的需求。系統(tǒng)總體的架構(gòu)是：分區(qū)域設(shè)立分布式的視頻監(jiān)控中心，采用智能前端設(shè)備和監(jiān)控中心聯(lián)合對本地化的視頻數(shù)據(jù)進(jìn)行存儲(chǔ)及智能分析，這一層的功能主要是面向?qū)崟r(shí)過程，發(fā)現(xiàn)局部和區(qū)域分布范圍內(nèi)整體的視頻場景事件;在更廣域的范圍內(nèi)(如市縣級“智慧城市”工程的監(jiān)控范圍)，由更高層的數(shù)據(jù)管理中心對來自分布式監(jiān)控的視頻數(shù)據(jù)進(jìn)行存儲(chǔ)、分析和集中管理，這一層主要是面向信息服務(wù)，同時(shí)非實(shí)時(shí)地兼顧個(gè)別沒有智能視覺分析功能部署的區(qū)域過程，統(tǒng)籌全局的視頻場景事件。

　　從單點(diǎn)到區(qū)域范圍的智能化

　　智能視覺監(jiān)控系統(tǒng)的“單點(diǎn)智能化”指的是使監(jiān)控點(diǎn)的前端設(shè)備(也可能包括高清一體化攝像機(jī))具備智能視覺分析和識(shí)別的能力。各個(gè)前端設(shè)備(包括前端的智能終端，如DVR、NVR、IPC等)的智能化功能根據(jù)監(jiān)控業(yè)務(wù)的不同可能會(huì)有差別，但總的歸納起來應(yīng)該包括：移動(dòng)目標(biāo)的檢測和跟蹤、目標(biāo)的分類、人臉檢測、跟蹤和識(shí)別、車牌檢測和牌號(hào)識(shí)別、場景事件檢測、目標(biāo)的特定行為識(shí)別。智能前端設(shè)備分析輸出的結(jié)果是以元數(shù)據(jù)的形式存儲(chǔ)和傳遞的。

　　當(dāng)監(jiān)控場景內(nèi)的目標(biāo)從一個(gè)視場中移出并進(jìn)入另外一個(gè)部分重疊的視場時(shí)，為了實(shí)現(xiàn)連續(xù)的目標(biāo)跟蹤，通常需要在攝像機(jī)之間進(jìn)行接力。對于一個(gè)完整意義上的智能視覺監(jiān)控系統(tǒng)來說，能夠通過前端設(shè)備的單點(diǎn)智能化分析單一場景內(nèi)發(fā)生的事件和目標(biāo)的行為是基本的要求，此外還必須在監(jiān)控中心依靠攝像機(jī)傳感網(wǎng)絡(luò)內(nèi)鄰近的其他攝像機(jī)，從多通道、多區(qū)域中獲取連續(xù)的視頻序列，并對其進(jìn)行視覺綜合分析，這就是“區(qū)域范圍的智能化”的含義。這是一種把單點(diǎn)智能通過元數(shù)據(jù)連接在一起構(gòu)成的系統(tǒng)智能的能力。

　　分布式智能視覺監(jiān)控系統(tǒng)基于大規(guī)模攝像機(jī)傳感網(wǎng)絡(luò)，為了提高系統(tǒng)在整體性能上對事件檢測和行為識(shí)別的準(zhǔn)確率，有必要把部署在監(jiān)控中心的智能分析系統(tǒng)與各個(gè)監(jiān)控現(xiàn)場獨(dú)立通道上的智能分析結(jié)果進(jìn)行集成，以構(gòu)成一個(gè)自底向上和頂向下結(jié)構(gòu)的反饋系統(tǒng)。系統(tǒng)在收集和記錄海量視頻數(shù)據(jù)的同時(shí)，也在時(shí)刻傳遞著、計(jì)算著描述場景內(nèi)容特征的元數(shù)據(jù)。這種以元數(shù)據(jù)為中心的網(wǎng)絡(luò)計(jì)算環(huán)境被稱為“上下文環(huán)境”，簡稱上下文。

　　智能視覺監(jiān)控系統(tǒng)中的元數(shù)據(jù)

　　元數(shù)據(jù)是一種特殊的二次信息，用來描述原始信息本身的內(nèi)容、質(zhì)量、狀況和其它特性，通常用對于數(shù)據(jù)的自動(dòng)檢索和數(shù)據(jù)挖掘。分布式智能視覺監(jiān)控系統(tǒng)中的元數(shù)據(jù)由兩個(gè)層次組成，即基本屬性信息，以及描述場景內(nèi)容的信息。分布式智能視覺監(jiān)控系統(tǒng)追求的目標(biāo)就是構(gòu)造一個(gè)完整的W6(發(fā)生了什么事?發(fā)生在哪里?發(fā)生在什么時(shí)間?發(fā)生時(shí)場景內(nèi)都有誰?為什么會(huì)發(fā)生?怎么發(fā)生的?)系統(tǒng)，其中“時(shí)間和地點(diǎn)”是在非智能化系統(tǒng)中就固有的功能。對這些問題的回答就蘊(yùn)藏在描述場景內(nèi)容特征的元數(shù)據(jù)當(dāng)中。元數(shù)據(jù)在系統(tǒng)中傳遞和進(jìn)一步深層利用的過程就是所謂“上下文感知”的過程。其目的是：通過對元數(shù)據(jù)進(jìn)行分層融合的處理，實(shí)現(xiàn)一個(gè)有效的分布式智能視覺分析系統(tǒng)。

　　元數(shù)據(jù)——基本的屬性信息?；緦哟蔚脑獢?shù)據(jù)無需經(jīng)過智能視覺分析算法的輸出即可得到。為了對場景事件和目標(biāo)的行為有一個(gè)完備的屬性記錄，主要包括基本的屬性信息，如：錄像時(shí)間、地點(diǎn)信息、攝像機(jī)的參數(shù)、設(shè)備制造商、安裝者、用戶信息。

　　元數(shù)據(jù)——描述場景內(nèi)容的信息。這部分元數(shù)據(jù)來自于對場景視頻進(jìn)行實(shí)時(shí)分析的結(jié)果，按照其描述的范圍分類，主要有局部場景內(nèi)的元數(shù)據(jù)(來自于智能前端設(shè)備的分析輸出)和全局場景內(nèi)的元數(shù)據(jù)(由分布式視頻監(jiān)控中心的上下文感知算法產(chǎn)生)。

上下文感知環(huán)境的建立

　　為了實(shí)現(xiàn)分布式智能視覺分析系統(tǒng)的“上下文感知”功能，首先需要構(gòu)建一個(gè)強(qiáng)大的視覺信息傳感網(wǎng)絡(luò)，此外還需要一個(gè)支持元數(shù)據(jù)分層融合的邏輯路由。

　　視覺信息傳感網(wǎng)絡(luò)

　　在基于視覺信息傳感網(wǎng)絡(luò)的分布式視頻監(jiān)控系統(tǒng)中，監(jiān)控?cái)z像機(jī)獲取足夠清晰的視頻輸入可以提高監(jiān)控系統(tǒng)對智能事件檢測和行為識(shí)別的可靠性。視頻數(shù)據(jù)(圖像)的質(zhì)量體現(xiàn)在如下三個(gè)方面的技術(shù)指標(biāo)：圖像的品質(zhì)和高清效果;對視場環(huán)境中干擾因素的抑制;對攝像機(jī)視覺功能異常的檢測和緊急處理。

　　攝像機(jī)成像的品質(zhì)和高清效果一般通過攝像機(jī)前端鏡頭和傳感器部分保證。對視場內(nèi)干擾因素的抑制也是衡量攝像機(jī)性能高低的重要條件，這些因素主要包括：低照度條件、寬動(dòng)態(tài)響應(yīng)、景物色彩溫度的改變和大氣中的霧霾等。在這些因素條件下都需要攝像機(jī)對場景的視頻質(zhì)量進(jìn)行增強(qiáng)。

　　在視覺監(jiān)控系統(tǒng)中，攝像機(jī)的視覺功能異常通常意味著整個(gè)系統(tǒng)的原始視頻輸入受到嚴(yán)重干擾。無論是人為蓄意還是由設(shè)備或環(huán)境因素所致，視覺功能異常對系統(tǒng)的效能都有很大的影響，甚至隱含著對攝像機(jī)設(shè)備的安全威脅。產(chǎn)生所謂“攝像機(jī)視覺功能異常”的可能原因有：人用手至于攝像機(jī)前、在攝像機(jī)上噴漆或移動(dòng)攝像機(jī)使其指向其他方向。這些行為一定會(huì)超過數(shù)秒，因此如何判斷真正的攝影機(jī)異常而不是因?yàn)槿巳阂苿?dòng)或是車輛震動(dòng)或其他正常的原因是真正技術(shù)所在。圖1所示是為一種因人為惡意遮擋導(dǎo)致的攝像機(jī)視覺功能異常。

　　對攝像機(jī)視覺功能異常的檢測一旦實(shí)現(xiàn)，便可立即在視覺信息傳感網(wǎng)絡(luò)內(nèi)部觸發(fā)“傳感器安全威脅”緊急事件管理，在監(jiān)控中心端重新優(yōu)化分布式系統(tǒng)的視覺跟蹤進(jìn)程圖。

　　元數(shù)據(jù)的邏輯路由

　　在圖2所示的分布式智能視頻監(jiān)控系統(tǒng)拓?fù)?/strong>圖中，黑色箭頭表示元數(shù)據(jù)在系統(tǒng)網(wǎng)絡(luò)上的流動(dòng)情況。流動(dòng)方向可以是雙向的，即智能前端設(shè)備的元數(shù)據(jù)為監(jiān)控中心提供全局場景分析所用的局部描述特征，而監(jiān)控中心根據(jù)自己的計(jì)算結(jié)果補(bǔ)充前端智能結(jié)點(diǎn)在觀測信息上的局限性。

　　描述本地場景特征的元數(shù)據(jù)在分布式智能視頻監(jiān)控系統(tǒng)的前端設(shè)備上計(jì)算生成后，需要先在視覺信息傳感網(wǎng)絡(luò)內(nèi)部傳遞，然后在監(jiān)控中心端被深度利用以生成描述廣域監(jiān)控范圍場景的元數(shù)據(jù)。元數(shù)據(jù)的邏輯路由通常采用與海量視頻數(shù)據(jù)相對獨(dú)立的信息層，按照 “數(shù)據(jù)的分層傳輸方法”，在TCP/IP協(xié)議集中實(shí)現(xiàn)。

　　作為傳輸和利用元數(shù)據(jù)的另一種方案，在新一代面向智能視頻監(jiān)控的視頻編碼標(biāo)準(zhǔn)中，描述場景特征的元數(shù)據(jù)被封裝在兩個(gè)新型的信息層(對象層和分析層)中，不僅進(jìn)一步在編碼標(biāo)準(zhǔn)的基本層實(shí)現(xiàn)基于感興趣區(qū)域的空域分辨率可調(diào)整編碼，也為智能視覺分析算法提供了一個(gè)完整的元數(shù)據(jù)邏輯路由。

　　上下文感知算法

　　分布式智能視頻監(jiān)控系統(tǒng)的有效性是以具備上下文感知能力的視覺分析系統(tǒng)為前提的。上下文感知算法在分布式智能視頻監(jiān)控系統(tǒng)中扮演著重要角色，它關(guān)注的是對智能前端設(shè)備內(nèi)產(chǎn)生的元數(shù)據(jù)的深度利用，而不關(guān)心局部場景的元數(shù)據(jù)在前端設(shè)備上如何產(chǎn)生。

　　傳感網(wǎng)絡(luò)環(huán)境下的攝像機(jī)定標(biāo)

　　攝像機(jī)所處理的原始視頻(圖像)數(shù)據(jù)都可看作是3D世界坐標(biāo)系下的真實(shí)數(shù)據(jù)在以該攝像機(jī)焦點(diǎn)為中心的2D圖像坐標(biāo)系中的投影。由于每臺(tái)攝像機(jī)都有各自的2D圖像坐標(biāo)系，因此要正確地關(guān)聯(lián)和融合來自傳感網(wǎng)絡(luò)中不同攝像機(jī)的元數(shù)據(jù)，必須先對各個(gè)攝像機(jī)進(jìn)行定標(biāo)。由于不同的攝像機(jī)之間可能存在色彩敏感度和空間分辨率上的差異，或者工作在不同的光照條件下，因此定標(biāo)工作應(yīng)不僅僅針對空域進(jìn)行，還應(yīng)當(dāng)包括時(shí)域和顏色空間。嚴(yán)格地說，攝像機(jī)的定標(biāo)不屬于上下文感知算法的一部分，但是它是非常必要的，可為上下文感知算法提供前置的預(yù)處理。

　　對攝像機(jī)進(jìn)行空域定標(biāo)后，將會(huì)導(dǎo)出兩個(gè)變換矩陣和，分別用于把不同視場內(nèi)的元數(shù)據(jù)變換到統(tǒng)一的世界坐標(biāo)系中以及把世界坐標(biāo)系下的數(shù)據(jù)投影到2D圖像坐標(biāo)系中，這實(shí)際上為元數(shù)據(jù)在更廣監(jiān)控范圍內(nèi)的深度利用提供了可能。對攝像機(jī)進(jìn)行時(shí)域定標(biāo)時(shí)，需要針對不同攝像機(jī)觀測到的同一個(gè)運(yùn)動(dòng)目標(biāo)進(jìn)行軌跡的匹配，以求出針對不同攝像機(jī)時(shí)鐘的時(shí)間彎折曲線，在實(shí)際應(yīng)用中比較復(fù)雜。對攝像機(jī)進(jìn)行顏色空間上的定標(biāo)還要考慮不同光照條件下的實(shí)驗(yàn)數(shù)據(jù)收集，應(yīng)用操作起來更加繁瑣。

　　在實(shí)際工程項(xiàng)目中，如果定標(biāo)不準(zhǔn)確或是略去對攝像機(jī)在時(shí)域和顏色空間的定標(biāo)，必然會(huì)降低不同的視覺信息通道向監(jiān)控中心提供元數(shù)據(jù)的可靠性，比如對場景內(nèi)同一個(gè)目標(biāo)的特征描述出現(xiàn)不一致甚至沖突的問題。這時(shí)為了得到可靠的元數(shù)據(jù)以描述全局監(jiān)控場景的實(shí)時(shí)狀態(tài)，可對元數(shù)據(jù)進(jìn)行融合。有兩種方法可以采用：其一，通過網(wǎng)絡(luò)，在監(jiān)控中心對元數(shù)據(jù)進(jìn)行狀態(tài)估計(jì);其二，選擇合適的場景事件模型，在監(jiān)控中心對由元數(shù)據(jù)組成的事件進(jìn)行推理。
　全局場景的視覺跟蹤

　　在基于攝像機(jī)傳感網(wǎng)絡(luò)的分布式視頻監(jiān)控系統(tǒng)中，監(jiān)控中心收到來自各個(gè)前端設(shè)備的視頻流及相關(guān)的元數(shù)據(jù)通常描述的是有限時(shí)空范圍的視覺信息，由于攝像機(jī)定標(biāo)不準(zhǔn)確(詳見前述內(nèi)容)、場景的噪聲和目標(biāo)被遮擋等原因，分析得出的元數(shù)據(jù)存在不確定性的特點(diǎn)。為了實(shí)現(xiàn)在監(jiān)控中心對全局區(qū)域內(nèi)感興趣目標(biāo)可靠的視覺跟蹤，可以采用一種分層式點(diǎn)對點(diǎn)的多攝像機(jī)元數(shù)據(jù)融合算法。

　　該數(shù)據(jù)融合算法基于一種策略，以監(jiān)控中心的世界坐標(biāo)系為參考，把來自不同智能攝像機(jī)或是智能視頻分析通道的元數(shù)據(jù)合并為一個(gè)大的向量，使用分層Kalman預(yù)測器對場景內(nèi)被智能前端設(shè)備鎖定的多個(gè)視覺目標(biāo)進(jìn)行可靠跟蹤，并從這個(gè)大向量的分量重發(fā)現(xiàn)場景中的異常事件。算法的底層指的是各個(gè)智能前端設(shè)備的監(jiān)控層，上層指的是監(jiān)控中心層。

　　全局場景的事件融合

　　在不同領(lǐng)域知識(shí)的背景下，元數(shù)據(jù)的組合可以構(gòu)成事件;另一方面，事件具備多種由元數(shù)據(jù)表征的屬性。元數(shù)據(jù)本身只是屬性或特征的度量，而事件才能表達(dá)場景內(nèi)的語義，事件具備原子性，由它可進(jìn)一步構(gòu)造對場景語義的句法描述。

　　多種原因，如：攝像機(jī)定標(biāo)不準(zhǔn)確(詳見前述內(nèi)容)、視頻場景的噪聲和目標(biāo)被遮擋等，常會(huì)降低各個(gè)智能前端通道分析得出的元數(shù)據(jù)可靠性，這時(shí)為了依然保證監(jiān)控中心對全局場景事件檢測的準(zhǔn)確性，可以在事件模型中對其屬性(元數(shù)據(jù))進(jìn)行融合，然后得出優(yōu)化的推理結(jié)果。圖3 所示為在基于多攝像機(jī)傳感網(wǎng)絡(luò)的環(huán)境下，全局場景事件的檢測和識(shí)別可以通過對多臺(tái)攝像機(jī)傳遞的本地元數(shù)據(jù)進(jìn)行融合而得到。

　　結(jié)語

　　本文提出了一種具備上下文感知功能的分布式智能視覺分析系統(tǒng)。對上下文和上下文感知給出了具體的物理意義和實(shí)現(xiàn)手段。

　　以元數(shù)據(jù)為中心設(shè)計(jì)的分布式系統(tǒng)，能夠保證場景異常事件或特定行為發(fā)生時(shí)，在多臺(tái)攝像機(jī)構(gòu)成的多通道傳感器網(wǎng)絡(luò)內(nèi)實(shí)現(xiàn)元數(shù)據(jù)的傳遞和數(shù)據(jù)融合，從而提高在監(jiān)控中心全局意義上對場景事件識(shí)別的準(zhǔn)確率。元數(shù)據(jù)的融合在監(jiān)控中心進(jìn)行，因而可在全局意義上得到所監(jiān)控區(qū)域的場景視圖。

　　一個(gè)典型的上下文感知智能視覺分析系統(tǒng)能夠在場景內(nèi)事件觸發(fā)時(shí)，把元數(shù)據(jù)送入監(jiān)控中心的事件隊(duì)列，然后依據(jù)上下文感知算法對元數(shù)據(jù)進(jìn)行融合，使事件隊(duì)列優(yōu)化，最終得出高可靠性的對全局事件的識(shí)別。

新聞中心

基于上下文感知的智能視覺分析系統(tǒng)

評論

相關(guān)推薦

技術(shù)專區(qū)