OpenVINO?工具包公共模型概述
OpenVINO?工具包提供了一組公共模型,您可以將其用于學(xué)習(xí)和演示目的,或者用于開發(fā)深度學(xué)習(xí)軟件。
本文引用地址:http://www.ex-cimer.com/article/202106/426375.htm最新版本可在Github上的回購中找到。
您可以下載模型并使用OpenVINO?模型下載器和其他自動化工具將它們轉(zhuǎn)換為推理引擎格式(*.xml+*.bin)。
分類
分割
語義分割是目標(biāo)檢測問題的延伸。
語義分割模型不返回邊界框,而是返回輸入圖像的“繪制”版本,其中每個像素的“顏色”表示某個類別。
這些網(wǎng)絡(luò)比各自的目標(biāo)檢測網(wǎng)絡(luò)大得多,但它們提供了更好的(像素級)目標(biāo)定位,并且它們可以檢測到形狀復(fù)雜的區(qū)域。
語義分割
實例分割
實例分割是目標(biāo)檢測和語義分割問題的延伸。與預(yù)測每個對象實例周圍的邊界框不同,實例分割模型為所有實例輸出像素級掩碼。
3D語義分割
目標(biāo)檢測
幾個檢測模型可以用來檢測一組最流行的對象——例如,人臉、人、車輛。大多數(shù)網(wǎng)絡(luò)都基于固態(tài)硬盤,并提供合理的精度/性能權(quán)衡。
面部識別
人體姿態(tài)估計
人體姿態(tài)估計任務(wù)是為輸入圖像或視頻中的每個人預(yù)測一個姿態(tài):身體骨架,它由關(guān)鍵點和它們之間的聯(lián)系組成。關(guān)鍵點是身體關(guān)節(jié),即耳朵、眼睛、鼻子、肩膀、膝蓋等。這種方法有兩大類:自上而下和自下而上。首先在給定的幀中檢測人,裁剪或重新縮放檢測,然后為每個檢測運行姿態(tài)估計網(wǎng)絡(luò)。這些方法非常準(zhǔn)確。第二個查找給定幀中的所有關(guān)鍵點,然后按個人實例對它們進行分組,這樣比以前更快,因為網(wǎng)絡(luò)只運行一次。
單目深度估計
單目深度估計的任務(wù)是基于單一輸入圖像預(yù)測深度(或逆深度)地圖。由于這個任務(wù)在一般情況下包含一些模糊性,所以得到的深度圖通常只定義一個未知的比例因子。
圖像修復(fù)
圖像修復(fù)的任務(wù)是估計合適的像素信息來填充圖像中的空洞。
風(fēng)格轉(zhuǎn)移
風(fēng)格轉(zhuǎn)移任務(wù)是將一個圖像的風(fēng)格轉(zhuǎn)移到另一個圖像。
動作識別
動作識別的任務(wù)是預(yù)測正在短視頻剪輯上執(zhí)行的動作(通過堆疊來自輸入視頻的采樣幀形成的張量)。
彩色化
彩色化任務(wù)是從灰度圖像中預(yù)測場景的顏色。
聲音分類
聲音分類的任務(wù)是預(yù)測音頻片段中有哪些聲音。
語音識別
語音識別的任務(wù)是識別口語并將其翻譯成文本。
圖像翻譯
圖像翻譯的任務(wù)是基于樣本生成輸出。
位置識別
地點識別的任務(wù)是快速準(zhǔn)確地識別給定查詢照片的位置。
使(模糊的圖像)變清晰
圖像去模糊的任務(wù)。
評論