<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁(yè) > 智能計(jì)算 > 設(shè)計(jì)應(yīng)用 > 米爾入門級(jí)i.MX6UL開發(fā)板的神經(jīng)網(wǎng)絡(luò)框架ncnn移植與測(cè)試

          米爾入門級(jí)i.MX6UL開發(fā)板的神經(jīng)網(wǎng)絡(luò)框架ncnn移植與測(cè)試

          —— 入門級(jí)i.MX6UL板卡的神經(jīng)網(wǎng)絡(luò)框架ncnn的移植與測(cè)試-米爾MYD-Y6ULX-V2開發(fā)板
          作者: 時(shí)間:2023-02-17 來源:電子產(chǎn)品世界 收藏
          編者按:嵌入式Linux入門級(jí)板卡的神經(jīng)網(wǎng)絡(luò)框架ncnn移植與測(cè)試-米爾i.MX6UL開發(fā)板

          MYD-Y6ULX-V2 ,基于 NXP /L處理器,該稱之為經(jīng)典王牌產(chǎn)品。本次測(cè)試目標(biāo)是在此上進(jìn)行框架ncnn的移植與測(cè)試開發(fā),測(cè)試ncnn在此開發(fā)板上的性能與應(yīng)用測(cè)試。

          本文引用地址:http://www.ex-cimer.com/article/202302/443453.htm

          1676619648635893.png

          01.什么是ncnn

          ncnn 是騰訊優(yōu)圖推出的在手機(jī)端極致優(yōu)化的高性能前向計(jì)算框架。也能夠在移動(dòng)設(shè)備上的高性能前向計(jì)算框架。ncnn 從設(shè)計(jì)之初深刻考慮移動(dòng)端的部署和使用。無第三方依賴,跨平臺(tái),其中手機(jī)端 cpu的速度快于目前所有已知的開源框架?;趎cnn,能夠?qū)⑸疃葘W(xué)習(xí)算法輕松移植到手機(jī)端和移動(dòng)設(shè)備上高效執(zhí)行,開發(fā)人工智能應(yīng)用。以騰訊內(nèi)部應(yīng)用為例,ncnn目前已在QQ,Qzone,微信,天天P圖等上得到應(yīng)用。ncnn支持大部分常用的CNN 網(wǎng)絡(luò):Classical CNN: VGG AlexNetGoogleNet Inception …Practical CNN: ResNetDenseNet SENet FPN …Light-weight CNN:SqueezeNet MobileNetV1/V2/V3 ShuffleNetV1/V2 MNasNet …Detection: MTCNNfacedetection …Detection: VGG-SSDMobileNet-SSD SqueezeNet-SSD MobileNetV2-SSDLite …Detection: Faster-RCNNR-FCN …Detection: YOLOV2 YOLOV3MobileNet-YOLOV3 …Segmentation: FCN PSPNetUNet …騰訊優(yōu)圖實(shí)驗(yàn)室是主要研究計(jì)算機(jī)視覺技術(shù),ncnn的許多應(yīng)用方向也都在圖像方面,如人像自動(dòng)美顏,照片風(fēng)格化,超分辨率,物體識(shí)別。騰訊優(yōu)圖ncnn提供的資料顯示:對(duì)比目前已知的同類框架,ncnn是cpu框架中最快的,安裝包體積最小,跨平臺(tái)兼容性中也是最好的。以蘋果主推的CoreML為例,CoreML是蘋果主推的 iOS gpu計(jì)算框架,速度非???,但僅支持 iOS11以上的 iphone手機(jī)受眾太狹窄。非開源也導(dǎo)致開發(fā)者無法自主擴(kuò)展功能。

          02.ncnn功能簡(jiǎn)介

          ncnn支持卷積神經(jīng)網(wǎng)絡(luò),支持多輸入和多分支結(jié)構(gòu),可計(jì)算部分分支無任何第三方庫(kù)依賴,不依賴 BLAS/NNPACK 等計(jì)算框架純 C++ 實(shí)現(xiàn),跨平臺(tái),支持 android ios 等ARM NEON 匯編級(jí)良心優(yōu)化,計(jì)算速度極快精細(xì)的內(nèi)存管理和數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì),內(nèi)存占用極低支持多核并行計(jì)算加速,ARM big.LITTLE cpu 調(diào)度優(yōu)化。支持基于全新低消耗的 vulkan api GPU 加速整體庫(kù)體積小于 700K,并可輕松精簡(jiǎn)到小于 300K可擴(kuò)展的模型設(shè)計(jì),支持 8bit 量化和半精度浮點(diǎn)存儲(chǔ),可導(dǎo)入 caffe/pytorch/mxnet/onnx 模型支持直接內(nèi)存零拷貝引用加載網(wǎng)絡(luò)模型可注冊(cè)自定義層實(shí)現(xiàn)并擴(kuò)展。

          image.png

          ncnn與同類框架對(duì)比

          03.在i.MX 6ull上移植編譯ncnn

          工程地址:github

          https://github.com/Tencent/ncnn 

          從工程的readme文件看,該工程已經(jīng)支持很多CPU的架構(gòu),其中就有arm 32位版本。

          1676619698288500.png

          既然支持arm32位,那么ixm6ull處理器也應(yīng)該支持,即著手編譯/i.MX6UL開發(fā)板上的版本。1.從github 上拉取ncnn源碼在主機(jī)上執(zhí)行命令:Sudo git clone

          https://github.com/Tencent/ncnn.git

          1676619742584741.png

          可見是一個(gè) cmake工程,那么嘗試cmake 編譯。

          2.初次使用camke編譯

          先進(jìn)入ixml6ull的SDK下,切換到交叉編譯環(huán)境,然后創(chuàng)建 build 目錄,進(jìn)入build目錄下,執(zhí)行cmake命令cmake ../從輸出信息上看 cmake失敗,查看cmake 日志,發(fā)現(xiàn)錯(cuò)誤原因是cmake在生成開發(fā)板的makefile文件時(shí),需要指定使用的編譯工具鏈。

          3.添加imx6ull開發(fā)板的編譯

          配置根據(jù)腳本的過程,在toolchains目錄下,有很多其它開發(fā)板的編譯配置文件,參照其它開發(fā)板的配置文件,添加一個(gè)i.MX6UL開發(fā)板的配置文件。文件名:arm-poky-linux-gnueabi.cmake內(nèi)容如下:

          set(CMAKE_SYSTEM_NAME Linux)set(CMAKE_SYSTEM_PROCESSOR arm)set(CMAKE_C_COMPILER "arm-poky-linux-gnueabi-gcc")set(CMAKE_CXX_COMPILER "arm-poky-linux-gnueabi-g++")set(CMAKE_FIND_ROOT_PATH_MODE_PROGRAM NEVER)set(CMAKE_FIND_ROOT_PATH_MODE_LIBRARY ONLY)set(CMAKE_FIND_ROOT_PATH_MODE_INCLUDE ONLY)
          set(CMAKE_C_FLAGS "-march=armv7-a -mfloat-abi=hard -mfpu=neon --sysroot=/home/lutherluo/workspace/fsl-imx-fb/5.10-gatesgarth/sysroots/cortexa7t2hf-neon-poky-linux-gnueabi")
          set(CMAKE_CXX_FLAGS "-march=armv7-a -mfloat-abi=hard -mfpu=neon --sysroot=/home/lutherluo/workspace/fsl-imx-fb/5.10-gatesgarth/sysroots/cortexa7t2hf-neon-poky-linux-gnueabi")
          # cache flagsset(CMAKE_C_FLAGS "${CMAKE_C_FLAGS}" CACHE STRING "c flags")set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS}" CACHE STRING "c++ flags")

          1676619771932630.png

          4.再使用cmake生成編譯文件

          添加完i.MX6UL/i.MX6ULL開發(fā)板的編譯工具鏈后,就可以使用cmake來生成編譯所需的makefile文件了。在cmake時(shí),可以指定除了編譯ncnn庫(kù)外,還可以編譯ncnn例子程序。命令如下:cmake-DCMAKE_BUILD_TYPE=Release -DNCNN_SIMPLEOCV=ON-DCMAKE_TOOLCHAIN_FILE=../toolchains/arm-poky-linux-gnueabi.cmake-DNCNN_BUILD_EXAMPLES=ON ..

          1676619798525445.png

          查看目錄下,已經(jīng)順利地生成了 Makefile文件。

          5.使用make編譯文件

          然后可以正式編譯ncnn庫(kù)和測(cè)試樣例程序了。直接執(zhí)行make –j4就開始愉快地編譯了。

          1676619828679813.png

          1676619873500549.png

          編譯libncnn庫(kù)文件成功,會(huì)繼續(xù)自動(dòng)編譯 examples 下的例子文件。

          1676619901629341.png

          大約10多分鐘,順利地全部編譯完成。在編譯測(cè)試用例時(shí),會(huì)出現(xiàn)庫(kù)格式錯(cuò)誤的提示,此時(shí)需要設(shè)置一下交叉編譯環(huán)境下的庫(kù)歸檔工具,系統(tǒng)默認(rèn)使用的是arm-poky-linux-gnueabi-ar 工具,這個(gè)工具產(chǎn)生的 .a文件有問題,經(jīng)過測(cè)試使用 arm-poky-linux-gnueabi-gcc-ar 即可。只需要在執(zhí)行切換交叉環(huán)境腳本后,再單獨(dú)執(zhí)行一下以下命令即可修改該問題:export ar=arm-poky-linux-gnueabi-gcc-ar再進(jìn)行編譯即可。

          6.查看編譯結(jié)果

          編譯完成后,在build目錄下,可以看到 benchmark 目錄,該目錄下就是ncnn的基準(zhǔn)測(cè)試工具,可以看到目標(biāo)板執(zhí)行文件已編譯出來。

          再進(jìn)入到 build/example 下,可以看到所有例程也編譯出來了。

          1676619939126051.png

          04.板上運(yùn)行測(cè)試ncnn

          編譯完成把可執(zhí)行文件與模型文件復(fù)制到i.MX6UL/i.MX6ULL開發(fā)板里進(jìn)行測(cè)試。

          把 build/benchmark 下的benchmark 復(fù)制到開發(fā)板/home/root/ncnn 目錄下,同時(shí)把工程根目錄下的benchmark 目錄下所有文件也復(fù)制到i.MX6UL/i.MX6ULL開發(fā)板 /home/root/ncnn目錄下,

          1676620052515554.png

          然后就可以執(zhí)行 benchmark 執(zhí)行文件來測(cè)試i.MX6UL/i.MX6ULL開發(fā)板的人工神經(jīng)網(wǎng)絡(luò)的計(jì)算能力。

          1676620090754494.png

          先把開發(fā)環(huán)境下目標(biāo)文件系統(tǒng)arm目錄下/usr/lib下的libgomp.so.1文件復(fù)制到開發(fā)板的/usr/lib下,這個(gè)文件是并行計(jì)算庫(kù),ncnn編譯時(shí)用到了這個(gè)庫(kù),這個(gè)庫(kù)在多核處理器上能夠支持執(zhí)行并行計(jì)算。然后再在i.MX6UL/i.MX6ULL開發(fā)板執(zhí)行benchmark,執(zhí)行輸出結(jié)果如下圖:

          1676620124688739.png

          可見大部分的模型能夠跑通了,有部分模型運(yùn)行出現(xiàn)異常。

          從拋出的分值可以評(píng)估該開發(fā)板的神經(jīng)網(wǎng)絡(luò)推理計(jì)算能力了。

          這個(gè)分值是一個(gè)模型推理一次的耗時(shí),所以數(shù)值越小意味著算力越強(qiáng)。考慮到這個(gè)開發(fā)板是一個(gè)arm v7入門級(jí)的開發(fā)板,這樣的性能已經(jīng)超乎預(yù)料了。

          05.測(cè)試基于ncnn的應(yīng)用

          這里在i.MX6UL/i.MX6ULL開發(fā)板上測(cè)試ncnn的應(yīng)用例子,這里就用ncnn下的例程來做測(cè)試,在上面編譯完example后,在build目錄下會(huì)產(chǎn)生example的目標(biāo)板的可執(zhí)行文件。編譯出來的例子程序如下,把他們?nèi)總鞯介_發(fā)板上。

          image.png

          需要注意的是,除了ncnn的應(yīng)用執(zhí)行文件,在這些例子執(zhí)行的時(shí)候,還需要模型和測(cè)試的資源文件,而這些文件體積都比較大,因此不能傳送到開發(fā)板的系統(tǒng)目錄上,需要單獨(dú)存在擴(kuò)展的存儲(chǔ)空間上。

          經(jīng)過觀察板上的文件系統(tǒng),發(fā)現(xiàn)有3.1G的空間沒有使用,此時(shí)可以使用fdisk 來格式化該空間,格式化成 ext4 格式,重啟板子后,就可以看到這部分空間了,然后把ncnn的所有測(cè)試執(zhí)行文件和資源文件傳到該目錄下,這樣就夠用了。

          在板上執(zhí)行各個(gè)測(cè)試?yán)?,?huì)提示缺少相關(guān)模型文件和參數(shù)文件,這些模型和參數(shù)文件在這個(gè)github上面,下載相應(yīng)的文件到當(dāng)前目錄下就可以。

          https://github.com/nihui/ncnn-assets/tree/master/models

          1676620173742026.png

          1.測(cè)試圖片分類器

          準(zhǔn)備被測(cè)試圖片,test,jpg ,傳到上ncnn當(dāng)前目錄下

          1676620210208000.png

          并且下載好 squeezenet_v1.1.param和 squeezenet_v1.1.bin 文件到 ncnn當(dāng)前目錄下,然后執(zhí)行一下命令:

          ./squeezenet./test.jpg

          很快就輸出識(shí)別結(jié)果,輸出結(jié)果如下圖

          1676620240896324.png

          輸出結(jié)果前面的編號(hào)和分類號(hào),具體可以參考:

          mageNet20121000分類名稱和編號(hào)

          https://zhuanlan.zhihu.com/p/315368462

          但不知本測(cè)試模型所用分類的版本是否和這個(gè)一致。

          2   測(cè)試圖片內(nèi)容多目標(biāo)識(shí)別

          測(cè)試圖片內(nèi)容識(shí)別,先用上面的圖,再使用 squeezenetssd 來執(zhí)行。執(zhí)行前先下載 squeezenet_ssd_voc.bin和 squeezenet_ssd_voc.param 到板上ncnn當(dāng)前目錄下,然后執(zhí)行:

          ./squeezenetssd./test.jpg

          大約3秒左右輸出結(jié)果如圖:

          輸出的分類編號(hào),可見代碼的定義:

          1676620265396096.png

          同時(shí)輸出了識(shí)別結(jié)果圖:

          1676620289186595.png

          再測(cè)試另外一張圖;

          1676620320491328.png

          執(zhí)行結(jié)果如下:

          image.png

          輸出識(shí)別結(jié)果圖:

          1676620365578697.png

          上面的識(shí)別,因?yàn)檩敵龅牡诙€(gè)目標(biāo)被第三個(gè)目標(biāo)遮蓋,第二個(gè)識(shí)別為“Dog”,所以識(shí)別準(zhǔn)確度還是比較高的。

          再測(cè)試了一張圖:

          輸出:

          image.png

          1676620409867165.png

          識(shí)別效果也比較理想。

          06.測(cè)試總結(jié)

          經(jīng)過在米爾i.MX6UL/i.MX6ULL開發(fā)板上,進(jìn)行這次的測(cè)試,總體非常順利,在移植中只需要針對(duì)開發(fā)板的編譯器,修改添加相應(yīng)的編譯腳本即可順利的編譯ncnn庫(kù)和所有例程。并不需要對(duì)代碼做任何改動(dòng)或者調(diào)整,因此過程很快,短暫的時(shí)間就可以完成ncnn這樣一個(gè)神經(jīng)網(wǎng)絡(luò)框架在本開發(fā)板上運(yùn)行起來。

          對(duì)ncnn的benchmark的性能測(cè)試來看,因?yàn)楸鹃_發(fā)板僅為arm v7單核處理器,處于入門級(jí)的一款開發(fā)板,能跑出這樣的成績(jī)已經(jīng)出乎意料。
           在對(duì)實(shí)際圖像分類和圖像內(nèi)容識(shí)別測(cè)試中,其中圖像分類僅百十毫秒就出結(jié)果,對(duì)多目標(biāo)識(shí)別單張圖在2秒左右,這對(duì)一些靜態(tài)的環(huán)境下已經(jīng)能夠達(dá)到業(yè)務(wù)使用的需求了,再綜合其硬件性能,可見效能比是非常高的。同時(shí)工程里還帶有一些各種其它框架模型轉(zhuǎn)化ncnn的工具,方便將其它模型轉(zhuǎn)化到ncnn上來使用,非常方便。
           同時(shí)也測(cè)試出ncnn的良好的可移植性和對(duì)不同硬件的支持較好,其它任何一個(gè)神經(jīng)網(wǎng)絡(luò)框架恐怕無法在這樣一個(gè)系統(tǒng)上運(yùn)行,因此也為這樣一個(gè)有效的國(guó)產(chǎn)開源神經(jīng)網(wǎng)絡(luò)項(xiàng)目點(diǎn)贊。

          米爾電子,專注處理器模塊設(shè)計(jì)和研發(fā),是領(lǐng)先的嵌入式處理器模組廠商。米爾電子在嵌入式領(lǐng)域具有20年的行業(yè)技術(shù)經(jīng)驗(yàn),為客戶提供專業(yè)的ARM工業(yè)控制板、ARM開發(fā)板、ARM核心板、ARM開發(fā)工具、充電樁計(jì)費(fèi)控制單元及充電控制板等產(chǎn)品和技術(shù)服務(wù)。此外,米爾電子還可通過涵蓋眾多ARM處理器及操作系統(tǒng)的專業(yè)技術(shù)提供定制設(shè)計(jì)解決方案,通過專業(yè)且高效率服務(wù)幫助客戶加速產(chǎn)品上市進(jìn)程。

          更多了解:http://www.myir-tech.com/news/news.asp



          評(píng)論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();