AFCI 應用筆記二之數據采集
1. 簡介
本文引用地址:http://www.ex-cimer.com/article/202402/455401.htm基于監督學習的神經網絡算法需要大量數據作為輸入,模型完全由數據驅動,其數據質 量是算法有效的必要條件,所以如何高效的采集到數據,以及正確的標注或分析是極其重要的,如果第一步有問題,后續的所有工作都是徒勞。
本文將介紹 PECC 的數據采集板,以及來自 GPM China 的數據采集工具,簡單分析數據質量的一些方法,以及需要注意的一些事項。
圖1. PECC 硬件 V1.0
2. 上位機介紹
圖2. 上位機主界面
2.1. 打開串口
單擊①找到相應的串口號,并通過②選擇合適的波特率,點擊③打開串口。注意:
1. 如果連接設備是串口+USB 虛擬串口,則需要選擇正確的波特率才能正常通訊。
2. 如果連接設備是 USB 虛擬串口(比如 PECC 的開發板),則波特率可以隨便選擇。
2.2. 數據采集
通過④設置標簽,⑤設置采樣率(最高 400KHz),⑥設置采樣時間,⑦選擇通道(目前 上位機支持四個通道),選擇⑧開始數據采集。
2.2.1. 數據標注方法與原則
1. ④中設置的是文件標簽,也可以理解為文件保存路徑,python 腳本會根據保存的文 件路徑來給數據進行打標。
2. 文件夾中必須有且僅有 “Arc”“Normal”字符串,大小寫無關。其中“Arc”,表 示該文件夾下的數據全為有弧信號; “Normal”,表示該文件夾下的數據全為無弧 信號。參看下文一個比較好的數據標注的例子。
3. “Normal”信號的采集。無弧信號采集較簡單,只需要關注不同的采集條件,讓數 據分布更廣即可。為了確保無弧,所有線頭連接部分必須保證充分接觸,防止接觸 不良導致接頭內部產生電弧,而肉眼無法看到的情況發生,拉弧機兩端最好有接示 波器,電壓必須為 0,以確保拉弧機接頭內部沒有肉眼無法看到的電弧。
4. “Arc”信號的采集。為了保證采集到的數據全部為有弧信號,需要先打開拉弧機產 生電弧,再點擊⑧開始采集,待上位機采集完成,再斷開拉弧機。
5. 由于拉弧與非常多的因素相關,所以數據采集應當在各個不同條件下采集。目前已 知能影響拉弧效果的因素包括且不限于:是否有關斷器,是否有優化器,電流等級, 逆變器通道,硬件采集電路,拉弧距離等。在數據標注時,需要對這些情況進行相 應的標注,方便以后分析。電流等級可以以 2-3A 為一個步長采集所有電流等級內的 數據。
6. 采集時長或數據大小。沒有明確規定的大小,建議每個電流等級總時長不低于 30s。 同一條件也不建議太大,因為數據量太多可能導致內存不足,無法訓練或訓練時間 過長。
2.2.2. 數據文件夾
1. 文件夾設置好后,采集數據,會自動在上位機同目錄下生成文件夾。
2. 在 Chart 頁面下,左鍵點擊文件夾會將文件夾路徑更新到④中,方便采集
2.2.3. 采集板供電
PECC 板子使用 USB 供電,可以連接筆記本,但是 USB 供電會引入工頻噪聲,在采集 階段和驗證階段,必須保證環境的一致性,所以在采集和驗證階段都需要使用統一的設備進 行供電,不能切換電腦或電源。建議使用同一臺電腦采集數據和驗證,并且連接電源,不使 用電池。
圖3. 數據標注
圖4. 數據采集 Log
2.2.4. 采集日志
1. Log 信息會自動保存在上位機同目錄下,以當前時間作為文件名,以.log 作為結尾。
2. 如果 Log 信息中,出現了丟包或其他錯誤信息,最好刪掉采集保存下來的這條數據。 從上文數據采集 log 中,可以看出
① :400KHz 采樣率下,數據有丟包。那么,可以在 Chart 界面下,找到該條數據,點擊 delete 刪除。
② : 400KHz 正常的數據采集 Log。
目前,僅在 400KHz 采樣率下,發現小概率有丟包情況,其他情況未發現,未來提高
USB 通信速率應該可以解決該問題,不過串口通訊仍然有誤碼率的可能性。
2.3. 數據分析
2.3.1. 數據顯示
圖5. Chart 頁面
1.點擊采集到的數據①,會在右邊繪制出波形圖。
2.②:時域圖形,橫坐標表示采樣點數,縱坐標表示 ADC 值。③:頻域圖形,橫坐標表 示 N × 采樣率,如果采樣率為 250KHz,則 0.5 表示 125KHz,縱坐標表示幅值。
3.設置幀長⑤,拖動④可以看到不同幀長窗口下的時域和頻域圖形。
2.3.2. 數據對比
圖6. 上位機軟件的時域和頻域對比功能
1. 選擇①痕跡,再選擇其他數據文件,則可以對比不同數據的波形,上圖為有弧和無弧 信號的對比。
2. 檢查②時域部分:查看是否有異常點,是否有樣本點超過最大幅值的情況,中心點是 否在 2048 附近(12 位 ADC 最大值為 4096,中心點為 2048),可以看出硬件是否 有設計問題,比如放大倍數不正確,或者中心點不正確。還可以和示波器進行對比, 看采集到的數據是否和示波器上的一致,來檢查硬件或固件。
3. 檢查③頻域部分:查看濾波器的濾波范圍是否正確,限波點是否正確,上圖可以看到 數據在相對低頻部分有比較好的分辨能力。
2.4. 在線識別
圖7. 識別結果
選擇好①采樣率和③通道,點擊開始識別,就可以讓開發板進入 AFCI 識別模式,識別中會輸出 圖中④類似的 Log 信息,表示采樣率已經設置為 250KHz,CH2 通道已經打開,并輸出了 normal 和 arc 的百分比信息,代表是的無弧和有弧的概率。
2.5. 文件驗證
文件驗證功能指的是將采集到的 csv 格式的原始數據文件,下載到開發板中,進行驗證, 從而判斷固件部分 AI 功能是否正常,如果固件和模型正確,輸出結果應當和標記的內容一樣。
圖8. 文件驗證
圖9. Log 信息
圖 8:在 Chart 界面下,選擇需要驗證的文件,雙擊會彈出驗證對話框,點擊 Yes 進行驗證。
圖 9:顯示的輸出結果信息,以及剩余驗證數據,通道信息可忽略,因為數據是從上位機下載的 和通道無關。
2.6. 通訊協議
在 Note 界面下,有相應的串口通訊協議和 Release 信息。
圖10. Note 界面
3. 總結
數據采集和標注是做好神經網絡的第一步,需要格外小心和謹慎,不然其中有臟數據,通 過肉眼十分難以清理出來,臟數據過多會導致模型泛化能力很差。
其中一個辦法是用模型對所有數據進行驗證,然后挑選出驗證結果失敗的數據,然后 Plot 出來。若通過肉眼分辨,其工作量非常巨大和繁瑣,還是應當在數據收集的過程中保證數據 的有效性。
更多相關信息請見:AFCI 應用筆記二之數據采集 https://share.eepw.com.cn/share/download/id/391490
評論