五個(gè)手勢(shì)的點(diǎn)云數(shù)據(jù)經(jīng)過預(yù)處理并被分離。圖13展示了逆時(shí)針手勢(shì)的預(yù)處理結(jié)果,從左到右的處理步驟包括:疊加、最大速度限制、第一次DBSCAN、對(duì)齊、K均值分離手部和身體、第二次DBSCAN。提取了點(diǎn)云的時(shí)間序列特征數(shù)據(jù)用于訓(xùn)練。為了加快訓(xùn)練和數(shù)據(jù)處理速度,我們對(duì)數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化處理。具體來說,我們將MinMaxScaler應(yīng)用于時(shí)間序列特征數(shù)據(jù)的(x, y, z)坐標(biāo),將數(shù)據(jù)縮放至0-1范圍。此外,將MaxAbsScaler應(yīng)用于時(shí)間序列特征數(shù)據(jù)的平均速度,將數(shù)據(jù)縮放至-1至1的范圍。為了觀察,我們從輸出中抽取了6幀來觀察點(diǎn)云質(zhì)心的變化。順時(shí)針手勢(shì)點(diǎn)云質(zhì)心的變化如圖14所示。紅點(diǎn)代表當(dāng)前的質(zhì)心位置,藍(lán)點(diǎn)代表之前的質(zhì)心位置。順時(shí)針手勢(shì)的質(zhì)心沿順時(shí)針方向移動(dòng),逆時(shí)針手勢(shì)的質(zhì)心沿逆時(shí)針方向移動(dòng)。類似地,向右手勢(shì)的質(zhì)心水平向右移動(dòng),向左手勢(shì)的質(zhì)心水平向左移動(dòng)。最后,拳擊手勢(shì)的質(zhì)心垂直向上和向下移動(dòng)。
對(duì)于五個(gè)手勢(shì),總共有14,480條樣本數(shù)據(jù)。這些數(shù)據(jù)被隨機(jī)重新排序,并分成三組:60%用于訓(xùn)練,20%用于驗(yàn)證,20%用于測(cè)試。模型使用GRU、LSTM和RNN進(jìn)行了40次迭代的訓(xùn)練。圖15展示了這三個(gè)模型的混淆矩陣。GRU、LSTM和RNN模型的預(yù)測(cè)準(zhǔn)確率分別為99.51%、99.37%和81.11%。GRU模型的表現(xiàn)優(yōu)于其他模型。就模型預(yù)測(cè)時(shí)間而言,GRU耗時(shí)0.462毫秒,LSTM耗時(shí)0.483毫秒,RNN耗時(shí)0.461毫秒。RNN模型在預(yù)測(cè)速度上最快。盡管RNN模型在預(yù)測(cè)速度上較快,但在準(zhǔn)確率上不如GRU和LSTM模型。相比之下,GRU模型不僅更準(zhǔn)確,而且在時(shí)間消耗上也較少。總的來說,GRU在訓(xùn)練毫米波手勢(shì)識(shí)別模型方面表現(xiàn)更好
表III顯示了三種模型在實(shí)際手勢(shì)識(shí)別測(cè)試中的準(zhǔn)確率。在測(cè)試每種模型時(shí),我們對(duì)每個(gè)手勢(shì)揮動(dòng)了10次,并記錄了手勢(shì)是否被正確識(shí)別。可以看出,GRU模型優(yōu)于LSTM和RNN模型。
表III. 三種模型在實(shí)際手勢(shì)識(shí)別測(cè)試中的準(zhǔn)確率
模型 | 順時(shí)針手勢(shì) | 逆時(shí)針手勢(shì) | 向右手勢(shì) | 向左手勢(shì) | 拳擊手勢(shì) | 平均準(zhǔn)確率 |
GRU | 10月10日 | 10月10日 | 10月10日 | 10月10日 | 10月10日 | 10月10日 |
LSTM | 9月10日 | 9月10日 | 9月10日 | 9月10日 | 9月10日 | 9月10日 |
RNN | 7月10日 | 7月10日 | 7月10日 | 7月10日 | 7月10日 | 7月10日 |
C. 結(jié)合熱成像儀的毫米波雷達(dá)手勢(shì)識(shí)別
除了毫米波點(diǎn)云數(shù)據(jù)外,我們還提取了熱成像儀坐標(biāo)隨時(shí)間變化的歸一化時(shí)間序列特征數(shù)據(jù)用于手勢(shì)識(shí)別。在實(shí)際手勢(shì)測(cè)試中,熱成像儀使用識(shí)別手部圖像并記錄手部圖像坐標(biāo)的隨時(shí)間變化。五個(gè)手勢(shì)的坐標(biāo)變化結(jié)果如圖16所示
在手勢(shì)識(shí)別過程中,毫米波雷達(dá)捕獲了20幀的點(diǎn)云數(shù)據(jù)。然而,用于YOLOv7手部識(shí)別的熱成像儀執(zhí)行速度較慢。在熱成像儀執(zhí)行12幀手部圖像識(shí)別所需的時(shí)間內(nèi),毫米波雷達(dá)可以捕獲20幀數(shù)據(jù)。如果熱成像儀在某一幀未能檢測(cè)到手部圖像,則最終捕獲的時(shí)間序列數(shù)據(jù)少于12幀。為了確保熱成像儀的坐標(biāo)隨時(shí)間變化信息包含在毫米波時(shí)間序列特征數(shù)據(jù)中用于手勢(shì)模型訓(xùn)練,我們對(duì)熱成像儀的坐標(biāo)隨時(shí)間變化曲線進(jìn)行了插值處理。這使得數(shù)據(jù)增加到了20幀而不改變波形。數(shù)據(jù)隨后進(jìn)行了MinMaxScaler歸一化處理。這一過程重復(fù)了9次,數(shù)據(jù)被拼接成200幀的時(shí)間序列數(shù)據(jù)。結(jié)合熱成像儀和毫米波雷達(dá)的手勢(shì)識(shí)別模型相較于僅使用毫米波雷達(dá)的模型有所改進(jìn)。在這個(gè)模型中,毫米波的平均速度、熱成像儀坐標(biāo)的時(shí)間序列變化以及毫米波時(shí)間序列特征數(shù)據(jù)作為輸入用于訓(xùn)練。同樣地,模型使用GRU、LSTM和RNN進(jìn)行了40次迭代的訓(xùn)練。五個(gè)手勢(shì)共有14,480條樣本數(shù)據(jù)。這些數(shù)據(jù)被隨機(jī)重排,并分成三組:60%用于訓(xùn)練,20%用于驗(yàn)證,20%用于測(cè)試。圖17展示了三個(gè)模型的混淆矩陣。GRU、LSTM和RNN模型的預(yù)測(cè)準(zhǔn)確率分別為100%、100%和98.14%。
表IV顯示了實(shí)際手勢(shì)識(shí)別測(cè)試的結(jié)果,比較了僅使用毫米波雷達(dá)與結(jié)合毫米波雷達(dá)和熱成像儀的準(zhǔn)確性。結(jié)合使用毫米波雷達(dá)和熱成像儀顯著提高了準(zhǔn)確性。
這句話意味著表IV提供了實(shí)際手勢(shì)識(shí)別測(cè)試中不同配置下的模型準(zhǔn)確率對(duì)比。具體來說,表IV展示了僅使用毫米波雷達(dá)和結(jié)合毫米波雷達(dá)與熱成像儀兩種情況下的準(zhǔn)確率。
表格內(nèi)容示例:
模型配置 | punch | 順時(shí)針 | 逆時(shí)針 | 左 | 右 | 平均準(zhǔn)確率 |
GRU (毫米波) | 70% | 80% | 80% | 70% | 70% | 74% |
GRU (+ 熱成像) | 90% | 80% | 80% | 80% | 70% | 80% |
LSTM (毫米波) | 80% | 90% | 90% | 80% | 80% | 84% |
LSTM (+ 熱成像) | 50% | 60% | 50% | 40% | 50% | 50% |
RNN (毫米波) | 70% | 80% | 70% | 70% | 60% | 70% |
RNN (+ 熱成像) | 70% | 80% | 60% | 60% | 50% | 64% |
IV. 結(jié)論
本研究中,采用了一種結(jié)合毫米波雷達(dá)、熱成像儀和深度學(xué)習(xí)的大動(dòng)作手勢(shì)識(shí)別系統(tǒng)。熱成像儀捕捉了手部圖像的信息,包括坐標(biāo)運(yùn)動(dòng)變化。這些信息與毫米波雷達(dá)的點(diǎn)云數(shù)據(jù)(包括三維坐標(biāo)和速度)結(jié)合,生成了時(shí)間序列數(shù)據(jù)。預(yù)處理后的數(shù)據(jù)被輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,開發(fā)出手勢(shì)識(shí)別模型。Jetson Xavier NX嵌入式評(píng)估板實(shí)現(xiàn)了實(shí)時(shí)手勢(shì)識(shí)別。實(shí)驗(yàn)結(jié)果表明,結(jié)合熱成像儀和毫米波雷達(dá)顯著提高了手勢(shì)識(shí)別的準(zhǔn)確性。此外,使用GRU訓(xùn)練的模型在手勢(shì)識(shí)別任務(wù)中的表現(xiàn)優(yōu)于LSTM和RNN。