每日最新頭條.有趣資訊

一文讀懂:圖卷積在基於骨架的動作識別中的應用

機器之心發布

作者:張秉異

基於骨架的動作識別(skeleton-based action recognition)一直是計算機視覺領域中的一個研究熱點,在計算機視覺的各大頂會 AAAI、CVPR、NeurIPS 等會議中都能見到它的身影。本文將介紹圖卷積在基於骨架的動作識別中的應用。

在進入正題之前,先介紹一下一些背景知識。

什麽是基於骨架的動作識別

人的骨架是什麽?相信沒有誰比我們自己更了解我們身體的構造了。通俗地說,人骨架框架包括六個部分——頭部、左手、右手、軀乾、左腳和右腳。

在維基百科中有對人骨架更加精確的定義:人體骨架是人身體的內在框架。人剛出生時,體內約有 270 塊骨頭,成年之後體內骨頭的數量減少為 206 塊。

一副骨架可以抽象為兩種元素組成——關節點(joint)和骨骼(bone)。關節點的作用是連接兩根相鄰的骨骼。因此,我們可以把骨架簡化為一個由點和邊所構成的圖(graph)。點對應骨架中的關節點,邊對應骨架中的骨骼。

把一副骨架放在三維歐幾裡得空間中,點的屬性就是其對應的三維空間中的坐標(x,y,z),邊就是三維空間中的一條線段。在動作識別中,還需要加入另一個維度——時間。人在一段時間內連續有語義的姿勢(pose)變化被定義為動作。例如,招手、坐下、自拍等。在實際應用中,骨架的坐標點是通過傳感器連續采樣所得到的,在時間維度上是離散的。在計算機視覺領域內,基於骨架的動作識別的定義為:對一副骨架序列進行模式判別,識別這副骨架語義上所代表的執行者所表達的動作。

通常,獲取骨架點的方式有兩種:

1. 一種方式是通過深度傳感器,例如最有名的微軟公司研發的 Kinect 傳感器套件,配合 Kinect 開發的 SDK,能夠每秒鐘獲取 30 幀骨架,同時支持采集 6 副骨架,每一副骨架采集 25 個關節點的 3D 坐標。2019 年,微軟推出了新一代的 Microsoft Kinect Azure(microsoftstore.com.cn/v),首次官方支持了 Ubuntu 系統,這對開發者來說是一個好消息。此前的 kinect SDK 在 ubuntu 系統上運行需要使用開源的 libfreenect2。

鏈接:https://github.com/OpenKinect/libfreenect2

2. 第二種方式是通過圖像配合骨架提取算法來從視頻中獲取骨架序列,但是提取到的骨架坐標是在圖像中的 2 維坐標。

從圖像中提取骨架比較有名的開源庫有

Deep pose:https://github.com/mitmul/deeppose

open pose:https://github.com/CMU-Perceptual-Computing-Lab/openpose

骨架序列的數據集

日常動作(daily activity)

醫療相關的動作

雙人的互動行為

最近,NTU RGB+D 數據集的發布者 Rose 實驗室又推出了 NTU RGB+D 數據集的增強版——NTU RGB+D 120。新的數據集中包含了 120 類動作,114480 個骨架序列的樣本。而且最值得注意的是,為了增加數據的多樣性,采集時攝影機的視角增加到了 155 個。想深入了解新數據集的作者可以參考文獻 TPAMI 的最新文獻《NTU RGB+D 120: A Large-Scale Benchmark for 3D Human Activity Understanding》。文中作者詳細地介紹了新的數據集的各項特性。

地址:https://arxiv.org/abs/1905.04757

基於骨架的動作識別中的應用

問題的數學建模

spatial-temporal graph 中有兩個維度,一個是時間(temporal)維度,一個是空間(spatial)維度。空間維度為一幀內的骨架圖,時間維度的構造是將相鄰幀中的圖同一位置的結點連接起來,從而根據骨架序列構造出了一個 spatial-temporal graph。

這種圖的構造方式還在交通網絡中用的比較多,來預測交通流量。構造出了骨架序列的 spatial-temporal graph(STG),很多論文中採用 graph Spatial-Temporal Networks 對骨架 STG 進行分類。下面來介紹幾篇具有代表性的文章:

ST-GCN

《Spatial temporal graph convolutional networks for skeleton-based action recognition》這篇文章是發表在 AAAI 2018 會議上的一篇論文。文章中,作者首次運用 Spatial temporal graph convolutional networks 在基於骨架的動作識別的問題上。

在文章中,作者提出一種卷積的思路,首先確定一個卷積中心(也就是一個關節點):

1. 在 spatial 維度上,取與之相鄰的點,作為需要參與卷積的點;

2. 在 temporal 維度上,取前後幀在相同位置的點,作為需要參與卷積的點。

確定了卷積中心和需要參與卷積的點,進行卷積,聚合時間維度和空間維度上的信息。作者在文章中給出了多種卷積的策略,有興趣的讀者可以參考原論文了解其數學模型。文章中的 ST-GCN 每一層的 ST-GCN 的特徵圖結構都一致,中間沒有加入池化層,在最後一層卷積層之後採用了全局平均池化的策略,將每一個 channel 收縮為一個點,之後採用全連接層進行分類。

作者在 github 上開源了文章的源代碼:https://github.com/yysijie/st-gcn

DPRL+GCNN

這是 CVPR 2018 中的一篇論文,作者提出了一種取關鍵幀的方法,類似於視頻壓縮中的取關鍵幀。因為在骨架序列中前後幀的信息可能會比較冗余,所以只需要選取序列中比較有代表性的關鍵幀,就可以進行動作的分類識別。所以在 GCNN 之前,作者加入了一個 FDNe t 用來提取關鍵幀。作者實驗證明,運用了取關鍵幀的方法,能夠增加識別的準確率。

GEGCN

在文章中,作者提出除了給圖中的點做卷積之外,還可以給圖中的邊做卷積,這就是所說的 Graph edge convolution, 卷積方式如下圖所示:

取一條邊與之相鄰的邊作為參與卷積的邊,邊的屬性為其在三維空間中的向量表示。據此,作者設計了一個雙流的圖卷積神經網絡,一個是點的圖卷積網絡,另一個是邊的圖卷積神經網絡:

作者通過實驗證明,加入了 Graph edge convolution 能夠有效增加識別的準確率。

SGR-GCN

在文章中,作者提出了一個 graph regression based GCN(GR-GCN) 網絡。GR-GCN 的作用是用來學習骨架圖中關節點聯繫的強弱程度, 如下圖所示:

其中 Sparsified Spatio-Temporal Graph 為通過 graph regression 的過程所學習到的圖中結點的聯繫,其中黑色的邊代表具有生理意義上的強聯繫,紅色的邊代表非生理連接但是對於動作判斷很重要的語言聯繫,綠色的邊代表比較弱的聯繫。得到了 Sparsified Spatio-Temporal Graph 再進一步通過 GCN 對東西進行分類。作者在實驗中證明了通過 graph regression 的過程能夠很好地提高識別的準確率。

2s-NLGCN

最開始, 文章的標題叫做《Adaptive Spectral Graph Convolutional Networks for Skeleton-Based Action Recognition》,後來不知道什麽原因,作者將文章的名字改為了《Non-Local Graph Convolutional Networks for Skeleton-Based Action Recognition》。筆者覺得可能用《Adaptive Spectral Graph Convolutional Networks for Skeleton-Based Action Recognition》這個標題會更好,因為文章中採用的是 spectral-based graph convolution networks,並且也使用了雙流的網絡結構,一個網絡處理點(joint)的信息,另一個網絡處理邊 (bone) 的信息:

總結

總結前人的論文,我們會發現,在論文中作者往往都會思考一個問題——如何從骨架的序列圖中提取信息?從維度上考慮,有時間維度和空間維度;從特徵上考慮,有一次信息關節點的 3D 坐標(傳感器+SDK 直接獲取),有二次信息關節邊的向量表示;從連接上考慮,可以學習關節點之間語義上連接的強弱(將連接設置為 learnable parameter),或者是提取骨架序列中的關鍵幀。筆者覺得可以從更多的角度來思考這個問題,或許能夠發現新的想法,進行創新。

例如:

1. 利用新的特徵

2. GCN 中間加入 pooling 層

之前,圖卷積已經將 NTU RGB+D 準確率刷得很高了,基本上算是屠榜了,準確率一點小的提升都很困難了。而新的 NTU RGB+D 120 數據集發布在即,預計一個新的分數榜將要出現,相信會有更多好的 idea 出現,將這一領域繼續推進下去。如果讀者有興趣研究該領域,可以更多地關注南洋理工大學的 Rose Lab,他們是該領域數據集的發布者和算法研究的領頭者。

參考文獻:

1. en.wikipedia.org/wiki/H

2. Shahroudy A, Liu J, Ng T T, et al. NTU RGB+ D: A large scale dataset for 3D human activity analysis Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 1010-1019.

3. Liu J, Shahroudy A, Perez M, et al. NTU RGB+ D 120: A Large-Scale Benchmark for 3D Human Activity Understanding. arXiv preprint arXiv:1905.04757, 2019.

4. A Comprehensive Survey on Graph Neural NetworksYan

5. S, Xiong Y, Lin D. Spatial temporal graph convolutional networks for skeleton-based action recognition Thirty-Second AAAI Conference on Artificial Intelligence. 2018.

6. Tang Y, Tian Y, Lu J, et al. Deep progressive reinforcement learning for skeleton-based action recognition Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 5323-5332.

7. Zhang X, Xu C, Tian X, et al. Graph edge convolutional neural networks for skeleton based action recognition. arXiv preprint arXiv:1805.06184, 2018.

8. Gao X, Hu W, Tang J, et al. Optimized Skeleton-based Action Recognition via Sparsified Graph Regression. arXiv preprint arXiv:1811.12013, 2018.

9. Shi L, Zhang Y, Cheng J, et al. Non-Local Graph Convolutional Networks for Skeleton-Based Action Recognition. arXiv preprint arXiv:1805.07694, 2018.

機器之心「SOTA模型」22大領域、127個任務,機器學習 SOTA 研究一網打盡。

獲得更多的PTT最新消息
按讚加入粉絲團