生成查詢網絡(GQN)的論文翻譯——場景的神經表征與渲染 Neural scene representation and rendering

本文對Deepmind最新成果GQN論文的主要部分進行了翻譯

場景的神經表征與渲染 Neural scene representation and rendering

S. M. Ali Eslami, Danilo Jimenez Rezende, Frederic Besse, Fabio Viola,
Ari S. Morcos, Marta Garnelo, Avraham Ruderman, Andrei A. Rusu, Ivo Danihelka,
Karol Gregor, David P. Reichert, Lars Buesing, Theophane Weber, Oriol Vinyals,
Dan Rosenbaum, Neil Rabinowitz, Helen King, Chloe Hillier, Matt Botvinick,
Daan Wierstra, Koray Kavukcuoglu, Demis Hassabis

 

摘要

場景表征——將視覺感受數據轉換成簡要描述的過程——是智能行為的一個基礎。近來的研究表明,當提供足夠大的標簽數據時,神經網絡在此方面表現優越。然而如何避免對標簽的依賴依然是個開放性問題。鑒于此,我們開發了產生式查詢網絡(Generative Query Network, GQN),在該框架內機器可以只依賴自己的感受器來學習表征。GQN接受從不同視角拍攝的場景圖片作為輸入,構建內部表征并使用該表征來預測從未觀察過的視角的場景圖像。GQN做到了不依賴標簽或領域知識的表征學習,向機器自動學習理解世界又邁進了一步。

正文

現代人工視覺系統基于深度神經網絡,依賴大規模標簽數據來學會將圖像映射成人為生成的場景描述。很多其他智能任務也是這樣做的,比如,對圖像中的主要物體進行分類[1],場景類型分類[2],檢測物體約束框[3],像素級圖像語義標注[4][5]。恰恰相反,現實世界中,神經智能體鮮能獲得感受的顯式監督數據。高等哺乳動物,像人類嬰兒要學會形成表征以便進行運動控制、記憶、規劃、想象和快速的技能獲取,而不依賴任何社交。而生成式過程被猜測對此能力有所幫助[7-10]。我們渴望創造一個人造系統,可以是學會通過建模數據來表征場景[如二維圖像和智能體的空間位置],這些數據是正在處理場景本身的智能體所能直接獲得的,而不用依賴語義標簽(比如,對象類別、對象位置、場景類別或部分的標簽)。
為此,我們提出了生成查詢網絡GQN,在此框架下,智能體可以在3D場景scene i下游覽,它搜集K個2D視角\( v_i^k \)下搜集K張圖像\(x_i^k\),并將它們稱為一組觀察\(o_i=\{(x_i^k, v_i^k)\}_{k=1….K}\)。智能體將這些觀察輸入GQN,GQN由兩部分組成:一個表征網絡f,一個生成網絡g(圖1)。表征網絡接收觀察,產生一個對場景的表征r,它編碼了關于場景的潛在關鍵信息(為了清晰,我們可以暫且忽略下標i)。每個額外的觀察都是對同一表征的更多證據的積累。生成網絡則根據任意一個視角查詢\(v^q\)來預測場景在該視角的畫面,在需要時還會使用隨機隱變量z在輸出中添加變化元素。這兩個網絡是以端到端的形式聯合訓練的,目標是最大化從給定查詢視角生成觀察到的圖像的最大似然估計。更形式化地,(i) \( r=f_\theta(o_i) \),(ii) 深度生成網絡定義了使用了隱變量z的場景表征r在視角\(v^q\)觀察到的圖像x的概率密度分布\( g_\theta(x|v^q,r)=\int g_\theta(x, z|v^q,r)dz \),且(iii) 可學習的參數標記為\(\theta\)。雖然GQN的訓練十分困難,由于隱變量z的存在,我們可以借助變分推理,并借助SGD(隨機梯度下降)進行優化。

表征網絡并不知道生成網絡會接到怎樣的查詢視角請求。因此,它會產生包含全部必要信息(比如物體表示、位置、顏色、計數和空間布局)的表征,這樣才能對任意視角查詢都能產生最好的圖像預測。換句話說,GQN能夠自己學會從原始圖像中學會這些核心因素。進一步地,生成網絡也要內化很多跨場景不變的統計規律(比如,天空的經典顏色,物體的形狀規律、對稱性、模式和紋理)。這樣GQN才能對簡明抽象的場景描述保留其表征能力,而生成器負責將細節信息進行填充。比如,無需指定機器臂的具體形狀,表征網絡只需要關心關節的配置情況,生成網絡知曉如何對高級表征使用特定的形狀、顏色進行完全填充。相反,體素(voxel, 12-15)或點云(pixel-cloud, 16)方法使用了literal representation,導致在場景復雜度、尺寸變大時表現變差,也不能適應非剛體(動物、植物、服飾)。

多物體空間
為了驗證框架的可行性,我們在一個模擬3D環境中進行實驗。第一組實驗,我們考慮了一個方形房間放置多種物體。墻的紋理、形狀和位置,物體的顏色,光照都是隨機的。使得場景可以有無數種可能組合,當然,我們采用的是有限數據集進行的訓練和驗證[見文獻17的第4節有更多細節]。訓練后的GQN,給定一個從未見過的測試場景,只要輸入一幅或幾幅觀察圖像,就可以計算出它的場景表征。該表征即使只有256維,生成網絡對查詢視角的預測圖像也非常精確很難跟真圖區分出來(圖2A)。該模型在此類任務可以成功的唯一途徑是,在場景表征向量r中,重點關注和有效壓縮了每個場景中存在的物體數量、它們在空間中的位置、物體的顏色、墻的顏色以及間接觀察到的光源未知。和傳統的監督學習方法不同,GQN可以在沒有任何人類標注的情況下,對上述情況進行推理。進一步說,GQN生成網絡學成了一種類似3D渲染器(一種可以根據場景表征和攝像頭視角生成2D圖像的程序),而這一切都發生在沒有任何先驗的關于視角、重疊、光照知識的前提下(圖2B)。當通過觀察無法顯示指定場景內容的時候(比如嚴重的重疊遮擋),模型就能反映出生成網絡的隨機采樣的不確定性(圖2C)。這些特性我們都可以從生成器的實時交互查詢視頻中看到(視頻S1)。


值得注意的是,訓練時,每個場景模型只觀察很少的圖片(實驗中,不超過5個),它也能做到較好的預測。我們也監控了訓練場景和測試場景的預測觀察的似然值(圖S3)。總之,這些都說明模型排除了過度擬合的可能性。對訓練過的GQN進行分析,我們會發現很多場景表征網絡的亮點。GQN場景表征向量的二維T分布隨機近鄰嵌入(Two-dimensional t-distributed stochastic neighbor embedding, t-SNE[18])可視化過程表明,雖然不同視角有明顯的不同,但相同場景下圖片仍然有明顯聚集性(圖3A)。相反,諸如變分自編碼器( variational autoencoders, VAE[19])這樣的自編碼概率密度模型所生成的表征就無法捕獲潛在場景的內容(文獻17的第5節);它們似乎只是觀察圖片的表征。而且需要重構一幅目標圖像時,GQN會表現出組合行為,因為它能對訓練中沒有遇見過的場景元素進行表征和渲染,要知道學習這些所有的組合是不可能的。為了驗證GQN是否真的學會了核心要素的表征,我們可以研究,如果改變場景的某個屬性(比如物體的顏色)其他屬性(如尺寸、位置)不變,是否會引起場景表征的類似變化。我們發現物體的顏色、形狀、尺寸,光源位置,物體位置都確實被解構出來了(圖3C和文獻17的5.3、5.4節)。我們還發現GQN可以執行“場景代數”(模仿嵌入代數, embedding algebra這個造詞)。通過對相關場景的表征進行加減操作,我們發現物體和場景屬性是可以控制的,even across object positions [Fig. 4A and section 5.5 of (17)]。最后,由于GQN是一個概率模型,它也學會了以高效一致的方式從不同視角匯集信息,隨著視角數量的增加,每觀察到一個場景圖片,貝葉斯“驚喜”都會變少(圖4B和文獻17的第3節)。 我們也分析了GQN擴展到out-of-distribution場景的情況,以及建模Shepard-Metzler物體(見文獻17的5.6和4.2)。

 

 

機器臂的控制
一個表征如果可以簡明地反映環境的真實狀態,它也能幫助智能體學會在這樣的環境中魯棒地工作,而需要更少的交互。因此,我研究了移動機器臂去觸碰有色物體的經典任務,用來測試GQN的表征是否適用于運動控制。深度強化學習的最終目標是從像素中學會控制策略;然而傳統方法需要從稀疏的獎勵中學習大量的經驗。相反,我們先訓練GQN,用它來表征觀察,然后直接從這些表征中訓練策略來控制機器臂。基于這個設計,表征網絡必須學會只跟機器臂的關節角度、物體顏色和位置、墻的顏色等進行交流,以便產生去可以預測新的視角。由于該表征比輸入的原始圖像低太多的維度,我們觀察到了十分魯棒的有效的策略學習,在只進行了使用原始像素的標準方法四分之一的環境交互次數,就達到了收斂時的控制性能(圖5和文獻17的4.4)。GQN表征的3D本質讓我們可以從機械臂周圍的任意視角訓練策略,并且足夠穩定地在一個自由移動的攝像機下進行機械臂速度控制。

部分觀察視角的迷宮環境
最后,我們考慮了更加復雜、程序式的類迷宮環境,以測試GQN的擴展能力。迷宮由多個房間組成,通過走廊進行連接,每個場景中,每個迷宮的布局、墻體的顏色都是隨機的。在這個實驗設計中,任何單一的觀察都只能提供整個迷宮信息的一小部分。像之前一樣,GQN的訓練目標是可以從一個全新的視角預測迷宮圖像,只有GQN可以成功聚集不同視角的多個觀察進而確定迷宮的布局,預測才有可能實現。我們發現GQN能夠以新的第一人稱視角進行正確的預測(圖6A)。我們對GQN的表征進行了更為直接的查撇,即訓練一個獨立的生成器網絡來預測迷宮的自頂向下視角,發現它可以產生高度準確的預測(圖6B)。模型的不確定性,即它第一人稱視角樣本的熵,會隨著觀察的增多而降低(圖6B,文獻17的第3節)。大約5次觀察之后,GQN的不確定性基本就完全消失了。

相關工作

【翻譯略】

展望

【翻譯略】

參考文獻

1. A. Krizhevsky, I. Sutskever, G. E. Hinton, in Advances in Neural
Information Processing Systems 25 (NIPS 2012), F. Pereira,
C. J. C. Burges, L. Bottou, K. Q. Weinberger, Eds. (Curran
Associates, 2012), pp. 1097–1105.
2. B. Zhou, A. Lapedriza, J. Xiao, A. Torralba, A. Oliva, in Advances
in Neural Information Processing Systems 27 (NIPS 2014),
Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence,
K. Q. Weinberger, Eds. (Curran Associates, 2014), pp. 487–495.
3. S. Ren, K. He, R. Girshick, J. Sun, in Advances in Neural
Information Processing Systems 28 (NIPS 2015), C. Cortes,
N. D. Lawrence, D. D. Lee, M. Sugiyama, R. Garnett, Eds.
(Curran Associates, 2015), pp. 91–99.
4. R. Girshick, J. Donahue, T. Darrell, J. Malik, in Proceedings of
the 2014 IEEE Conference on Computer Vision and Pattern
Recognition (CVPR) (IEEE, 2014), pp. 580–587.
5. M. C. Mozer, R. S. Zemel, M. Behrmann, in Advances in Neural
Information Processing Systems 4 (NIPS 1991), J. E. Moody,
S. J. Hanson, R. P. Lippmann, Eds. (Morgan-Kaufmann, 1992),
pp. 436–443.
6. J. Konorski, Science 160, 652–653 (1968).
7. D. Marr, Vision: A Computational Investigation into the Human
Representation and Processing of Visual Information
(Henry Holt and Co., 1982).
8. D. Hassabis, E. A. Maguire, Trends Cogn. Sci. 11, 299–306
(2007).
9. D. Kumaran, D. Hassabis, J. L. McClelland, Trends Cogn. Sci.
20, 512–534 (2016).
10. B. M. Lake, R. Salakhutdinov, J. B. Tenenbaum, Science 350,
1332–1338 (2015).
11. S. Becker, G. E. Hinton, Nature 355, 161–163 (1992).
12. Z. Wu et al., in Proceedings of the 2015 IEEE Conference on
Computer Vision and Pattern Recognition (CVPR) (IEEE, 2015),
pp. 1912–1920.
13. J. Wu, C. Zhang, T. Xue, W. Freeman, J. Tenenbaum, in Advances
in Neural Information Processing Systems 29 (NIPS 2016),
D. D. Lee, M. Sugiyama, U. V. Luxburg, I. Guyon, R. Garnett,
Eds. (Curran Associates, 2016), pp. 82–90.
14. D. J. Rezende et al., in Advances in Neural Information
Processing Systems 29 (NIPS 2016), D. D. Lee, M. Sugiyama,
U. V. Luxburg, I. Guyon, R. Garnett, Eds. (Curran Associates,
2016), pp. 4996–5004.
15. X. Yan, J. Yang, E. Yumer, Y. Guo, H. Lee, in Advances in Neural
Information Processing Systems 29 (NIPS 2016), D. D. Lee,
M. Sugiyama, U. V. Luxburg, I. Guyon, R. Garnett, Eds. (Curran
Associates, 2016), pp. 1696–1704.
16. M. Pollefeys et al., Int. J. Comput. Vision 59, 207–232 (2004).
17. See supplementary materials.
18. L. van der Maaten, J. Mach. Learn. Res. 9, 2579–2605 (2008).
19. I. Higgins et al., at International Conference on Learning
Representations (ICLR) (2017).
20. T. Mikolov et al., in Advances in Neural Information Processing
Systems 26 (NIPS 2013), C. J. C. Burges, L. Bottou, M. Welling,
Z. Ghahramani, K. Q. Weinberger, Eds. (Curran Associates, 2013),
pp. 3111–3119.
21. Y. Zhang, W. Xu, Y. Tong, K. Zhou, ACM Trans. Graph. 34, 159
(2015).
22. D. P. Kingma, M. Welling, arXiv:1312.6114 [stat.ML]
(20 December 2013).
23. D. J. Rezende, S. Mohamed, D. Wierstra, in Proceedings of the
31st International Conference on Machine Learning (ICML 2014)
(JMLR, 2014), vol. 32, pp. 1278–1286.
24. I. Goodfellow et al., in Advances in Neural Information Processing
Systems 27 (NIPS 2014), Z. Ghahramani, M. Welling, C. Cortes,
N. D. Lawrence, K. Q. Weinberger, Eds. (Curran Associates, 2014),
pp. 2672–2680.
25. K. Gregor, F. Besse, D. J. Rezende, I. Danihelka, D. Wierstra,
in Advances in Neural Information Processing Systems 29 (NIPS
2016), D. D. Lee, M. Sugiyama, U. V. Luxburg, I. Guyon,
R. Garnett, Eds. (Curran Associates, 2016), pp. 3549–3557
26. P. Vincent, H. Larochelle, Y. Bengio, P.-A. Manzagol, in
Proceedings of the 25th International Conference on Machine
Learning (ICML 2008) (ACM, 2008), pp. 1096–1103.
27. P. Dayan, G. E. Hinton, R. M. Neal, R. S. Zemel, Neural Comput.
7, 889–904 (1995).
28. G. E. Hinton, A. Krizhevsky, S. D. Wang, in Proceedings of the
21st International Conference on Artificial Neural Networks
and Machine Learning (ICANN 2011), T. Honkela, W. Duch,
M. Girolami, S. Kaski, Eds. (Lecture Notes in Computer Science
Series, Springer, 2011), vol. 6791, pp. 44–51.
29. C. B. Choy, D. Xu, J. Gwak, K. Chen, S. Savarese, in
Proceedings of the 2016 European Conference on Computer
Vision (ECCV) (Lecture Notes in Computer Science Series,
Springer, 2016), vol. 1, pp. 628–644.
30. M. Tatarchenko, A. Dosovitskiy, T. Brox, in Proceedings of the
2016 European Conference on Computer Vision (ECCV)
(Lecture Notes in Computer Science Series, Springer, 2016),
vol. 9911, pp. 322–337.
31. F. Anselmi et al., Theor. Comput. Sci. 633, 112–121 (2016).
32. D. F. Fouhey, A. Gupta, A. Zisserman, in Proceedings of the 2016
IEEE Conference on Computer Vision and Pattern Recognition
(CVPR) (IEEE, 2016), pp. 1516–1524.
33. A. Dosovitskiy, J. T. Springenberg, M. Tatarchenko, T. Brox,
IEEE Trans. Pattern Anal. Mach. Intell. 39, 692–705 (2017).
34. C. Godard, O. Mac Aodha, G. J. Brostow, in Proceedings of
the 2017 IEEE Conference on Computer Vision and Pattern
Recognition (CVPR) (IEEE, 2017), pp. 6602–6611.
35. T. Zhou, S. Tulsiani, W. Sun, J. Malik, A. A. Efros, in
Proceedings of the 2016 European Conference on Computer
Vision (ECCV) (Lecture Notes in Computer Science Series,
Springer, 2016), pp. 286–301.
36. J. Flynn, I. Neulander, J. Philbin, N. Snavely, in Proceedings of
the 2016 IEEE Conference on Computer Vision and Pattern
Recognition (CVPR) (IEEE, 2016), pp. 5515–5524.
37. T. Karras, T. Aila, S. Laine, J. Lehtinen, arXiv:1710.10196 [cs.NE]
(27 October 2017).
38. A. van den Oord et al., in Advances in Neural Information
Processing Systems 29 (NIPS 2016), D. D. Lee, M. Sugiyama,
U. V. Luxburg, I. Guyon, R. Garnett, Eds. (Curran Associates,
2016), pp. 4790–4798.
39. D. Jayaraman, K. Grauman, in Proceedings of the 2015 IEEE
International Conference on Computer Vision (ICCV) (IEEE,
2015), pp. 1413–1421.
40. P. Agrawal, J. Carreira, J. Malik, arXiv:1505.01596 [cs.CV]
(7 May 2015).
41. A. R. Zamir et al., in Proceedings of the 2016 European
Conference on Computer Vision (ECCV) (Lecture Notes in
Computer Science Series, Springer, 2016), pp. 535–553.
42. T. D. Kulkarni, P. Kohli, J. B. Tenenbaum, V. Mansinghka,
in Proceedings of the 2015 IEEE Conference on Computer
Vision and Pattern Recognition (CVPR) (IEEE, 2015),
pp. 4390–4399.
43. Q. Chen, V. Koltun, in Proceedings of the 2017 IEEE
International Conference on Computer Vision (ICCV) (IEEE,
2017), pp. 1511–1520.
44. A. A. Rusu et al., arXiv:1610.04286 [cs.RO] (13 October 2016).

打麻将有什么技巧 闲来贵州麻将 正规理财平台哪家好 中国股票指数达到1680 阿里巴巴股票行情 月均值 股票融资如何操作展期 36选7结果 万科股票 金种子理财是不是骗局 忆融速配 下载贵阳麻将 南京麻将必胜口诀 重庆快乐十分开奖号 宁夏11选5走势图一定牛 15选5开奖结果 股票配资送10000体验金 股票涨跌对上市公司有什么影响