ディープドリーム英語: DeepDream)は、 GoogleのエンジニアであるAlexander Mordvintsevによって作成されたコンピュータービジョンプログラムである。このソフトウェアは、畳み込みニューラルネットワークを使用し、アルゴリズムパレイドリアを介して画像の中にパターンを検出および強化し、意図的に過剰処理することで、夢のような幻覚的な画像を生成する[1][2][3]

元の画像
ディープドリームの適用、10回の繰り返し
ディープドリームの適用、50回の繰り返し

このGoogleのプログラムは、「深く夢見る(deep dreaming)」という用語を普及させ、訓練されたディープネットワークにより望みの活性化処理を施し、画像を生成することを指すようになった。この用語は、今や、関連した画像生成手法のプログラムを指すまでになっている。

歴史

編集

ディープドリームは、『インセプション』という映画と同名のコードネームがつけられた[1][2][3]深化畳み込みネットワークを端緒とし、2014年ImageNet Large-Scale Visual Recognition Challenge(ILSVRC)のために開発され、2015年7月にリリースされた。

Googleのディープドリームプログラムのおかげで、2015年に「夢を見る」というアイデアと名前が、インターネットで人気を博した。このアイデアはニューラルネットワークの歴史の初期からあり[4]、同様の方法が視覚的テクスチャの合成に使用されている[5]。関連する視覚化のアイデアは、Googleの研究の前に、いくつかの研究グループによって開発された[6][7]

Googleが技術を公開し、プログラムコードをオープンソース[8]した後、ユーザーが自分の写真を変換できるように、Webサービス、モバイルアプリケーション、デスクトップソフトウェアといった多くのツールが市場に登場した。

プロセス

編集

ディープドリームは、画像を自動的に分類する目的で、画像内に顔やその他のパターンを検出するように設計されている[9]。ただし、学習後、ネットワークを逆方向に実行して、元の画像をわずかに調整して、特定の出力ニューロン(たとえば、顔や特定の動物)の信頼性スコアが高くなるように仕向けることもできる。これは、ニューラルネットワークの出現構造をよく理解するための視覚化に使用でき、ディープドリームの基礎概念となっている。ただし、十分な反復を行った後には、最初は取り立てて特徴がない画像でさえ、 パレイドリアの形成が十分に調整されることで、サイケデリックでシュールな画像がアルゴリズムにより生成される。最適化はバックプロパゲーションに似ているが、ネットワークの重みを調整する代わりに、重みは固定して入力が調整される。

たとえば、既存の画像を変更して、「猫のように」見えるようにすることができる。また、結果として得られる強化された画像を再び処理の手続きに入力できる[2]。この方法は、雲の中に動物や他のパターンを探す活動に似ている。

入力画像の各ピクセルに個別に勾配降下を適用すると、隣接するピクセルに関係性がほとんどない画像が生成されるため、画像は過剰に高い周波数情報を示す。生成画像は、前処理または正則化処理により大幅に改善される。その処理とは、自然な画像統計(特定の画像を優先しない)または単純な平滑化を持つ入力を優先するものである[7][10][11]。例えば、マヘンドランらは、画像を区分的に定値化する全変化の正則化を使用した。いろいろな正則化技術が詳しく討議されている。特徴の視覚化と正則化技術の深層的かつ視覚的な研究が2017年に発表されている[12]

ディープドリームで処理された画像は、LSDおよびサイロシビンが誘発する幻覚に似ており、人工神経回路網と視覚野の特定部位との間の機能との類似性を暗示している[13]

使用法

編集
 
プールの3人の男性の写真に対し、ディープドリーム処理(後期段階)した例

「夢を見る」アイデアは、出力内のニューロン以外の隠された(内部)ニューロンに適用できる。これにより、ネットワークのさまざまな部分の役割と表現を調査できる[11]。また、単一のニューロン(この使用法はアクティビティ最大化と呼ばれることもある)[14]またはニューロンの層全体を満たすように入力を最適化することもできる。

夢はネットワークの視覚化やコンピューターアートの作成に最もよく使用されるが、訓練のメニューに「睡眠時の夢」の入力を追加すると、コンピューターサイエンスの抽象化の訓練時間が改善されることが最近報告されている[15]

ディープドリームモデルは、美術史の分野にも応用できることが実証されている[16]

ディープドリームは、Foster the Peopleの『Doing It for the Money英語版』のミュージックビデオに使用された[17]

最近、サセックス大学の研究グループが幻覚機械を作成し、ディープドリームアルゴリズムを事前に記録されたパノラマビデオに適用して、ユーザーが仮想現実環境を探索して精神活性物質や精神病理学的状態の体験を模倣できるようにした[18]。彼らは、幻覚機械によって誘発される主観的体験が、サイケデリック状態(サイロシビンの投与後)と現象学的に類似している一方で、比較対象のビデオ(非「ハルシノゲン」)とは著しく異なることを実証することができた。

出典

編集
  1. ^ a b Mordvintsev (2015年). “DeepDream - a code example for visualizing Neural Networks”. Google Research. 2015年7月8日時点のオリジナルよりアーカイブ。2020年2月29日閲覧。
  2. ^ a b c Mordvintsev (2015年). “Inceptionism: Going Deeper into Neural Networks”. Google Research. 2015年7月3日時点のオリジナルよりアーカイブ。2020年2月29日閲覧。
  3. ^ a b Szegedy, Christian; Liu, Wei; Jia, Yangqing; Sermanet, Pierre; Reed, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent et al. (2014). “Going Deeper with Convolutions”. Computing Research Repository. arXiv:1409.4842. Bibcode2014arXiv1409.4842S. 
  4. ^ Lewis, J.P. (1988). Creation by refinement: a creativity paradigm for gradient descent learning networks. IEEE International Conference on Neural Networks. doi:10.1109/ICNN.1988.23933
  5. ^ Portilla, J; Simoncelli, Eero (2000). “A parametric texture model based on joint statistics of complex wavelet coefficients”. International Journal of Computer Vision 40: 49–70. doi:10.1023/A:1026553619983. 
  6. ^ Erhan, Dumitru. (2009). Visualizing Higher-Layer Features of a Deep Network (PDF). International Conference on Machine Learning Workshop on Learning Feature Hierarchies.
  7. ^ a b Simonyan, Karen; Vedaldi, Andrea; Zisserman, Andrew (2014). Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps. International Conference on Learning Representations Workshop.
  8. ^ deepdream - GitHub
  9. ^ Rich McCormick (7 July 2015). “Fear and Loathing in Las Vegas is terrifying through the eyes of a computer”. The Verge. 2015年7月25日閲覧。
  10. ^ Mahendran, Aravindh; Vedaldi, Andrea (2015). Understanding Deep Image Representations by Inverting Them. IEEE Conference on Computer Vision and Pattern Recognition. doi:10.1109/CVPR.2015.7299155
  11. ^ a b Yosinski, Jason; Clune, Jeff; Nguyen, Anh; Fuchs, Thomas (2015). Understanding Neural Networks Through Deep Visualization. Deep Learning Workshop, International Conference on Machine Learning (ICML) Deep Learning Workshop.
  12. ^ Olah, Chris; Mordvintsev, Alexander; Schubert, Ludwig (2017-11-07). “Feature Visualization” (英語). Distill 2 (11). arXiv:1409.4842. doi:10.23915/distill.00007. ISSN 2476-0757. 
  13. ^ LaFrance (2015年9月3日). “When Robots Hallucinate”. The Atlantic. 24 September 2015閲覧。
  14. ^ Nguyen, Anh; Dosovitskiy, Alexey; Yosinski, Jason; Brox, Thomas (2016). Synthesizing the preferred inputs for neurons in neural networks via deep generator networks. arxiv. Bibcode:2016arXiv160509304N
  15. ^ Arora, Sanjeev; Liang, Yingyu; Tengyu, Ma (2016). Why are deep nets reversible: A simple theory, with implications for training. arxiv. Bibcode:2015arXiv151105653A
  16. ^ Spratt, Emily L. (2017). “Dream Formulations and Deep Neural Networks: Humanistic Themes in the Iconology of the Machine-Learned Image”. Kunsttexte (Humboldt-Universität zu Berlin) 4. arXiv:1802.01274. Bibcode2018arXiv180201274S. https://edoc.hu-berlin.de/bitstream/handle/18452/19403/Spratt%20-%20final.pdf. 
  17. ^ fosterthepeopleVEVO (2017-08-11), Foster The People - Doing It for the Money, https://www.youtube.com/watch?v=dJ1VorN9Cl0 2017年8月15日閲覧。 
  18. ^ Suzuki, Keisuke (22 November 2017). “A Deep-Dream Virtual Reality Platform for Studying Altered Perceptual Phenomenology”. Sci Rep 7 (1): 15982. Bibcode2017NatSR...715982S. doi:10.1038/s41598-017-16316-2. PMC 5700081. PMID 29167538. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5700081/. 

関連項目

編集

外部リンク

編集