2014年11月20日木曜日

Google開発、画像を読み取り説明文を自動生成する技術

株式会社Pro-SPIRE エンジニアリングサービス事業部の志田山です。

本日は、Googleが開発した、画像の説明文を自動生成してくれる技術についてご紹介いたします。

Research Blog: A picture is worth a thousand (coherent) words: building a natural description of images
http://googleresearch.blogspot.jp/2014/11/a-picture-is-worth-thousand-coherent.html
※上記のリンクは外部サイトが別ウィンドウで開きます。

近年では、物体の検出・分類・ラベル付けなどの技術が大幅に向上しています。
しかし、より正確な状況説明をするためには、さまざまなオブジェクトの相互関係をとらえて、それを自然な言葉で表す必要があります。

それを実現するために必要になるのが、人間の脳の機能を計算機上でシミュレートしようというニューラルネットワークの派生であるRecurrent neural network(RNN)です。
このRNNを使用して画像から文章や語句を生成し、写真にキャプションをつけます。

出典:http://googleresearch.blogspot.jp/2014/11/a-picture-is-worth-thousand-coherent.html
※上記のリンクは外部サイトが別ウィンドウで開きます。
このシステムによって上の画像のキャプションを自動生成すると
“Two pizzas sitting on top of a stove top oven” ― オーブンコンロの上にある2枚のピザ
となります。


具体的な流れは以下のようになっています。

  1. 「深層畳み込みニューラルネットワーク(CNN)」を用いた画像認識アルゴリズムで、写真に映っている状況を解析
  2. 大量生成された画像に関する情報が言語生成のためのRNNに供給される
  3. RNNを用いて、文章や語句を生成

通常のCNNを使用した画像認識アルゴリズムは、最終層で画像の中の物体が何であるかをおおよその見込みで決定する作業が行われます。
しかし、Googleが開発した今回のシステムではこの最終層は削除して、代わりに言語生成のためのRNNを追加しました。
そうすることで既知の画像認識アルゴリズムが生成したデータを、言語生成のためのRNNにうまく活用できるようになるそうです。

Googleが画像の説明文章を自動生成する技術を開発 - GIGAZINE
http://gigazine.net/news/20141119-google-automatically-caption/
※上記のリンクは外部サイトが別ウィンドウで開きます。

今はまだ精度は確実とはいえないようですが、大量の画像データを学習させることで精度を向上させることができるようです。
このシステムによって、Googleの画像検索もより高精度なものになるだろうと思いました。

以上、本日の小話でした。

0 件のコメント:

コメントを投稿