テレビ番組のテロップって、とても分かりやすく作られていると思いませんか。もしかしたら番組に付く字幕も、テロップのように、いろいろなフォントで装飾されて表示されたりすると、とても分かりやすくなるかもしれません…。
映像に字幕を付ける際に、人が話す内容や感情に合うようなフォントを自動で選び、より分かりやすく表現する技術が開発されました。名付けて「感情表現字幕システム」。大日本印刷(DNP)がこのほどNHKの技術系子会社・NHKテクノロジーズと共同で、システムの試作品をつくったと発表しました。音がなくても、より臨場感を伝えられることができるようになるといい、耳が不自由な人たちなど多くの人に分かりやすく情報を伝える「ユニバーサルメディア」のニーズにこたえると注目を集めています。
このシステムは、人工知能(AI)がリアルタイムで字幕を付けるのにあわせ、字幕の内容や話す人の表情を解析して「感情」を把握。それを受けて感情の表現に最適なフォントを12種類の中から自動で選んで字幕に使うといいます。例えば、楽しい内容は丸みのあるフォントで、怒っている内容は角ばったフォントで表示するそう。映像の中で発話者を特定して、自動的にその口元の近くに字幕を表示することもできるといい、字幕を見る人がより直感的に内容を把握できるようになるといいます。
NHKテクノロジーズによると、これまでの字幕放送には、聴覚に障害のある人から「フォントに抑揚がない」「タイミングがずれることがある」「発話者が分かりにくい」といった課題が寄せられていたといいます。一方で、テロップにユニークなフォントが使われると「印象が深くなる」という意見があったといいます。
また、多様な視聴者がコンテンツを楽しめるようにするため、より多くの番組に字幕付与が求められている一方で、制作側には作業負担が大きく、自動的に精度の高い字幕を付けることが求められていました。
DNPの広報担当者に聞きました。
――いつから開発を始められたのですか。
「2018年12月から共同開発を始めました。DNPは2018年7月に文章の内容に合うフォントを自動で判別して表示する『感情表現フォントシステム』を発表しており、そのシステムにNHKテクノロジーズが注目したことがきっかけです」
――『感情表現フォントシステム』のデモ動画では、SNSのメッセージに、感情を反映したフォントがあてられていく様子がよく分かりますね。ただ、今回のシステムとはフォントの変わり方が違うような…。
「2018年の『感情表現フォントシステム』の動画では、1つの文書まるごとフォントを変換しているのに対し、今回の『字幕』では、キーワードのみフォントが変わっています。全文を変えるよりも、このような表示のほうが分かりやすいと判断しました」
――今回の試作品に対して、障害のある人達から具体的な感想などは寄せられてますか。
「開発にいかすために、プロトタイプの本システムでドラマコンテンツを実際に作成し、有用性の評価などを行なっています。すでに聴覚障害者4名の方にご覧いただき、『分かりやすい』という評価をいただいています」
――実用化に向けてどのあたりをブラッシュアップされる予定ですか。
「2021年度までに映像編集用ソフトウェアへの実装や、トライアルの番組で放映できるように目指しています。字幕を出すための音声認識に関しては、不明瞭な音声や同音異義語などの誤認識がまだあるため、語彙の学習による改良を計画しています。また感情認識は、字幕の内容や表情に複数の感情要素が存在する場合、精度向上も必要かと思っています」
◇ ◇
DNPはこの技術を、字幕放送以外にも、デジタルサイネージなどの動画の字幕に応用するほか、誰でも利用できる映像編集用ソフトウェアとして提供していくことも計画しているそうです。