読みやすい字幕を生成するシステムの開発

講演等の場で,高齢者や聴覚障害者の方のために字幕を提示する試みは多くなされています. 例えば,PowerPoint などのプレゼンテーションソフトウェアでも,音声認識の結果を字幕として提示する機能が備わっています.

しかし,自動生成された字幕は,字幕として冗長な部分が含まれる,読点や改行が挿入されていない,一般的な字幕提示のガイドラインに従っていない等の理由から,必ずしも読みやすいものとは言えません

本研究では,上記の問題点を自動的に解決し,読みやすい字幕を提示することを目的としたシステムの開発を行います.

これまでに主に講演テキストの改行,読点挿入手法の開発(Fang et al., 2023; 大野 誠寛 et al., 2013; Murata et al., 2010; 村田 匡輝 et al., 2009)を実施してきました.

また,「音声認識ちゃん」をベースに,ブラウザで読点・改行が挿入された字幕を提示するシステム,視線を検出しその視線座標上に字幕テキストを表示するシステムも開発中です.

demo

References

2023

  1. 査読有り
    Automatic Insertion of Commas and Linefeeds into Lecture Transcripts Based on Multi-task Learning
    Zhicheng Fang, Masaki Murata, Shigeki Matsubara
    In Proceedings of the 35th Pacific Asia Conference on Language, Information and Computation (PACLIC 2023) , Hung Hom, Hong Kong (hybrid), pp. 872–880, Dec 2023

2013

  1. 査読有り
    講演のリアルタイム字幕生成のための逐次的な改行挿入
    大野 誠寛, 村田 匡輝, 松原 茂樹
    電気学会論文誌, Vol. 133-C, No. 2, pp. 418–426, Feb 2013

2010

  1. 査読有り
    Automatic Comma Insertion for Japanese Text Generation
    Masaki Murata, Tomohiro Ohno, Shigeki Matsubara
    In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing (EMNLP 2010) , pp. 892–901, Oct 2010

2009

  1. 査読有り
    読みやすい字幕生成のための講演テキストへの改行挿入
    村田 匡輝, 大野 誠寛, 松原 茂樹
    電子情報通信学会論文誌, Vol. 92-D, No. 9, pp. 1621–1631, Sep 2009