KV

専攻講演会

Department Lecture

専攻講演会

Department Lecture

音声のディープフェイク検知はどこまで可能か?

近年の音声生成モデル、とりわけ、話者性を再現する技術は、エンターテインメント等にて新たな価値をもたらすが、悪用された場合にはその再現性の高さ故に個人認証システム等において問題を発生させる。本講演では、この様なディープフェイクによるなりすまし攻撃に対する防御モデルに関する我々の取り組みと研究成果を紹介する。まず、ディープフェイク音声検知モデル学習用の大規模音声データベース、および、ディープフェイク音声検知を電話越しで行うシナリオ、圧縮された音声に対して行うシナリオのための評価データを紹介し、本データベース上で構築された50種類の検知モデルの分析から得られた知見を示す。
次に、メディア生成技術は常に進化し、常に新たな手法が開発され続けている事実を踏まえ、未知手法によるディープフェイクを検知する手法を紹介する。具体定には、検知モデルの特徴を単純な周波数表現から、HuBERTやWave2vec2.0と呼ばれる音声波形の巨大自己教師あり学習モデルの内部表現へと変更することで、未知手法によるディープフェイクを劣悪条件下でも精度よく検出できることを実験から示す。最後に、検知モデルの汎化性能を更に向上させるため、検知モデルの学習用データベース自身を自動拡張するアクティブアルゴリズムも紹介する。