学習モデルには、トレーニングもとのデータセットに含まれるバイアスがそのまま反映されてしまう。画像認識では、白人の認識精度がほかよりも高いといったことを耳にしたことがあるだろう。
機械翻訳でも同じ課題があり、ジェンダー(性別)バイアスのかかった翻訳が生成されることがある。
・中性的な表現の翻訳に選択肢を表示
例えばトルコ語のGoogle翻訳では、医者の主語は男性に、看護師の主語は女性に英訳されていたという。文化に根差したバイアスが翻訳に反映される事態を改善すべく、Googleはどちらの性別にも捉えられる文章の翻訳では男性/女性の2つの選択肢を示すようにした。機械翻訳のシステムとして、まず分類器により、中性的な表現が含まれる文章を検出し、その部分の翻訳を男性/女性の2つのバージョンで生成。最後に正確性をチェックする……というものが考案された。
ただ、この手法を英語からスペイン語の翻訳に拡張した際に、ニューラル機械翻訳では最大40%で選択肢が表示されなかったという。
・性別の区別がある表現を書き直すことでスケーラブルに
そこで、オリジナルの翻訳を書き直すという新たな手法を開発。まずは機械翻訳を生成し、性別の区別がある表現を見つける。センテンス単位で反対の性別表現に書き直し、選択肢に追加して正確性をチェック、という流れだ。このアプローチは、中性的表現の分類器を必要としないため、特に性別の区別のない単語を持つ言語にもスケーラブルに拡張できる。
実際、英語からスペイン語への翻訳で利用したモデルを、フィンランド語、ハンガリー語、ペルシャ語の英訳にも拡張したところ、バイアスは従来の翻訳と比べて90%以上軽減したとのこと。こうした改善がさりげなく適用されているのがうれしい。
参照元:A Scalable Approach to Reducing Gender Bias in Google Translate/ Google AI Blog