もっともらしいが実際には正しくない文書が多数存在すれば、万が一システムがハッキングされても、多くの類似した文書のどれが本物か把握するのが困難だ。
文書に含まれる概念のもっともらしい置き換えを検討
WE-FORGEは、自然言語処理を使用して、正しいものと正しくないものを織り交ぜた文書を自動生成。ランダム性の要素を組み込むことで、攻撃者が実際の文書を簡単に識別できないようにする。研究チームによれば、偽の文書を作成することはそれほどむつかしくないようだ。
WE-FORGEは、文書の中の置き換え可能な概念すべてで代替を検討する。概念間の類似性を計算し、各単語が文書にどの程度関連しているかを分析することで機能する。特許文書1本には1000を超える概念が含まれ、最大20バージョンの偽文書が生成できるとのこと。
人間とAIのコラボレーションも
WE-FORGEは、文書の作成者からの入力も利用可能。人間とAIのコラボレーションによって、攻撃のコストをさらに増加させる可能性がある。研究の一環として、チームはコンピューターサイエンスと化学の特許文書を偽造。有識者パネルにどの文書が本物かを判断するよう依頼した。
結果として、WE-FORGEはタスクごとに一貫して、信頼性の高い偽文書を生成できたようだ。同システムは政府機関や知的財産を扱う業界で利用され、サイバーセキュリティの強化に役立てられる可能性がある。
参照元:Cybersecurity Researchers Build a Better 'Canary Trap'/ Dartmouth News