NHK放送技術研究所、放送局データを用いた大規模言語モデルを開発
編集部
日本放送協会(以下、NHK)のNHK放送技術研究所(以下、技研)は、番組制作過程における様々な業務効率化を目的とした大規模言語モデル(LLM)の開発を進めている。今回、NHKが放送したニュースなどのデータ(放送局データ)を学習させたLLMを構築し、放送局データの利用がニュース報道に関する質問への回答の正確性向上にどの程度効果的かを検証した。
その結果、報道された事実に関して、誤った回答をする割合が約1割減ることを確認。今後は、さらなる検証を進め、大量の文書の要約などによる情報収集支援や翻訳、文章校正などの業務支援を視野に入れ、2026年までの実用化を目指して研究開発を進めていく。
■放送局業務におけるLLM利用上の課題
LLMは大量のテキストデータを学習することで、あるテキストを入力すると、それに続くテキストを予測して出力する、自然言語処理に特化した生成AIの一種。翻訳、要約、文章校正、プログラム作成など、幅広い業務に応用が可能だが、LLMには事実と異なる回答をしてしまうといった課題が指摘されている。
特に番組制作など正確性が求められる業務では慎重な対応が必要となる。
■番組制作過程におけるLLMの想定利用方法
NHKでは番組制作者がよりクリエイティブな業務に集中できる環境の構築を目指し、これまでに番組制作支援のための日英機械翻訳システムや番組要約システムなどを研究開発してきた。
現在は、番組制作の準備段階での情報収集支援や翻訳、文章校正などの業務支援を想定し、LLMの研究開発を進めている。
■今回開発したLLM ~約40年分のニュース原稿・ニュース記事などを学習~
技研では既存のLLMをベースに、過去にNHKが放送した約40年分のニュース原稿やニュース記事、番組字幕などの放送局データ(約2000万文)を追加学習させたLLMを構築した。これにより、過去に放送したニュース内容をよく理解し、事実と異なる誤った回答をしにくくなった。また、ニュースで頻繁に使用される用語や表現に対する理解力も向上した。
外部機関が実施するニュース報道に関する検定試験を用いた評価実験では、LLMに放送局データを学習させることで、報道された事実に関して誤った回答をする割合が、学習前と比較して約1割減少した。今回、構築したLLMがニュースの時事的な知識を獲得していることを確認したが、番組制作支援のツールとして活用するには更なる改良が必要となる。
■技研公開2025「広がる つながる 夢中にさせる」
開催期間:5月29日(木)~6月1日(日)10時~17時(入場は30分前まで)
会場:NHK放送技術研究所(東京都世田谷区砧)
入場:無料
ホームぺージ:https://www.nhk.or.jp/strl/open2025/