ローカルなLLMを利用して日本語要約を行い、GPTで自動評価してみた（ガバガバ検証）

es-key — Sat, 09 Dec 2023 19:44:18 +0000

雑に実験設定したらちょっと残念な結果になりました......
また、この記事はLLM Advent Calender 2023 シリーズ2の記事です。

まとめ

ローカルLLMを使って日本語要約してみた
作成した要約をGPTと人手（自分）評価で評価してみた
Generation Configの重要性（せめてHuggingface-hubに記載の値を使うべき）

概要と背景

振り返ってみると2023年はLLM関連が非常にホットなトピックだったような印象があります。
LLMにプロンプトを投げるといい感じの出力を出してくれるので、私自身困ったらGPT、みたいなそこそこ頼れるアシスタントとしてよく使っています。

LLMができることの一つとして文書要約があると思います。
GPT-3.5やGPT-4は「次の文書を要約してください。{文書}」みたいな入力をいれるだけでいい感じに要約してくれてすごいなと小学生並みの感想にはなりますが思っています。

2023年は日本国内企業もLLMの開発を盛んに行い、様々なモデルが発表されました。
気になってくるのはその性能ですよね。
Stability AI版のlm-evaluation-harness、Rakuda benchmark、llm-jp-evalなど、様々な評価ツール、データセットなどが公開され、数値として様々な評価結果が報告されています。
すごく参考になる一方で、やっぱり自分のほうでもどんな出力が得られるのか確認したいなと思いまして、今回日本語要約で精度検証をしてみました。

ローカルLLMを使って日本語要約を実施

検証モデルとその設定

今回は以下のモデルに関して検証を行っています（並び順は適当です）。

Xwin-LM/Xwin-LM-7B-V0.2
Xwin-LM/Xwin-LM-13B-V0.2
meta-llama/Llama-2-7b-chat-hf
meta-llama/Llama-2-13b-chat-hf
mistralai/Mistral-7B-Instruct-v0.1
elyza/ELYZA-japanese-Llama-2-7b-fast-instruct
stabilityai/japanese-stablelm-instruct-gamma-7b
stabilityai/japanese-stablelm-instruct-beta-7b
stabilityai/japanese-stablelm-instruct-ja_vocab-beta-7b
llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0
matsuo-lab/weblab-10b-instruction-sft
rinna/youri-7b-instruction
cyberagent/calm2-7b-chat

検証対象のモデルは、

Instruction Tuning済みのモデル
A100一枚の環境で検証するため、fp16、bf16で動作するモデル

という観点で適当に集めました。
ちなみに検証環境はGoogle Colabです。
使用したnotebookは[こちら]()。

また、検証時のプロンプト（チャットテンプレート）は各モデルについてHuggingface-hubに記載されているものを使用しています。
（モデルごとに全然違うのちょっと大変でした......Huggingfaceの tokenizer.apply_chat_templateがもっと出回ってほしい......）

また、Generation Configですが、なんと今回はすべてデフォルト値を使用しています！
理由としては単純に個々のモデルについて調べて設定するのを嫌がった、という完全にこちらがさぼっただけになります......
（一応の思想としては、優れたモデルはパラメータ適当でもなんとかなるだろうし、すべてのモデルでパラメータチューニングさぼれば公平な比較だろう、ぐらいの感覚ではありました。）

結論を述べると、一部のモデルでそもそも要約がうまくできない結果となり、原因の一端としてこのGeneration Configが考えられるかもしれません。

検証データと評価方法

今回は検証データとして既存の日本語要約データを使っていません。
理由として、データリークの恐れがあったことが大きいです。

じゃあどうやって要約の精度評価をするかですが、今回は簡単に11件の文書をLLMに要約してもらい、その要約結果をGPTで自動評価します。
具体的にはGPT-4に要約対象の文書と要約結果を与えて、「consistency」「relevance」「fluency」「coherence」の４項目を1-5の5段階評価してもらう、というものになっています。
Human-like Summarization Evaluation with ChatGPT. [link]によると、データセットにもよりますが、GPT-3.5での評価は人手評価とそこそこ相関するとのことです。
今回使用した評価用プロンプトはこちらです。

評価プロンプト

LLM – 塵も積もれば備忘録

ローカルなLLMを利用して日本語要約を行い、GPTで自動評価してみた（ガバガバ検証）

まとめ

概要と背景

ローカルLLMを使って日本語要約を実施

検証モデルとその設定

検証データと評価方法