生成AIはさまざまな用途に使われており(過去記事:生成AI・LLMの活用)、業務の効率化に貢献しています。マーケティングリサーチの業務のなかで最も手間と時間がかかるインタビューの書き起こしやまとめ作業。そこで私たちは、実際のグループインタビュー内容を書き起こし~整形、修正、まとめ作業を生成AIを活用して、どれほど業務の効率化を図れるか検証してみました。実際の作業ごとに、前後編の2回に分けて具体的な検証内容とその結果を紹介します。本記事はその後編です。前半記事では、音声の書き起こし、整形・修正の検証について紹介しています。

前提として)検証に使用した調査の内容<再掲>

今回の検証では、以前&Dで実施した「マスクに関する調査」 のインタビュー内容を使用しました。新型コロナウイルス感染症が5類に移行するのに伴い、マスクの売り上げが減少しました。そこで売り上げ減少に歯止めをかけるべく新しいマスクの開発を目指して、調査ではユーザーが「従来のマスクの機能以外にどんな機能があると装着し続けたくなるのか」を明らかにすることを目的に複数人へのインタビューを行いました。
インタビューは、マスクの利用に関する「実態把握」と、新しいマスクの4つのコンセプトに対する「評価(コンセプト評価)」の2部で構成されています。

 

今回の検証内容

後半の実験では、以下の3つの工程に生成AIを使用しました。

  • インタビューフローの内容ごとの分割
  • テーマごとの要約
  • 要約を元にしたまとめ表現作成

上記の作業工程で検証する内容は次の通りです。

  • 自動でインタビューフローにそった章分け、セクション分けが可能か
  • 章ごとのまとめ文章を作ることができるか
  • 章ごとのまとめを発言者ごとの発言で整理できるか
  • セクション(章より小さい区切り)ごとに発言内容で整理して図示できるか
  • 発言者ごとでの情報をどう含められるか
  • ショートストーリーや画像で、内容を表すことができるか
  • 直接の調査目的に対してどういったまとめができるか

 

【検証1】自動でインタビューフローにそった章分け、セクション分けが可能か

インタビューフローに基づいて、GPTを用いた章(セクション)の分け方を検証しました。以下のような目次を与えて分類したところ、高い正解率が得られました。しかし、32か所中3か所で人間が行った章分けとGPTが行った章分けの間にズレが見られました。正確な分類を行うためには、章(セクション)が適度な長さであり、具体的なタイトルが設定されていることが重要です。ただし、目次には存在する一方で実際には発言がほとんどなかった部分があると、読者に混乱を招く可能性があるため、これらの章はフローから除外して判定することが望ましいです。

目次
1-1.今回のインタビュー趣旨説明
1-2.自己紹介
2-1.コロナ流行の終息で変化したこと
2-2.コロナ流行の終息しても変化しなかった、定着したこと
3-1.現在のマスク着用実態と流行時からの変化
4-1.現在着用しているマスクの詳細、利用履歴
4-2.現在使っているマスク100点満点で点数をつけるとすると何点か、理由
4-3.理想のマスク
5-1.マスク利用に対するポジネガ
5-2.提示コンセプト評価P
5-3.提示コンセプト評価Q
5-4.提示コンセプト評価R
5-5.提示コンセプト評価S
5-6.提示コンセプト相対評価
6-1.追加質問確認・クロージング

 

【検証2】章ごとのまとめ文章を作ることができるか ①実態把握

GPTを利用して、テキストを章ごとに単純な箇条書きでまとめてみました。その結果、理解しやすい要約文が生成されました。単純なプロンプトでも機能し、例えば、「これらの発言を、10項目にまとめてください。」といったコマンドでも十分な結果が得られました。また、「これらの発言を3~6個のテーマに分けて、内容をまとめてください。」という指示を与えれば、章内でのテーマ(表題)を生成することもできます。

さらに、GPTを活用して、テキストを事前に想定された2つのセクションに基づいてまとめました。それぞれのセクションごとに、読みやすい箇条書きの文章を生成することができました。例えば、「これらの発言を以下のセクションごとで3~6項目にまとめてください。」といった簡単な指示でも、GPTは十分に機能しました。

 

【検証2】章ごとのまとめ文章を作ることができるか ②コンセプト評価

GPTを利用して、テキストを二重過程理論に基づくシステム1・2によって整理し、得点も付与しました。「二重過程理論に基づいて、これらの発言を整理してください。システム1は「直感的」または「自動的」な思考、システム2は「反省的」または「意識的」な思考とします」といったプロンプトを与えることで内容を理解しやすくまとめることができました。

他のコンセプトについても同じ内容を実施し、その結果を比較しました。この方法により、調査結果を端的に比較しやすくなりました。具体的には、会話の内容から次のような結果が得られました。

  • グループ1では、QとRが高評価
  • グループ2では、Pが高評価
  • システム1の評価では、Pが両グループで高評価

一方で、記入評価とはやや乖離が見られました。記入評価ではグループ1ではRが高評価され、グループ2ではQが高評価されましたが、Pは低評価でした。グループ2のP案の評価は、発言上はそれほど低評価ではありませんでしたが、記入相対評価の結果では評価が低くなっています。記入相対評価は最後に実施するため、発言内容とギャップが生まれる可能性もあることがわかります。

 

【検証②】章ごとのまとめ文章を作ることができるか ③グループ間比較(1)

GPTを用いて2グループの発言を同時に分析し、「実態把握」部分のまとめを出力しました。出力する際には、共通点・相違点を明確化してまとめるように指示を出すことで、より理解しやすいまとめを作成することができました。

共通点と相違点

内容のまとめ

 

【検証2】章ごとのまとめ文章を作ることができるか ③グループ間比較(2)

コンセプト評価についても、同様にまとめを作成しました。

共通点と相違点

内容のまとめ

 

【検証3】章ごとのまとめを発言者ごとの発言で整理できるか ①実態把握

GPTを用いて、章ごとのテキストを発言者毎に整理した表を作成しました。この際に、「各テーマについて、各発言者ごとに発言内容を表形式でまとめてください。表側にテーマ、表頭に司会者を除く発言者の形式で」などのプロンプトで指示を与える必要があります。その結果、かなり全体像を概観しやすい表を得ることができました。ただし、一部に不正確な部分が見られます。元の発言録の発話者や内容の不確かさが影響している可能性があります。

 

【検証3】章ごとのまとめを発言者ごとの発言で整理できるか ②コンセプト評価

次に、コンセプト評価についてGPTを用いて章ごとのテキストを発言者ごとに分けた表を作成しました。分類の際には、まとめで作成したテーマを利用しています。こちらの場合も、整理されてかなり概観しやすい表を作成することができました。ただし、表の内容には一部不正確な部分もあります。これは、元データの発言の不確かさにより、GPT誤認識したことが原因と考えられます。

さらに、記入相対評価の得点と比較する形でGPTを用いて表を作成しました。
しかし、元データの発言者の識別がうまくいっていないことの影響が大きく、うまく元データを読み込むことができませんでした。

 

【検証4】セクションごとに発言内容で整理して図示できるか ①実態把握

次に、GPTを用いて8つの内容分類を作り、2軸を設定して発言内容をマッピングしました。この際、軸設定を含めてGPTで自動作成しています。各分類の位置などは、大まかな目安に過ぎませんが、一目で発言内容を概観できるようになっています。

 

さらに、2つのグループを同じ軸で比較してみたところ、グループ間の共通点や相違点の比較がしやすくなりました。例えば、グループ1と2の次のような差異が明らかになります。

  • グループ1(マスク反対派)の方がマスクを外すことへの視線を意識している
  • グループ2(マスク継続派)の方が「衛生意識」「消毒」といった意識変化を認識している

ただし、場合によっては、軸と内容が合わずうまくマッピングされないこともあります。

 

さらに、GPTを用いて同様の内容分類について、該当発言数と発言者をまとめてみました。このような図示をすることは、発言ボリュームや発言者ごとの内容を把握したい場合には役立ちます。ただし、「実態把握」部分の前半を図示した際には、元データの発言者の識別がうまくいっていないことの影響が大きく、発言回数の判定がしづらい結果になりました。

 

 

 

後半部分は、前半部分よりも綺麗に図示できています。例えば、以下の図から「周囲の視線」や「旅行やレジャー」など、発言者が共通して話している話題を確認することができます。ただし、発言者が切り替わるまでを1つの発言としてカウントしているのであくまでも目安レベルの精度になっています。さらに、「私もそう思う」や「うん」といった発言がカウントできていないため、全体の意見を反映できていない可能性もあります。

 

【検証4】セクションごとに発言内容で整理して図示できるか ②コンセプト評価

コンセプト評価についても同様に4象限のマップを作成しました。
1枚目(左)の画像では軸をGPTに自動作成してもらっていますが、2枚目(右)の画像ではコンセプトに対しての肯定・否定を1つの軸として設定しました。こうすることで、より読みやすいマップになります。

同様に、グループ2のマップも作成しました。

以上のマップに基づいてグループ1と2を比較すると、グループ1の方がコンセプトのもつ価値に対しての発言が多く、グループ2は広い意味でのコストを気にしていることがわかります。

 

【検証5】ショートストーリーや画像で内容を表すことができるか

次に、GPTを使って、テキストを一人のストーリーとしてまとめてみました。指示を与える際には「一人の書き手が自分の体験談を綴るようなトーンで。インタビューの中からテーマに沿ったエピソードを1つだけピックアップしてストーリーに仕立ててください」といったプロンプトを使用しました。その結果、伝わりやすいストーリーを作成することはできますが、発言全体の方向性と必ずしも合致していない内容になってしまいました。

さらに、GPTを使ってストーリーの挿絵となる場面作るように画像生成AIに指示するための英語のプロンプトを作成し、それを元に画像生成AIに指示を与えることで、ストーリーの挿絵を作成しました。挿絵の内容は概ねストーリーに一致していますが、細かい部分の指示が無視されて画像が作られるケースがありました。

 

【検証6】直接の調査目的に対してどういったまとめができるか

ここで、本調査の調査目的を再度確認してみましょう。

この調査目的を踏まえて、全体を大まかに以下の4つの観点で分析することで、調査課題につなげていきます。
(1)現在のマスク利用状況とコロナ流行時からの変化
(2)現在のマスクに対する満足点と不満点
(3)提示コンセプトの内容で評価の高い点、評価の低い点は何か
(4)どんな機能があるとマスクを装着し続けたくなると考えられるか

セクションごとの10項目のまとめを用意し、そこから4つの観点別のまとめを行いました。
GPTを使うことで、実態把握部分(1)(2)の端的なまとめを作成することができました。

また、コンセプト評価についても、セクションごとの10項目のまとめを全体に対して用意し、そこからまとめを行いました。その結果、以下のようなまとめを得ることができました。

以上のまとめを踏まえて、「従来のマスクの機能以外にどんな機能があると装着し続けたくなるのか」という課題に対する提案を作成しました。実態把握部分から提案を作成する際の時のプロンプトは、「グループインタビューの要約をもとに、以下の質問に関して、斬新で具体的なアイディアをブレインストーミングしてください。それぞれの回答に対して、その思考プロセスをstep-by-stepで出力してください」。また、コンセプト評価部分から提案を作成する際は「マスクにどんな工夫があれば、マスクを今後も装着したいと思えるでしょうか。4つのコンセプトのうちの1つまたは2つの方向から新たに欠点を補って発展させる形で、グループ1、グループ2それぞれ考えてください。インタビューの結果からその方向が最もよいと考えた理由も含めてください」というプロンプトを使用しました。実態把握部分とコンセプト評価部分で分けて提案を生成することで、幅広い内容の提案を作成することができました。

プロンプト
「グループインタビューの要約をもとに、以下の質問に関して、斬新で具体的なアイディアをブレインストーミングしてください。それぞれの回答に対して、その思考プロセスをstep-by-stepで出力してください」

回答

プロンプト
「マスクにどんな工夫があれば、マスクを今後も装着したいと思えるでしょうか。4つのコンセプトのうちの1つまたは2つの方向から新たに欠点を補って発展させる形で、グループ1、グループ2それぞれ考えてください。インタビューの結果からその方向が最もよいと考えた理由も含めてください」

回答

 

検証内容のまとめ

以上で今回の検証は終了です。ここで、検証内容をまとめてみると、

  1. インタビューフローにそった章分け、セクション分けを自動でできるか
    →セクションの内容をまとめたタイトルを与えるなどの条件はありますが、ある程度正確に実施可能でした。

  2. 章ごとのまとめ文章を作ることができるか
    →文章のまとめはGPTの得意とするところで、意図にそって分けてまとめることもできました。
    ただし、コンセプト評価の順などを正確に表すことは難しいようです。

  3. 章ごとのまとめを発言者ごとの発言で整理できるか
    →GPTの能力的には実施することができそうですが、元データに不備がある場合はうまく整理できないようです。

  4. セクション(章より小さい区切り)ごとに発言内容で整理して図示できるか
    →発言内容を概観しやすいマップにすることが可能でした。コンセプトの場合は肯定・否定の軸をあらかじめ指定しておくとわかりやすいマップになります。

  5. ショートストーリーや画像で、内容を表すことができるか
    →直感的に理解しやすいストーリーや画像は生成出来ますが、発言の主旨と一致しない部分も見られます。

  6. 直接の調査目的に対してどういったまとめができるか
    →全体に対するまとめをすることができているが、方向性の提案などは新規性の低いものが多く、有効なものが出せないことがわかりました。発見のきっかけとして使う分には問題ないでしょう。

 

アンド・ディでは生成AIの技術を用いたマーケティングリサーチに役立つサービスを開発しています。

アイディエータ

OpenAI社のChatGPTにも使われる大規模言語モデルのGPTを用いて、商品開発時に必要となる新しい切り口のアイデアを短時間で多数生成するAIです。

 

コーディスト

GPTモデルの活用で、アンケートの自由回答(テキスト回答)のコード化(アフターコーディング)が数分で可能です。また、集計結果はAIを用いた「まとめマップ」機能で簡単に二軸グラフに整理可能となっています。

アンド・ディは「IT導入補助金2024」の支援事業者に認定され、アンケート自由回答の分類ツール「コーディスト」が同補助金の[通常枠] ITツールに認定されています。詳しくはコチラから。