集計の流れ

定量調査の実査（調査対象者の回答と入力作業）が終わると、分析や報告書作成の準備として、「集計」を行います。調査回答データのままですと、調査結果を正しく読み取ることは大変です。

例えば、世論調査で「現在の内閣を支持しますか」という質問であれば、
「支持する」が60％
「支持しない」が30%
「わからない」が10%
というように、各選択肢の回答者割合に置き換えることが集計です。

集計作業で大事なことは、回答データを適切に処理して正しく集計することです。計算ソフト（集計ソフトやExcel）を適用する前に、調査回答データの中に、回答内容の正確さが疑わしい回答者がいないか、不適切な回答がないかを確認します。このような集計前のデータクリーニングが欠かせません。

データ処理が施されてから、「集計」作業に移ります。基本要素は、集計項目（小計や平均を含む）と集計軸です。リサーチャーは、データ処理、集計項目と集計軸の設定を、一つずつ仕様書として記述し、集計実施者に作業を依頼します。リサーチャー自身で作業する場合でも、この仕様書があると、結果を確認しやすくなります。

次から、集計作業の各工程について説明します。調査によって多少異なる部分もありますが、ほぼ盛り込まれる内容です。

データクリーニング（エディティング）

データクリーニングの主な作業は、（１）不適切サンプルの除外、（２）回答データの修正に分かれます。

まず、回答内容が以下の条件に該当すると、不適切サンプルと見なして、回答データから除外します。これらは、明らかに不誠実な回答であるため、回答態度として回答の正確さを担保しにくいと思われるからです。除外サンプルが多くて、有効回答サンプルが不足する場合、予備サンプル（予定回収数以上に集まったサンプル）から補填することもあります。

（１）不適切サンプルの除外

重複回答

同一人物による複数回答があれば、1つを残して除外します。通常は最初に回答したものを残します。Webアンケートの場合、原則、User Agent（回答者のブラウザ環境）、IPアドレス、性別、居住地などが全て一致していると同一人物とみなします。

回答時間の長短

設問数に対して、極端に回答時間が短い、あるいは、24時間を超えるなど回答時間が長いサンプルも除外対象です。

不適切な自由回答

「あああああ」など文字・数値の羅列、反社会的表現、内容が意味をなさない文章などを指します。調査によっては、調査目的に合致しないサンプル（例：観光旅行を前提とした旅行目的の設問で、自由回答に「出張」と回答）も除外します。

ストレート回答

マトリクスタイプの単一回答設問において、全て同じ選択肢を回答したサンプル（例：20種類の商品イメージに関する設問において、全20種類とも「とてもあてはまる」と回答）を指します。

全選択肢回答

複数回答設問において、「その他」や排他選択肢（「特にあてはまるものはない」等）以外の全ての選択肢を回答したサンプルを指します。

実数異常値回答

実数回答において、実態が疑わしい数値を入力したサンプル（例：1人当たり旅行費用が1000万円以上）を指します。

（２）回答データの修正

次に、回答内容に矛盾がある場合、必要に応じて回答を修正します。紙のアンケート調査では、設問や選択肢に制御がかからないため、矛盾回答が起きやすくなります。代表的な回答修正パターンは下記の通りですが、余りにも回答データを修正するのは考えものです。矛盾した回答であっても、本当に誤った回答なのかもしれないからです。もしかすると、誤解を生じやすい設問文が原因となっているかもしれません。加えて回答データは正に生データであるため、回答者の意図を損ねるような回答データの修正も避けないとけません。また、どの回答を修正するかも適切に行う必要があります。

単一回答設問における複数選択肢を回答

処理としては、無回答扱い、一番最初の選択肢のみ有効扱い、一番最後の選択肢のみ有効扱いがあります。

複数回答設問における非排他選択肢と排他選択肢の重複回答

例えば、商品イメージを尋ねる設問で、「かわいい」「面白そう」とともに「あてはまるものはない」を回答した場合です。一般的には、排他選択肢（「あてはまるものはない」）の回答を無効にします。

設問回答者条件を満たさないのに回答

旅行経験の有無を尋ねる最初の設問で「旅行したことがない」と回答したのに、次の旅行先を尋ねる設問で回答した場合です。この場合、旅行先設問の回答を削除、あるいは最初の設問の回答を「旅行したことがある」に修正します。

同一選択肢設問における矛盾回答

例えば、商品イメージを尋ねる設問で、「あてはまるものをすべて」と「最もあてはまるものを一つ」を選ぶ場合です。この場合、論理的には、「最もあてはまるものを一つ」は「あてはまるものをすべて」に含まれる必要があります。これに矛盾した回答の場合、どちらの回答も無回答扱いにする、あるいは、整合性が取れるようにいずれかの回答を修正することが考えられます。

改めてですが、データクリーニングを適切に行うことで、集計結果に矛盾を起きず、無回答を少なくすることが可能となります。集計前の必要な手続きです。

集計項目の設定

ここからは、実際の集計準備作業となります。まず集計項目を設定します。アンケート調査の全設問だけでなく、複数の設問を組み合わせた合成変数（例：満足度と推奨意向の組み合わせ）、回答者条件以外にベース絞り込み（例：ブランド認知者ベースのブランド印象度）、モニター登録情報や多変量解析データなどのアンケート外からの追加変数などがあります。
また、実数回答については、適切なカテゴリーを設定する必要があります。年齢であれば10歳刻み、年間旅行回数なら「１回、２回、３回、４回、５回以上」というようになります。

集計項目ごとの小計・平均の設定

小計や平均は必要に応じてを設定します。小計には、満足度を5段階で尋ねたときの「満足・計」や「不満・計」、居住都道府県の「北海道・東北」「関東」、調査票作成時に設定した選択肢グループなどがあります。
平均には、平均年齢のような実数平均、満足度5段階設問において各選択肢に５点から１点を与えたときの加重平均値、複数回答設問における平均回答個数などがあります。このうち実数平均は、集計対象全サンプルを対象とするのか、外れ値を除いて算出するのか検討が必要です。外れ値を除外する平均算出方法としてトリム平均などがあります。
いずれにしても、分析すなわち調査目的の検証に必要な小計や平均を漏れなく設定します。
※リサーチ会社では、実数回答のカテゴリー区分、小計、平均のあたりをつけるために、ホールカウント（サンプル全数ベースの単純集計表）を利用しています。

集計軸の設定

集計軸とは、冒頭の内閣支持率の例でいえば、全体の「支持する」50%に対して、男性では60%、女性では40%といったスコアを出すための条件をいいます。性別、年代別、居住エリア別などが代表的な集計軸ですが、調査目的や仮説に紐づく集計軸は必ず設けます。ブランドの認知や接触頻度の違いによるブランドプロモーション（テレビCMなど）を検証するなら、「ブランド認知の有無別」「ブランド接触回数別」、営業担当者に対する満足層の特徴を把握するなら、「営業担当満足度別」が必要になります。

出力した集計表の確認

基本となるのは、単純集計（GT）表とクロス集計表です。詳細は別に記載しますが、単純集計表は全体傾向の把握、クロス集計表は各集計軸の特徴を把握するために利用します。集計表を出力したら、まず仕様通りに集計されているか確認します。特に集計項目における合成変数、小計・平均、集計軸については、設定した条件が不十分だったり、抜け漏れがあって、意図通りに出力されいない可能性があります。必要に応じて、仕様を修正し、再出力します。

［参考］ウェイトバック集計、ベース絞り集計

例えば、集計ロウデータが47都道府県100サンプルずつで構成されているとします。この場合、全4700サンプルを日本全体とするには、やや無理があります。何故なら、都道府県によって人口が異なるので、同数サンプルでは母集団（日本全体）の縮図にはならないからです。これを実際の都道府県別人口構成比に合わせて集計することを「ウェイトバック集計」といいます。人口であれば、国勢調査などの統計データをもとに、各サンプルに補正値を設定して集計します。
ウェイトバック集計で重要なのは、補正値の根拠となる母集団が適切であるかということです。上記のように人口なら容易に把握できるのですが、母集団が不明な場合はウェイトバック集計を行うことはできません。また、補正値が異常に大きくなるのも問題です。例えば、補正値が10ということを1人の回答を10人分とみなして集計することになるので、当該サンプルの回答特性（特異性）の影響を受けやすくなります。

ベース絞り集計とは、回答者の条件を付加して、別の単純集計表とクロス集計表を出力することです。例えば、北海道と沖縄県への観光旅行者のアンケート調査を実施したとします。通常は、両方を合わせたリゾート地観光旅行者で集計するのですが、全ての集計軸について、「北海道観光旅行者」を全体値とする傾向をみる場合があります。この場合、「北海道観光旅行者×性別」というような二重クロスの集計軸の設定をしないで「北海道観光旅行者」ベースに絞って集計表を出力することがあります。
また、紙アンケートの場合、必ず各設問において無回答者（回答すべきであるが、回答しない）が存在します。設問によって無回答者の割合が大きいと、回答者の中での傾向を読み取りにくくなることがあります。そうした場合、仕様を作成する時点で、「通常の全サンプルベース」とは別に、「各設問の無回答者を除外した実回答者ベース」を出力することがあります。