調査対象選定の方法

調査目的達成のための調査対象の抽出

マーケティングリサーチによる課題解決に必要な結果を導き出すためには、「どのような対象に」、「どのくらいのサンプル数を」、「どのような手段で」集める必要があるのかを決める必要があります。
しかし、リサーチの実施にあたっては、落とし穴がたくさんあるので注意が必要です。たとえ何百万人に聞いた調査でも、その対象者の選び方が間違っていたり偏っていたりすると使えない結果が出てきてしまい、間違った判断を導きかねません。

では、調査目的を達成するためにはいったい「誰に」聞けばいいのでしょうか？

母集団規定

母集団規定とは、リサーチで知ろうとしている集団（調査対象者）は何かを条件で定義することです。調査対象者の選定には、対象者の条件を適切に設定することが重要です。対象者条件を設定する際には、調査目的により、その条件の設定の仕方が決まってきます。

たとえば、日本全国で販売している商品の認知度のデータを求めるならば、調査対象エリアは必然的に日本全国となります。
また、ある大学の入学見込みに関するデータが必要ならば、調査対象エリアを、学校がある都道府県と周辺都道府県に在住の高校生と設定したりします。
個人が対象であれば、エリア以外に性別や年齢、あるいは商品・サービスの利用の有無などを条件にします。企業の担当者が対象であれば、エリア、業種、従業員数など種類を条件にします。
このように、調査目的に合った「聞くべき人」を的確に選ぶために、対象者条件をなるべく具体的に設定します。

調査対象の抽出

調査の方法には大きく分けて2つの方法があります。全数調査とサンプル調査です。全数調査は国勢調査など国民全員を対象に行う場合に行う方法です。
調査において、情報を得たいと考えている対象の全体を母集団といい、母集団から抽出された一部分を標本（サンプル）と呼びます。

全数調査では母集団をすべて調査対象とするので精度は高くなりますが、膨大な費用が掛かるのが難点です。そのため、たいていの調査ではある限られた調査対象者（サンプル）の回答をもとに母集団全体を推定しています。これがサンプル調査です。
サンプル調査において、母集団全体の推定をより精度高く行うためには、調査対象者を全体からランダムに抽出する必要があります。

サンプル調査を統計学的に実施するためには、調査対象者全員の住所・氏名などが記載されたリストがあることが前提になります。しかし住民基本台帳や選挙人名簿は個人情報保護法によって閲覧利用が制限されているので、一般的には、調査会社が登録しているモニター等を用い、抽出リストを作成します。

厳密な意味では統計学的なサンプリングはできていませんが、標本の偏りを念頭に置きながら分析して活用することでコストパフォーマンスの高い調査を実施することが可能です。

回収サンプルの偏り

調査対象者を選ぶときにはランダム性が重要なのは、そうしないとサンプルが偏るためです。しかしサンプル自体が偏っていなくても、実際の回答者が偏っていると使えない調査となってしまいます。
ここで、ランダム性においては同条件で問題無いレベルのどちらがより信頼できる調査結果を得られるかを考えます。

（1）サンプル数10万人、回答数10,000人の調査（回収率10％）
（2）サンプル数1000人、回答数800人の調査（回収率80％）

サンプル数、回答者数を比較すると、どちらの数字も（1）＞（2）なので（1）の調査の方が良さそうに見えますが、実はこの場合は回収率が高い（2）の調査の方が、全体の誤差が少ない良い調査だと言えます。
なぜなら回収率が低い調査の場合、もし非回答者の答えが回答者と大幅に違っていた場合には、調査結果に大きな誤差が出る可能性があるからです。
偏りを避け、コストを無駄にしないためには、調査の回収率が高いことが重要です。
では、回収数は最低限どのくらい必要になるのでしょうか？

サンプル数の決定方法

回収率を上げる方法のほか、サンプル数を増やすことでも誤差を少なくすることはできます。必要なサンプルサイズの算出方法は、一般的には、次のようなステップです。

1）許容誤差範囲の決定

許容誤差範囲とは、もし対象者全員に調査を行った場合に得られるであろう測定結果（真値）との許せる誤差の範囲のことです。
±10％程度でもおおよその結果がわかればよしとするのか、±1％程度の精度の高いデータが欲しいのか、を判断するということです。
統計学のコーナーではないので数式で説明することはしませんが、よく使われるのは信頼度95％のケースです。
これは100回調査を繰り返すと５回は結果が最大許容範囲から外れる可能性があることを示します。

2）予算との兼ね合いによるサンプルサイズの算定

下表は、無作為抽出で「サンプルを○○件とり（下表縦軸）、その結果○○％の回答が得られた場合（下表横軸）にプラス・マイナス何％の誤差があるか」をあらわしたものです。

■パーセントのサンプリング誤差の早見表（5％水準の危険度＝信頼率95％）

パーセントのサンプリング誤差の早見表

引用元: 内閣府世論調査結果を読む際の注意

統計的に見て、最も誤差が生じやすいのは、回答比率が「50％」のときです。
例えばある商品に対して満足している割合が50％の場合、n=100にした場合では、50％±10％、つまり、正しい値は40%～60％の間にあると見なします。
もし、これを同じ条件で、回答誤差を±10％から、その半分の±5％にするためには、n=100から、n=400、つまりサンプル数を4倍にしなければなりません。
一方で、n=1000を、2倍のn=2000にしたとしても、その誤差は、±1%程度しか変わりません。
この、誤差をどの範囲まで認めるか、調査結果にどれだけのデータ信頼度を求めるかが、サンプルサイズを考える上での基準になります。

サンプルサイズが多いほど精度は高くなりますが、費用もその分高くなるため、予算も考えながら調査結果が一定の誤差範囲に収まるようにするためのサンプルサイズを算出することが必要です。

3）クロス集計を考えたサンプルサイズの設定について

年齢、年収、地域等のクロス集計を検討する場合、1グループ最低何サンプル必要になるのでしょうか。この問いに答えている書籍やWeb記事はほとんどありません。
例えば、性別×20代～60代の年代別（2×5＝10グループ）にクロス集計で属性間の違いを知りたいといった場合、1グループのサンプル数をn=100にした場合、全体では100×10グループ＝1,000ｓサンプルとなります。

あるグループ（例えば20代女性）のスコアが、信頼率95％で誤差が最も多い50％の場合、正しい値は50％±10％、つまり40%～60％の間になります。
一方、全体のスコアが仮に40％の場合、サンプル数はn=1000なので、正しい値は40％±3％、つまり37％～43％の間になります。
信頼率95%では全体のスコアとの差があるとは必ずしも言えない（グループのスコアが40％で全体のスコアが43％など逆転の可能性がある）のですが、信頼率を68％まで落とすと、誤差は半分になりますので（このあたりの統計的な説明は割愛します）、20代女性のスコアは50％±5％となり、全体のスコア40％と差があると言えることになります。

一般的に、報告書のクロス集計表で各グループのスコアの高低を分かりやすく表現するために、全体値との比較で±10％以上で網掛けをすることが多いと思いますが、その基準でいえば各グループで100サンプルを確保することが目安となると言えましょう。
厳密な世論調査は別にして、マーケティング調査は費用対効果を考慮する必要がありますので、コストを抑えながらなるべく精度の高い結果を得ようと考える場合の参考としていただければと思います。