質の悪いデータが調査結果を台無しにするのを防ぐ

質の悪いデータが調査結果を台無しにするのを防ぐ

Read Time:

「garbage in, garbage out.(ゴミを入れたら、ゴミが出てくる)」という言葉があります。これは、コンピューターサイエンスの分野で生まれた言葉ですが、多くのことにあてはまり、サーベイでも同様です。質の悪いデータによってサーベイの結果が損なわれることを防ぐため、今日から実践できるベストプラクティスをご紹介します。このベストプラクティスを採用することで、データとそれに基づいて下すべき決断に自信を持てるようになるでしょう。


最新のツールやメソッドを使えば、必要なデータを持つ人々から簡単にデータを収集することができます。ただ、残念なことにすべてのデータが等しく生み出されるわけではありません。どうすればあなたが収集したデータがよいデータであると信じることができるでしょうか?

悪質なデータがデータセットに入り込むのを100%ブロックすることは不可能ですが、その大半をブロックするために、いくつかのベストプラクティスを採用することができます。「私のデータセットにある悪質なデータはすべて許せない」とお考えになられるかもしれません。しかし、データセット内の質の悪いデータポイントを特定し、それを取り除くことができる方法があります。

その方法の根底にあるのは、データの質の改善に関する考え方です。質の悪いデータがデータセットに入り込まないようにするプロアクティブ(先手)なアプローチと、すでにデータセットの中に入ってしまった質の悪いデータに対処するリアクティブ(後手)のアプローチがあります。

次のベストプラクティスは、この区分けを念頭に置いて作成されています。

 

悪いデータをブロックするためにまず最初の段階で行うことは何か?

抜け目のないサーベイ設計を行うと、質の悪いデータがデータセットの中に紛れ込むのをシステマチックにブロックすることができます。

  • レッドへリング(偽の選択肢) レッドヘリングとは、正当な質問の中にある偽の回答の選択肢のことです。これは、サーベイへのアクセス権を得るために正しい答えを推測しようとする人を捕捉することが狙いです。下の例では、“WorkChat” は架空の製品です。回答者がこれを選択した場合、
    サーベイを終了させ、サーベイから除外します。

  • 知識チェック これは、サーベイのなかで問われているテーマに関する回答者の知識をテストすることを目的とした質問です。Googleで検索すれば簡単に答えが分かってしまうような質問ではありません。例えば、頭字語の構成ワードを確かめるような質問はしないでください。このような質問は、誰でも調べればすぐに正しい答えを出すことができるからです。

  • アテンションチェック これは、回答者が注意を払っていることを確認するため、また、大規模の消費者サーベイで人間の代わりにロボットが入力しているのを検知するために設定された質問です。誰でも回答できるような、明確な回答の質問を使用します。(例「一週間は何日ですか。」)

すでにあるデータは、どのように悪いデータを識別すればよいか?

予防策は重要な役割を果たしますが、それでも微調整が必要になることもあります。しかし、これらは潜在的な問題を浮かび上がらせ、本来なら数時間かかるデータクリーニングの手動プロセスを効率のよい簡素なものにしてくれることもあります。

  • ストレートライニング(パターン化された回答) これは、列または行全体で同じ回答ばかりを選択する回答者を特定するものです。ただし、これには判定が必要になるということを覚えておいてください。列に沿って同じ回答を選んでいても、理性的な回答をしているということもあります。しかし、下の例では回答者がすべての要素(価格、品質、利便性、有用性、入手性)について、もっとも高いレベルで満足していることは考えにくいでしょう。

  • スピード違反者 回答者の回答スピードが速すぎないかを判定します。もし他の人の半分のスピードでサーベイに答えている回答者がいたとしたら、その人は十分に注意を払っていなかったのではないかという可能性を疑う必要があります。

よくある誤り
回答に応じて異なる数の質問が表示されるロジックをサーベイに組み込んだ場合、正当な理由で、サーベイにかかる時間に極端な違いが生じることもあります。

  • カスタムフラグ  回答者が矛盾した回答をする可能性のある質問をする場合、論理矛盾が生じたときに作動するカスタムフラグを設定することができます。フラグはバックエンドにしか表示されませんが、データ中のフラグを素早く特定し、回答をレビューし、データセットから回答を削除するかどうかを判別することができます。カスタムフラグはデータの質をチェックし、質の悪い可能性のあるデータをどのように処理すべきか、情報に基づいた判断を下すための迅速な方法です。
  • 自由回答形式の質問  自由回答形式の質問では定性的なデータを得られるだけでなく、回答者の質を判定することもできます。回答者は問われていることに答えているでしょうか? 矛盾のない適切な回答でしょうか? もし答えがノーであれば、データセットから削除することができます。回答者が質問を誤解しているなど答えがあまり明確でない場合は、その回答者の残りのデータを確認して十分な情報を得た上で、どのように扱うかを判断することができます。

覚えておくべき重要ポイント

データセットの質を改善する方法はたくさんあります。悪いデータがデータセットに入り込むことを防ぐために使われる方法もありますし、すでに収集したデータの質をチェックするために使われる方法もあります。

これらの方法をすべて使うこともできますし、特定のプロジェクトに適用できるものをいくつか選択することもできます。いずれにせよ、質の高いサーベイを行い、信頼性のある意思決定を行えるよう、質の悪いデータをなくすようにしましょう。


GLGサーベイシリーズの他の記事

ニュースレター登録(無料)

業界の最新動向、無料ウェビナー情報、活用事例などをお届けしています。(メールは英語です。)