나쁜 데이터 걸러내기

나쁜 데이터 걸러내기

완독 시간: 4 분

“콩 심은 데 콩 나고 팥 심은 데 팥 난다”는 속담이 있습니다. 설문조사도 마찬가지입니다. 여기서는 나쁜 데이터가 결과에 영향을 미치지 않도록 해주는 베스트 프랙티스를 살펴보겠습니다. 베스트 프랙티스를 활용하면 수집한 데이터와 이를 토대로 내린 결론을 신뢰할 수 있습니다.


현대적인 도구와 방법을 사용하면 내가 원하는 데이터를 이를 가지고 있는 사람들로부터 쉽게 수집할 수 있습니다. 하지만 모든 데이터가 같지는 않습니다. 내가 수집한 데이터가 좋은 데이터인지 어떻게 신뢰할 수 있을까요?

나쁜 데이터가 데이터 세트에 유입되는 것을 100% 막을 수는 없지만, 몇 가지 베스트 프랙티스를 활용해 대부분의 나쁜 데이터를 예방할 수 있습니다. 물론 조금이라도 나쁜 데이터가 데이터 세트에 포함되는 것을 원치 않으실 겁니다. 다행히도 데이터 세트 내의 나쁜 데이터 포인트를 파악해 제거할 수 있는 검증된 방법이 있습니다.

여기서 소개할 베스트 프랙티스는 데이터 품질 개선에 대한 접근법을 바탕으로 한 것으로, 데이터 세트에 나쁜 데이터가 들어가지 못하도록 하는 예방적 접근법과 이미 데이터 세트에 존재하는 나쁜 데이터를 해결하는 사후 접근법이 있습니다.

다음의 베스트 프랙티스는 이러한 구분을 염두해 작성되었습니다. 어떻게 하면 처음부터 나쁜 데이터를 예방할 수 있을까요? 똑똑한 조사 설계로 나쁜 데이터가 데이터 세트에 유입되지 않도록 체계적으로 예방할 수 있습니다. 이러한 베스트 프랙티스를 질문지에 통합하면, 걱정 없이 설문조사를 실시할 수 있습니다.

  • 레드헤링 — 레드헤링은 정상적인 질문 속에 포함된 가짜 보기입니다. 설문조사에 참가하기 위해 ‘정답을 추측’하려고 하는 응답자를 가려내기 위한 조치입니다. 아래 예의 “WorkCat”은 가상의 제품으로 응답자가 이를 선택하면 설문조사 참가 자격이 상실됩니다.

  • 지식수준 확인 — 설문조사 주제에 대한 응답자의 지식수준을 테스트하기 위해 고안된 질문입니다. 객관적인 정답이 있어야 하지만 인터넷 검색으로 쉽게 찾을 수 없는 답이어야 합니다. 예를 들어 축약어는 누구나 검색해 금방 정답을 말할 수 있으므로 축약어를 확인하는 질문은 하지 마세요.

  • 주의력 확인 — 응답자가 주의를 기울이고 있는지 확인하기 위한 질문으로, 대규모 소비자 조사에서는 봇을 잡아내기 위해 사용됩니다. 이러한 질문에는 하나의 확실한 정답이 존재합니다.

     

이미 나쁜 데이터가 존재하면 이를 어떻게 확인할 수 있을까요? 예방책으로 많은 부분을 해결할 수는 있으나, 여전히 약간의 세밀한 조정이 필요합니다. 다음의 베스트 프랙티스를 통해 잠재적 문제를 파악하고, 몇 시간에 걸쳐 수작업을 하는 대신 빠르고 효율적으로 데이터를 정리할 수 있습니다.

  • 동일 답변 선택 — 응답자가 행이나 열을 따라 모두 같은 답변을 선택하는 경우입니다. 여기서는 개인적 판단에 따라 결정을 내려야 합니다. 응답자가 같은 답을 연속으로 선택하더라도 그러한 행동이 타당하고, 여전히 합당한 답을 제공할 수도 있습니다. 하지만 아래의 예에서 응답자가 모든 요인에 가장 높은 만족 점수를 줄 가능성은 매우 낮습니다.

  • 속도위반 — 이 카테고리는 응답자가 설문조사를 ‘지나치게 빨리’ 완료하는지를 판단합니다. 여기서도 개인적 판단에 따른 결정이 필요합니다. 단, 다른 사람들이 설문조사를 완료하는 데 걸린 시간의 반도 안 돼서 설문조사를 마친 응답자라면, 그 사람은 충분히 주의를 기울이지 않았다고 의심할만합니다.

일반적인 함정

응답자의 답변에 따라 다른 수의 질문을 표시하는 로직을 설문조사에 포함해야 합니다. 이 경우 조사 완료 시간에 큰 차이가 발생할 수 있으나 이유는 타당합니다.

  • 맞춤 경고 — 응답자가 모순된 답변을 할 수 있는 질문이 있는 경우, 논리적 오류가 발생하면 맞춤 경고가 작동하도록 설정합니다. 경고는 백엔드에만 표시되지만 이를 통해 데이터 내 경고를 신속하게 확인하고 응답을 검토해, 해당 데이터를 데이터 세트에서 제외해야 하는지 결정할 수 있습니다. 신속하게 데이터의 질을 확인하고, 나쁜 데이터를 어떻게 처리해야 하는지 결정을 내릴 수 있는 방법입니다.
  • 서술형 질문 — 서술형 질문은 양질의 정보뿐만 아니라 응답자의 질을 평가할 수 있는 기회를 제공합니다. 응답자가 묻는 질문에 답변하고 있나요? 일관되고 설득력 있는 답변을 제공하고 있나요? 그렇지 않다면 이러한 응답자를 데이터 세트에서 제외할 수 있습니다. 답변이 분명하지 않다면 응답자가 질문을 잘못 해석했을 수 있으므로, 해당 응답자의 나머지 데이터를 검토한 후 이를 어떻게 처리할지 결정합니다.

핵심 요점

데이터 세트의 질을 개선할 수 있는 방법은 다양합니다. 나쁜 데이터가 데이터 세트에 유입되지 않도록 할 수도 있고, 이미 수집한 데이터의 질을 확인할 수도 있습니다.

모든 방법을 사용하거나 내 프로젝트에 적합한 일부만 선택할 수도 있습니다. 어떤 방법을 택하든 나쁜 데이터가 조사에 영향을 미치지 않도록 해 자신 있는 의사 결정을 내릴 수 있어야 합니다.


설문조사 시리즈의 다른 글도 확인해 보세요.


Will Mellor, GLG Director of Surveys 

Will Mellor는 뛰어난 프로젝트 관리자로 구성된 팀을 이끌며 북미 전역의 금융회사를 대상으로 서비스를 제공하고 있습니다. 그의 팀은 초안에서부터 최종 결과물에 이르기까지 설문조사를 처음부터 끝까지 관리합니다. Will은 설문조사 설계 및 리서치 뿐만 아니라 GLG 자문위원과 소비자 집단 관련 전문가이기도 합니다. GLG 입사 전에는 경제 컨설팅 그룹의 부사장을 역임하며 공공과 민간 부문의 고객사를 대상으로 경제 영향 모델을 설계하기도 했습니다. 국제경영 및 금융 학사 학위와 응용 경제학 석사 학위를 보유하고 있습니다.

문의하기

연락처를 남겨주시면 GLG에서 곧 연락드리겠습니다.

GLG로 연락주셔서 감사합니다. 최대한 빠른 시일내로 고객님 수요에 대한 답변 드리겠습니다 .