Data Analysis

프로덕트 문제 정의를 위한 데이터 분석하기

jonny_stepout 2025. 10. 23. 11:10

들어가며

  • 두루뭉술하고 구체화되지 않은 추측으로부터 문제를 정의하고, 니즈라고 판단하기 위해 데이터 분석을 진행하였습니다.
  • CS로 들어온 의견, 세일즈 과정에서 마주한 고객의 의견 등이 소수의 의견인지 다수의 의견인지 확인하기 위함입니다.
  • 저는 에듀테크 기업에서 영어 Speaking B2B 솔루션을 맡고 있는 PM 입니다.
  • 이번에 제가 궁금한 것은 다음과 같았습니다.
"학생들이 우리가 의도한대로 완전한 문장을 잘 발화할까?"

 

 

왜 이게 궁금한가?

  • '문장 만들어 말하기' 기능을 사용자들이 잘 사용하고 있는지 궁금했습니다. 문장 만들기 연습을 AI와 대화함으로써 사용자들이 단어 수준의 말하기가 아니라 문장 수준의 말하기를 하길 기대했습니다.
  • 하지만 CS, 세일즈 측에서는 문장 만들어 말하기 기능이 문장 단위가 아닌 단어 단위로 말하고 있는 것 같다고 공유 받았습니다.
  • 그래서 저는 정말 그럴까?, 정말 이 의견이 대부분의 사용자를 대변할 수 있을까? 라고 궁금증을 품었습니다.

 

어떻게 데이터를 수집할까?

먼저 데이터를 어떻게 수집하면 좋을지 고민했습니다.

현재 구현된 플로우 상에서는 사용자가 키워드만 발화해도 정답처리가 되는 구조였습니다. 그렇다면 정답 처리가된 데이터만 확인하여, 정답 발화 데이터 중 완전한 문장을 얼마나 자주 발화하는지 본다면 사용자의 발화 경향성을 파악할 수 있다고 판단하였습니다.

 

구체적으로 어떤 데이터를 수집하면 될까?

저는 먼저 SQL을 활용하여 아래와 같은 정보를 수집하였습니다.

  • 최근 9일 간,
  • 우리 솔루션이 적용된 서비스 모든 사용자 중,
  • 문장 만들어 말하기 기능에서,
  • 정답을 맞췄을 때의 발화 데이터에서,
  • 완전한 문장(주어 동사가 있는) 발화 비율과
  • 단어 또는 구 단위 발화 비율

데이터의 기간과 양은 저 혼자서 이 데이터를 목표한 만큼 파악할 수 있는 정도로 설정했습니다. 저 혼자서 1-2시간을 투자한다면 약 1000개의 데이터는 확인하는데 크게 무리는 없기 때문에 위와 같이 설정했습니다. (처음부터 제가 다 한 것은 아니고 1차로 GPT에게 데이터 분류 작업을 요청후 저는 결과 검토 위주로 진행했습니다.)

 

관측 목표를 어떻게 설정할까?

  • 데이터를 수집하고 이 데이터가 우리가 알고 싶은 정보로 해석하기 위해선 기준이 필요합니다. 
  • 즉, 일정 수준 이상 도달하면 OK, 그렇지 않으면 Fail 이런 식으로 판단 기준을 세워야 합니다.
  • 이를 통계적 관점에서 '가설 설정'이라고 합니다. 가설 설정에 대해서는 이 아티클에 자세히 나와있으니 참고 바랍니다!
  • 저는 다음과 같이 가설을 세웠습니다.
    • 귀무가설 : 완전한 문장의 비율이 70% 이상이면 학생이 완전한 문장 만들기를 잘 인지했다고 볼 수 있다.
    • 대립가설: 완전한 문장의 비율이 70% 미만이면 학생이 완전한 문장 만들기를 잘 인지했다고 볼 수 없다.

 

왜 70% 인가요?

  • 과반수 이상, 그리고 전체 고객의 경향성이라고 대변 할 수 있는 수치라고 판단하였습니다.
  • 정확한 Threshold를 설정하기 위해선 더 복잡한 통계적 방법을 적용할 수 있으나, 저는 정확한 통계를 내는 것 보다 문제를 정의하기 위한 기준을 마련하기 위함이라서 관계자들에게 편하게 설명할 수 있는 수치를 제가 스스로 설정하였습니다.

 

데이터 수집 결과

수집 결과 예시

위와 같은 형식으로 데이터를 수집 후, answer_type을 모두 분류하였고, 분류 결과는 다음과 같았습니다.

  • 완전한 문장: 599건 (59.9%)
  • 단어나 구 단위 발화: 401건 (40.1%)

 

어떻게 이 결과를 해석할 수 있나요?

  • 최근 9일간 1000개의 정답 발화 데이터 상으로는, 완전한 문장을 발화한 비율이 60%이며, 기준 수치인 70%를 넘지 않으므로 학생들은 완전한 문장 만들기를 잘 인지했다고 볼 수 없습니다.

 

문제를 가지고 개선 방향을 어떻게 설정할 수 있을까요?

따라서 문제는,

학생들이 완전한 문장 만들기가 학습 목표임을 인지하지 못한다 라고 정의할 수 있습니다.

 

그렇다면 개선 방향은 명확합니다.

학생들이 완전한 문장 만들기가 학습 목표임을 인지 시킨다.

 

더 구체적으로 목표를 설정하면 다음과 같이 설정할 수 있을 것입니다.

학생들의 완전한 문장 발화 비율을 80%까지 끌어올린다.

 

80% 라고 목표를 잡은 이유는 70%는 '타당하다' 정도이지 우리가 성과를 냈다 라는 수준은 아니라고 판단하였습니다. 물론 이 수치는 성과를 측정하는 과정에서 팀장님이나 주변 사람들과 함께 조율해야 합니다.

 

마무리 하며

이런 식으로 데이터를 통해 프로덕트 개선 방향을 설정하고 잘 개선되었는지 측정하는 기준까지 마련할 수 있습니다.

여기서 더 나아가, 우리의 이런 프로덕트 개선 지표가 매출 지표와 어떤 관계성을 갖는지도 함께 파악한다면 비즈니스 임팩트를 더 낼 수 있을 것입니다.