Data Analysis Project

[DACON] 첫 데이터 컴피티션 후기

jonny_is_doing 2021. 2. 9. 15:10

갑작스럽게 시작한 데이터 컴피티션. 원래는 공모전을 시작하려고 했지만 그당시에 마땅한 공모전이 없어서 찾아보던 중 DACON이라는 좋은 컴피티션 사이트가 있어서 시작하게 되었다. 주제는 시스템품질 변화로 인한 사용자불편 예지 AI 경진대회. LG에서 주관하는 대회였다.

 

1. 시작

막상 데이터를 받아보니 데이터에 대한 이해가 힘들었다. 주최측에서는 보안상의 이유로 데이터에 대한 자세한 설명은 공개하지 않았다. 그래서 처음에 데이터에 대한 이해가 필요했다. 같이 진행한 친구와 막무가내로 데이터를 전처리하기 시작했다. 아무런 기준도 없었고 정해진 진행과정도 없었다. 그래서 처음부터 다시 하는 작업을 두 세차례 반복했다. 기간이 2주밖에 주어지지않아서 많은 것을 할 수 없다는 것은 알고 있었지만 프로세스 자체가 머릿속에 잡혀있지 않았다.

 

2. 여러가지 시도

학습데이터와 테스트데이터를 합쳐서 전처리를 하기도 하고 따로 하기도 했다. 결측값제거나 데이터타입 변환, 파생변수 생성등 여러 시도를 해보았다. 가장 한계를 느낀 부분은 절대적인 코딩실력이었다. 기본적인 코드조차도 구글링을 해야만 넘어갈 수 있었고 작은 산을 넘으면 또 다른 산이 기다리고 있었다. 그럴 때 마다 구글링을 하니까 진도가 더뎠고 작은 작업을 하는 데 많은 시간이 소요되었다.

 

3. EDA의 중요성

데이터가 내게 주어졌을 때 기본적으로 파악해야하는 부분들이 있었다. 하지만 이를 가볍게 여기고 모델링에 끼워 맞추려고 만 했던것 같다. 기초적인 통계수치와 데이터의 경향들을 파악하는 것이 먼저였다. 이에 대한 기본적인 지식은 전무했고 따라서 전처리에 상당히 많은 시간과 에너지를 쏟았다.

 

4. 모델링

사실 모델링은 제대로 만져보지도 못했다. 데이터를 정리하는 데에 급급해서 모델링은 기본적으로 주최측에서 제공하는 모델과 파라미터를 그대로 사용했다. 누군가가 말했다. Trash in Trash out. 데이터가 쓰레기면 모델이 아무리 좋아도 결과는 쓰레기일 것이다. 전처리는 그만큼 중요하고 없어서는 안될 요소이다.

 

5. 앞으로의 계획과 방향

이번 컴피티션에서 진행한 데이터를 가지고 EDA부터 제대로 해 볼 생각이다. 어차피 모델을 다룰 단계가 아니기 때문에 많은 전처리를 시도하되 정확한 프로세스와 목표를 갖고 진행할 예정이다. 그 전에 타이타닉 데이터로 EDA에 대한 기본적인 방향을 먼저 공부할 예정이다.