Code Book(데이터 정의서) 제작과 중요성
Project/국토교통 온라인 해커톤 2020

Code Book(데이터 정의서) 제작과 중요성

Code Book이란?

코드 북을 검색해보면 '코딩 작업을 할 때의 안내서로서 코드의 관리 및 정보 처리 시스템의 효율성을 위하여 필요한 안내서의 일종' 이라고 나온다. 분석시 코드북은 수집한 데이터에 대한 데이터 정의서와 같다. 데이터 정의서가 잘 정리되어 있어야지 모델링 작업 혹은 분석시 필요한 데이터가 무엇인지 보다 더 직관적이고 확실히 확인할 수 있다.

코드북에 들어가는 정보는 때에 따라 다르지만 이정도가 적당하다고 생각한다.

1. 테이블 이름

2. 변수명/설명

3. 데이터 타입

4. Null 값 유무

5. 코드값 여부

6. 코드 테이블

7. 테이블 차원

8. 비고

데이터 정의서 활용법

이번 해커톤을 계획하면서 내가 처음 한일이 코드북을 제작한 것이다. 팀원도 안 모인 상태에서 조금이나마 같이 할 친구들을 잘 설득해보자 미리 코드북을 만든 후, 들이미는 식으로 함께 참가할 것을 강요(?) 했다.

 

 

분석 주제 선정 후 데이터 모델링을 할때 부터 코드북을 프린트하여 벽에 붙여두었다. 100가지가 넘는 변수명을 모두 기억할 수 없기도 하며 이렇게 한눈에 보여야지 데이터들의 관계를 확인할 수 있기 때문이다. 이런식으로 한눈에 보는것 만으로도 새로운 인사이트를 충분히 도출할 수 있다.

 

제작한 코드북

이번에 활용할 수 있었던 데이터는,

i. 한국도로공사 DSRC 데이터(85.67 GB)

ii. 한국철도공사 여객·광역 일별·역별 승하차 데이터(67.88 MB, 2.63 MB)

iii. 한국교통안전공단 교통카드 데이터(58.87 GB)

iv. 한국교통연구원 차량 모빌리티 분석맵-노드,링크(82.20 MB, 24.85 MB)

v. KT 유동인구 데이터(314.64 MB)

vi. DS4C팀 COVID-19 데이터(360.00 KB)

이다.

코드북을 만든다고 해서 모든 데이터를 확인할 필요는 없다. 드물긴 하지만 어떤 데이터는 데이터 정의서와 함께 오는 경우도 있고, 없는 경우에는 어쩔 수 없이 파일을 열어 기초 탐색을 진행해야한다. 각 데이터마다 가장 효율적인 방법이 있기 때문에 이건 나중에 정리해서 올리겠다.

 

제작한 코드북 일부