Code Book이란?
코드 북을 검색해보면 '코딩 작업을 할 때의 안내서로서 코드의 관리 및 정보 처리 시스템의 효율성을 위하여 필요한 안내서의 일종' 이라고 나온다. 분석시 코드북은 수집한 데이터에 대한 데이터 정의서와 같다. 데이터 정의서가 잘 정리되어 있어야지 모델링 작업 혹은 분석시 필요한 데이터가 무엇인지 보다 더 직관적이고 확실히 확인할 수 있다.
코드북에 들어가는 정보는 때에 따라 다르지만 이정도가 적당하다고 생각한다.
1. 테이블 이름
2. 변수명/설명
3. 데이터 타입
4. Null 값 유무
5. 코드값 여부
6. 코드 테이블
7. 테이블 차원
8. 비고
데이터 정의서 활용법
이번 해커톤을 계획하면서 내가 처음 한일이 코드북을 제작한 것이다. 팀원도 안 모인 상태에서 조금이나마 같이 할 친구들을 잘 설득해보자 미리 코드북을 만든 후, 들이미는 식으로 함께 참가할 것을 강요(?) 했다.
분석 주제 선정 후 데이터 모델링을 할때 부터 코드북을 프린트하여 벽에 붙여두었다. 100가지가 넘는 변수명을 모두 기억할 수 없기도 하며 이렇게 한눈에 보여야지 데이터들의 관계를 확인할 수 있기 때문이다. 이런식으로 한눈에 보는것 만으로도 새로운 인사이트를 충분히 도출할 수 있다.
제작한 코드북
이번에 활용할 수 있었던 데이터는,
i. 한국도로공사 DSRC 데이터(85.67 GB)
ii. 한국철도공사 여객·광역 일별·역별 승하차 데이터(67.88 MB, 2.63 MB)
iii. 한국교통안전공단 교통카드 데이터(58.87 GB)
iv. 한국교통연구원 차량 모빌리티 분석맵-노드,링크(82.20 MB, 24.85 MB)
v. KT 유동인구 데이터(314.64 MB)
vi. DS4C팀 COVID-19 데이터(360.00 KB)
이다.
코드북을 만든다고 해서 모든 데이터를 확인할 필요는 없다. 드물긴 하지만 어떤 데이터는 데이터 정의서와 함께 오는 경우도 있고, 없는 경우에는 어쩔 수 없이 파일을 열어 기초 탐색을 진행해야한다. 각 데이터마다 가장 효율적인 방법이 있기 때문에 이건 나중에 정리해서 올리겠다.
'Project > 국토교통 온라인 해커톤 2020' 카테고리의 다른 글
DB에 다양한 파일형식 로드하기 feat. dat 파일 (0) | 2020.10.05 |
---|---|
R로 Oracle DB에 연동 후 분석하기 (0) | 2020.10.05 |