Project/국토교통 온라인 해커톤 2020

    DB에 다양한 파일형식 로드하기 feat. dat 파일

    다양한 데이터 형식 데이터 분석 공부를 시작한 뒤 내가 줄곧 다뤘던 파일 .csv 형식이다. 하지만 세상에는 다양한 파일 형식이 존제하고, 이를 간과했던 나는 대회 중 .dat 형식의 파일을 처음 접해 난관을 겪었다. dat 파일을 오라클에 업로드 하기 위해서 Oracle Developer에서 제공하는 import 기능을 사용하려 했으나 실패했다. 그래서 방법을 찾던 중 SQL*Loader를 사용하는 업로드 방식에 대해 알게 됬다. 과정 1. Oracle Instant client를 설치한다. - Oracle Instant client 설치 시 자동으로, SQL*Plus와 SQL*Loader가 설치된다. 2. 데이터를 임포트할 계정에 테이블 스키마를 생성한다. - .dat파일의 레코드가 각 행에 입력될 ..

    R로 Oracle DB에 연동 후 분석하기

    R로 Oracle DB에 연동하여 분석하기 Jupyter notebook에서 R커널을 사용, Oracle DB에 접속하기 위해 RJDBC,RJava Library를 사용했다. R에서 제공하는 라이브러리로 데이터 전처리를 할 수 있으나, 데이터 양이 클수록 쿼리문을 통해 데이터 전처리 작업을 하는것이 훨씬 효율적이다. #모듈 로드 library(rJava) library(DBI) library(RJDBC) library(ggplot2) library(dplyr) #오라클 DB 접속을 위한 conn 생성 drv

    Code Book(데이터 정의서) 제작과 중요성

    Code Book이란? 코드 북을 검색해보면 '코딩 작업을 할 때의 안내서로서 코드의 관리 및 정보 처리 시스템의 효율성을 위하여 필요한 안내서의 일종' 이라고 나온다. 분석시 코드북은 수집한 데이터에 대한 데이터 정의서와 같다. 데이터 정의서가 잘 정리되어 있어야지 모델링 작업 혹은 분석시 필요한 데이터가 무엇인지 보다 더 직관적이고 확실히 확인할 수 있다. ​ 코드북에 들어가는 정보는 때에 따라 다르지만 이정도가 적당하다고 생각한다. ​ 1. 테이블 이름 2. 변수명/설명 3. 데이터 타입 4. Null 값 유무 5. 코드값 여부 6. 코드 테이블 7. 테이블 차원 8. 비고 ​ 데이터 정의서 활용법 이번 해커톤을 계획하면서 내가 처음 한일이 코드북을 제작한 것이다. 팀원도 안 모인 상태에서 조금이나..