Project

    DB에 다양한 파일형식 로드하기 feat. dat 파일

    다양한 데이터 형식 데이터 분석 공부를 시작한 뒤 내가 줄곧 다뤘던 파일 .csv 형식이다. 하지만 세상에는 다양한 파일 형식이 존제하고, 이를 간과했던 나는 대회 중 .dat 형식의 파일을 처음 접해 난관을 겪었다. dat 파일을 오라클에 업로드 하기 위해서 Oracle Developer에서 제공하는 import 기능을 사용하려 했으나 실패했다. 그래서 방법을 찾던 중 SQL*Loader를 사용하는 업로드 방식에 대해 알게 됬다. 과정 1. Oracle Instant client를 설치한다. - Oracle Instant client 설치 시 자동으로, SQL*Plus와 SQL*Loader가 설치된다. 2. 데이터를 임포트할 계정에 테이블 스키마를 생성한다. - .dat파일의 레코드가 각 행에 입력될 ..

    R로 Oracle DB에 연동 후 분석하기

    R로 Oracle DB에 연동하여 분석하기 Jupyter notebook에서 R커널을 사용, Oracle DB에 접속하기 위해 RJDBC,RJava Library를 사용했다. R에서 제공하는 라이브러리로 데이터 전처리를 할 수 있으나, 데이터 양이 클수록 쿼리문을 통해 데이터 전처리 작업을 하는것이 훨씬 효율적이다. #모듈 로드 library(rJava) library(DBI) library(RJDBC) library(ggplot2) library(dplyr) #오라클 DB 접속을 위한 conn 생성 drv

    Code Book(데이터 정의서) 제작과 중요성

    Code Book이란? 코드 북을 검색해보면 '코딩 작업을 할 때의 안내서로서 코드의 관리 및 정보 처리 시스템의 효율성을 위하여 필요한 안내서의 일종' 이라고 나온다. 분석시 코드북은 수집한 데이터에 대한 데이터 정의서와 같다. 데이터 정의서가 잘 정리되어 있어야지 모델링 작업 혹은 분석시 필요한 데이터가 무엇인지 보다 더 직관적이고 확실히 확인할 수 있다. ​ 코드북에 들어가는 정보는 때에 따라 다르지만 이정도가 적당하다고 생각한다. ​ 1. 테이블 이름 2. 변수명/설명 3. 데이터 타입 4. Null 값 유무 5. 코드값 여부 6. 코드 테이블 7. 테이블 차원 8. 비고 ​ 데이터 정의서 활용법 이번 해커톤을 계획하면서 내가 처음 한일이 코드북을 제작한 것이다. 팀원도 안 모인 상태에서 조금이나..

    코로나 데이터 분석/시각화

    프로젝트 목표 1. 국내 코로나 데이터로 코로나 감염 환자들의 확산 추이를 지도에 나타내는것 2. 데이터를 통해 새로운 인사이트를 도출하여 제안하는것 데이터 수집 코로나 데이터는 DS4C 팀에서 KCDC에서 제공한 자료를 정리하여 배포한 데이터를 사용했습니다. https://www.kaggle.com/kimjihoo/coronavirusdataset 데이터 코드 북

    파이콘 2020. 나의 첫 파이콘(Pycon)

    파이콘(Pycon) 참석 파이콘은 파이썬 프로그래밍 언어 커뮤니티에서 주관하는 비영리 컨퍼런스입니다. 2014년을 시작으로 지금까지 총 7회의 파이콘이 열렸고, 올해는 코로나로 인해 처음으로 온라인 파이콘이 진행되었습니다. ​ 올해 파이콘의 슬로건은 "We are Pythonistas"이었습니다. 파이썬이라는 공통점 하나로 모이는 사람들이 파이썬에 대해서 나누고, 각 분야에서 파이썬이 어떻게 쓰여지고 있는지, 장단점은 무엇이 있는지에 대해 나눌 수 있었던 좋은 기회였습니다. ​ 다양한 강의 중 관심 분야로 집중해서 들은 강의는 아래입니다. ​ 1. Python을 사용하는 데이터 과학자를 위한 서버없는 WEb Assembly 기반 과핟 연산 환경 만들기 by. 신정규 2. 이 선 넘으면 침법이야, BEEP..