Data Science (2016 Fall)

“Student-teacher relationships are based on trust. Acts, which violate this trust, undermine the educational process. Your classmates and the instructor will not tolerate violations of academic integrity”

1. Course Schedule & Lecture Notes

  • Sept. 06 – 과목 소개 및 anaconda(Python)+jupyter(ipython)+Spark 코딩 환경 구축

    • 본 수업에서 활용할 프로그래밍 환경

      • 0) JDK (Java Development Kit) 설치 확인
      • 1) anaconda-2.7 설치
      • 2) spark-2.0.0 설치

        • spark 환경 설정

          • export SPARK_HOME=”/Users/[Your Home]/spark-2.0.0-bin-hadoop2.7″

          • export PYTHONPATH=”$SPARK_HOME/python/lib/py4j-0.10.1-src.zip”

          • export PATH=”$SPARK_HOME/bin:$PATH”

      • 3) findspark 모듈 설치

        • pip install findspark
      • 4) tensorflow 라이브러리 설치

        • Terminal에서 Anaconda Navigator 실행

          • anaconda-navigator
          • Enviroments -> Install된 모듈 중에서 tensorflow 찾기!
        • 대부분의 경우 없을 것이며 Terminal 에서 다음과 같이 설치

          • conda install -c conda-forge tensorflow
      • 5) jupyter notebook 실행

        • 적절한 작업 디렉토리 설정
        • jupyter notebook
      • 6) 다음 테스트 프로그램 수행이 되면 환경 구성 완료

      • 7) 숙제 제출 방법

        • jupyter notebook 환경에서 각 숙제별로 ipynb 파일 생성
        • ipynb 파일 내에 코드를 작성하고 작성한 코드 설명시에 Markdown 문법으로 입력해야 함
        • 생성한 ipynb 파일에 대해 자신만의 방법을 사용하여 온라인상 URL을 생성
          • 예 1. Github 사이트로 업로드 후 URL 얻기
          • 예 2. Drobbox 폴더로 업로드 후 URL 얻기
        • 다음 사이트에 해당 URL을 입력
          • http://nbviewer.jupyter.org
          • 위 사이트에서 보여지는 자신의 숙제를 확인하고 해당 nbviewer URL을 교수 이메일로 보냄
            • 숙제 URL 예: http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/t9nmklgjkp7w4ok/kmeans.ipynb
      • 파이썬 학습

      • 첫번째 숙제

        • Pandas – 10 minutes tutorial 에 기술된 파이썬 코딩을 본인이 구축한 Anaconda 환경에서 jupyter notebook 에 옮겨 적으며 학습
        • ipynb 파일 생성 후 –> 클라우드에 올려 URL을 만들고 –> nbviewer를 통해 다시 URL을 재생성 –> nbviewer URL을 이메일로 제출
        • Email: yhhan@koreatech.ac.kr
        • Due Date: 2016년 9월 13일 수업 전까지

  • Sept. 20 – Supervised vs. Unsupervised Learning, Predictive Model, Data Handling and EDA (Exploratory data analysis)

  • Oct. 04 – Practice – Decision Tree and Random Forest

  • Oct. 18- Logistic Regression

    • Lecture Note (ipython notebook)
    • Assignment – Due Date: 10월 30일 23시 59분
      • 제출 방법: ipython notebook 에서 작업 이후 산출된 ipynb 파일을 github 등에 올리고 해당 URL을 메일로 보냄

  • Oct. 25- [휴강]

  • Nov. 08 – Neural Network (Back Propagation) II

  • Dec. 06- [기말고사]

2. Course Information

3. Logistics

  • Attendance – One class absence will result in the deduction of two points out of 100 points. Three absences will not result in ten points deduction, but “failure” (i.e., grade ‘F’) in this course.
  • Exam – There will be the final exam for the evaluation of the knowledge learned from the class.
  • Book Report – Students should read one of books listed in the references, and submit a book report.
  • Presentation – Much evaluation mark will be counted.

4. Evaluation

  • Attendance (10%)
  • Book Report (20%)
  • Presentation (20%)
  • Final Examination (50%)