Data Science (2018 SPRING)
“Student-teacher relationships are based on trust. Acts, which violate this trust, undermine the educational process. Your classmates and the instructor will not tolerate violations of academic integrity”
1. Course Schedule & Lecture Notes
- March 07 – Course Introduction and Data Science 101
- Data Science 101
- Supervised vs. Unsupervised Learning, Predictive Model, Data Handling and EDA (Exploratory data analysis)
- Laboratory
- Book Laboratory
- March 14 – Supervised Learning – I
- K-Nearest Neighbors (kNN)
- Laboratory
- Book Laboratory
2. Course Information
-
Anaconda (Python) + Jupyter 코딩 환경 구축
-
본 수업에서 활용할 프로그래밍 환경
-
Term-Project 제출 방법
- 1) https://github.com/bluebibi/data_science_2018 –> Fork하여 본인의 Giuhub로 Repository 가져오기
- 2) Git (or SourceTree)를 사용하여 로컬 컴퓨터에 Clone 하기
- 3) 각 소챕터별로 jupyter notebook 활용하여 코드 작성
- 4) 각 소챕터별로 생성한 ipynb 파일을 Commit & Push (Github 내 적절한 폴더로 업로드) 후 URL 얻기
- 5) 다음 사이트에 해당 URL을 입력
-
파이썬 학습
-
Professor: Youn-Hee Han (Rm. B303, Tel: 560-1486, yhhan@koreatech.ac.kr)
-
Classes: Wednesday (10:00 – 12:50)
-
Lecture Room: 4공학관 4층 세미나실
-
Lecture Materials
-
Github Repository
-
Prerequisites
- Programming background and experience with Python required.
-
References
- 포스터 프로보스트, 톰 포셋 (강권학 옮김), 비즈니스를 위한 데이터 과학 빅데이터를 바라보는 데이터 마이닝과 분석적 사고, 한빛미디어, 2014년 7월
- 사토 히로유키 외 (정인식 옮김), 데이터 과학자, 무엇을 배울 것인가 : 빅 데이터 시대의 데이터 과학자 양성 독본, 제이펍, 2014년 6월
- 니시우치 히로무 (신현호 옮김), 빅데이터를 지배하는 통계의 힘: 통계학이 최강의 학문이다, 비전코리아, 2013년 7월
- 니시우치 히로무 (신현호 옮김), 빅데이터를 지배하는 통계의 힘: 실무활용 편, 비전코리아, 2015년 8월
- Lei Tang and Huan Liu, Community Detection and Mining in Social Media, Synthesis Lectures on Data Mining and Knowledge Discovery, Vol. 2, No. 1, Pages 1-137, 2010.
- Maksim Tsvetovat and Alexander Kouznetsov, Social Network Analysis for Startups: Finding connections on the social web, O’Reilly Media, October 7, 2011.
- Matthew A. Russell, Mining the Social Web: Analyzing Data from Facebook, Twitter, LinkedIn, and Other Social Media Sites, O’Reilly Media, February 8, 2011.
- Choosing the right estimator for machine learning
- SINAN OZDEMIR’s Python for Data Science
- Revisiting Numerai
3. Logistics
- Attendance – One class absence will result in the deduction of two points out of 100 points. Three absences will not result in ten points deduction, but “failure” (i.e., grade ‘F’) in this course.
- Exam – There will be the final exam for the evaluation of the knowledge learned from the class.
- Term Project – Much evaluation mark will be counted.
4. Evaluation
- Attendance (10%)
- Term Project (40%)
- Final Examination (60%)