Big Data Analysis

1. Research Theme

  • Scenario-based Movie Analysis
  • IoT Data Analysis
  • Hadoop/Spark-based Analsysis
  • Major Spark-related Papers
    • Spark: Cluster Computing with Working Sets, Matei Zaharia, Mosharaf Chowdhury, Michael J. Franklin, Scott Shenker, Ion Stoica. USENIX HotCloud (2010).
    • Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing, Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, Ankur Dave, Justin Ma, Murphy McCauley, Michael J. Franklin, Scott Shenker, Ion Stoica. NSDI (2012)
    • Spark SQL: Relational Data Processing in Spark, Michael Armbrust, Reynold S. Xin, Cheng Lian, Yin Huai, Davies Liu, Joseph K. Bradley, Xiangrui Meng, Tomer Kaftan, Michael J. Franklin, Ali Ghodsi, Matei Zaharia. SIGMOD 2015. June 2015.

2. Machine Learning

3. Python for Data Analysis

4. 실전 예제로 살펴보는 집단지성 프로그래밍

  • 교재: 실전 예제로 살펴보는 집단지성 프로그래밍 (인사이트 출판사) 교재 링크
  • 일시: 2015년 1월 5일 화요일 (첫세미나) ~ 2016년 3월 3일
  • 대상: LINK랩 대학원생, 4학년, 3학년 (희망자)
  • 교재 및 세미나 의도
    • 데이터를 다루고, 그 데이터에서 중요한 정보를 취득하는 작업이 각광받는 요즘 반드시 익혀야 할 기술들이라 생각함
    • 신입 대학원생들의 연구 주제와 연광성이 높음
    • 특히 현재 3학년들이 추진하는 로봇 기사 작성과도 연관성이 매우 높음
  • 교재 목차 및 세미나 일정
    • 1월 5일: 1장. 집단지성에 대한 이해 세미나 자료
    • 1월 12일: 2장. 사용자 교류 정보를 통한 학습
    • 1월 19일: 3장. 태그로부터의 지능 정보 추출
    • 1월 26일: 4장. 콘텐츠에서 지능 정보 추출하기
    • 2월 2일: 5장. 블로그 검색
    • 2월 9일: (구정)
    • 2월 16일: 6장. 지능형 웹 크롤링
    • 2월 23일: 7장. 데이터 마이닝 : 프로세스, 툴킷, 표준
    • 3월 3일: 8장. 텍스트 분석 툴킷 구축하기
    • 9장 클러스터링을 통한 패턴 추출
    • 10장 예측 시스템 만들기
    • 11장 지능형 검색
    • 12장 추천 엔진 만들기

5. Data Science with Command-line Tools

6. Analysis on Scholarly Resource

7. Robot Journalism

  • 로봇 기사 작성 5 단계 참고 기사

    • 1) 첫 번째는 데이터를 수집, 분석하는 단계이다. 로봇 저널리즘은 주로 표준화된 데이터가 풍부한 영역에서 활용된다. 예를 들면, 스포츠나 날씨, 증권 분야가 대표적이다. 표준화된 데이터를 얻기가 쉽고 그 형태도 비교적 깨끗한 것이 특징이다.
    • 2) 두 번째는 데이터에서 가치 있는 뉴스거리를 찾아내는 과정이다. 여기에는 통계적 방법론이 개입된다. 예를 들어 스포츠 뉴스에서 가장 의미 있는 정보는 통계적 일탈 지표를 먼저 확인하는 것이다. 최소치나 최고치 혹은 전 경기 대비 큰 변화를 보인 변수를 알고리즘은 계산해내야 한다. LA 다저스 투수 류현진 선수의 볼넷이 전 경기 대비 100% 증가했다는 데이터가 수집됐다면 뉴스 가치를 지닌 데이터로 분류하게 된다.
    • 3) 세 번째는 어떤 각도로 기사를 작성할지 기사의 관점을 확정하는 단계다. 일반적으로 기자들이 제목을 뽑거나 기사의 주제를 확정하는 과정에 해당하는데, 이 또한 수집된 데이터의 분석을 통해 해결한다. LA 다저스가 슬럼프에 빠졌다거나 홈 경기 승률이 오락가락한다거나 하는 시각을 알고리즘이 데이터의 비교 분석을 통해 추출해낸다. 닉 디아코플로스 연구원은 “단일 기사에 대한 관점은 중요도에 따라 1~10까지 분류가 된다”고 설명했다.
    • 4) 네 번째는 최종 확정된 시각에 맞게 세부 기사를 배열하는 단계다. LA 다저스가 슬럼프에 빠졌다는 주제가 확정됐다면 그에 맞춰 근거가 되는 선수의 데이터를 제시하고 연결시킨다. 데이터만 풍부하다면 이 단계에서 외부 데이터를 더 끌어올 수 있고, 인용구도 만들어낼 수 있다고 한다. 데이터를 풍성하게 결합하는 프로세스가 진행되는 단계라고 요약할 수 있다.
    • 5) 마지막으로 자연어로 기사를 제작하는 단계이다. 닉 디아카풀로스 교수는 전체 과정 중에 가장 덜 복잡한 단계라고 언급했다. 확정된 관점, 연결된 데이터로 영어 문장을 구성하는데 기사 관점과 핵심 요소에 따라 반복적으로 재작성된다. 이렇게 제작된 영어 문장들은 서로 이어붙이기가 자동으로 진행되면서 완성된 하나의 기사로 탄생하게 되는 것이다.
  • 프로젝트 산출 자료 * 2015-11-18: 프로토타입과_URL분석 * 2015-10-28: JSoup_야구스코어_출력하기.pptx * 2015-10-28: JSoup_야구스코어_콘솔출력.java * 2015-10-26: JSoup API DOC * 2015-10-18: JSoup를 이용한 HTML 파싱 참고2 * 2015-10-18: JSoup를 이용한 HTML 파싱 참고1 * 2015-09-23: 졸업작품 주제선정-Robot_Journalism.pptx

8. Related Resources

답글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다.

To create code blocks or other preformatted text, indent by four spaces:

    This will be displayed in a monospaced font. The first four 
    spaces will be stripped off, but all other whitespace
    will be preserved.
    
    Markdown is turned off in code blocks:
     [This is not a link](http://example.com)

To create not a block, but an inline code span, use backticks:

Here is some inline `code`.

For more help see http://daringfireball.net/projects/markdown/syntax