데이터 청년 캠퍼스 부산대학교

데이터 청년 캠퍼스 부산대학교

Spark를 활용한 빅데이터 분석 과정

과정개요

  • 운영대학

    부산대학교

  • 과정 개요 및 특징

    · R, 파이썬 등 다양한 빅데이터 분석도구 활용
    · 통계학 기반의 빅데이터 처리 프로세스 학습
    · 머신러닝, 딥러닝 기법을 적용한 빅데이터 분석 실무 교육

  • 교육기간

    이론실습 : 2020. 7. 6 ~ 8. 14 / 09:00 ~ 17:00
    프로젝트 : 2020. 8. 17 ~ 9. 4  / 09:00 ~ 17:00
    프로젝트 보완 및 제출(비대면) : 2020. 9. 7 ~ 9. 18

  • 교육인원

    66 명

  • 준비사항

    · 노트북(최소사양 : CPU i5, RAM 8G 이상) 지참 필수

  • 우대사항

    · 관련 전공자 우대(전기컴퓨터공학부, 통계학과 등)
    · 성적우수자 및 학과 지도교수 추천을 받은 학생
    · IT 또는 SW 관련 국가, 국제 공인자격증 소지자
    · 빅데이터관련 기업 추천 채용 예정자
    · 빅데이터, 프로그래밍 관련 동아리 활동 경험자, 대회 수상자

상세 커리큘럼

구분 교과목명 주요 내용 시간
온라인교육 -
교육 내용  Python 활용하기 ㅇPython 프로그래밍 기초
ㅇ자료구조 , 입출력
ㅇ내장 함수 및 외장 함수
ㅇ객체 지향 프로그램
ㅇData 전처리 및 정규식
ㅇ데이터 처리 및 통계 함수
35H
Django웹 어플리케이션 프로그래밍 ㅇ장고 프레임웍을 이용한 웹 서비스 구축
ㅇ웹 아키텍처를 이용한 서비스 구성
ㅇ데이터베이스 구성 및 SQL 구축
ㅇ분석 서비스 연동 및 서비스 구축
35H
데이터베이스 ㅇ데이터 베이스 설정, 계정의 생성, 권한 부여
ㅇ테이블 스페이스 할당, 계정 잠금과 해제
ㅇData Source Explorer 접속 Client 설정, JDBC 드라이브 설정
ㅇSELECT, INSERT, DELETE, UPDATE, WHERE 조건, 정렬, GROUP BY문
ㅇ단일행 함수, 그룹화 함수, 통계 데이터 산출 실습
ㅇ데이터베이스 설계, 정규화와 JOIN, 역 정규화의 실습
35H
빅데이터수집 Hadoop와 Spark를 활용한 데이터 수집 ㅇ맵리듀스 이해 : HDFS로 데이터 로딩, 맵 동작 이해하기, 셔플링과 정렬, 리듀스 동작 이해하기
ㅇ파일을 Hive 테이블로 가져오기 ㅇSpark를 사용하여 데이터를 Hive로 가져오기
35H
빅데이터분석 Spark를 통한 실시간 데이터분석 ㅇSpark를 구성하는 컴포넌트 실습
ㅇRDD의 개념 학습
ㅇSpark 애플리케이션 작성
ㅇ월별 데이터 분석을 통한 여행 성수기 예측하기, 주단위 분석을 통한 비수기 요일 구간 예측하기, 업체별 데이터 분석을 통한 낙후 장비 예측하기
ㅇ실시간 대시보드 구현
35H
머신러닝 및 시각화 MLlib를이용한머신러닝 이해하기 ㅇ분류 : 데이터 로딩, 알고리즘 학습, 모델 평가 및 예측 오류 메트릭스, 혼합 메트릭스, 분류 알고리즘 선택
ㅇ회귀분석 : 회귀 분석 모델 개발 및 평가, 보편적인 문제의 해결책
ㅇ클러스터링 : 클러스터링 알고리즘, 모델의 평가
ㅇD3.js를 이용하여 빅데이터를 웹에 시각화 하기
35H
프로젝트 주제선정 및 요구사항분석 ㅇ주제 선정
ㅇ팀원별 업무 분장
ㅇ개발 일정 수립
30H
 프로젝트 화면 및 기능설계 ㅇ화면 설계
ㅇ기능 설계
30H
프로젝트 구현 및 테스트 ㅇ화면 구현
ㅇ기능 구현
ㅇ모듈별 테스트
 30H
 

교육장소

교육장부산대학교, 제6공학관 6309호/6409호