SQL on Hadoop (+Hive +Spark)
교육시간 09:30 ~17:30 [주말반] : 총4회수업[28시간]
교육일정 2016년 10월 15일 ~ 11월 05일 (수업일: 10/15 . 10/22 . 10/29 . 11/5)
교육비용 840,000원 교육문의 ☎ 02 . 539 . 8879



SQL-on-Hadoop이란 HDFS에 저장된 데이터에 대한 SQL 질의 처리를 제공하는 시스템을 의미합니다. 대부분의 SQL-on-Hadoop 시스템들은 기존 Hadoop 에서 제공하는MapReduce 아키텍처를 이용하지 않고, 새로운 분산 처리 모델과 프레임워크를 기반으로 구현되어 있습니다.

Apache Hive, Apache Tajo, Cloudera의 Impala, Facebook의 Presto, Pivotal HD의 HAWQ, Apache Drill, 이외도 수많은 SQL-on-Hadoop 엔진들이 앞다투어 출시되고 있습니다. 춘추전국시대라는 표현이 과하지 않을 정도로, 치열한 경쟁을 벌이고 있습니다. 

Fault Tolerance

모든 시스템은 언제든지 장애가 발생할 수 있습니다. 어플리케이션에 문제가 있을 수도 있고, CPU, 메모리, 디스크, 네트워크같은 시스템 리소스도 언제든지 문제가 발생할 수 있습니다.SQL-on-Hadoop에서 Fault Tolerance란 “질의 처리 중 발생하는 오류를 처리하여, 질의를 완료하는 기능"을 의미합니다. Long Time 질의 경우 수십분에서 수시간 이상이 소요됩니다. 

이러한 질의는 작은 단위의 task(태스크)로 나누어 처리를 하고, 오류의 범위를 해당 태스크로 한정한 후, 태스크를 재시작해야 합니다. 단, Fault Tolerance를 지원할 경우, 질의 처리 중간에 생성되는 데이터를 materialization해야 하는데, 디스크 부하를 유발할 수 있습니다. 결국 Fault Tolerance와 시스템의 Throughput (처리량)은 trade-off 관계 (상반관계)라고볼 수 있습니다.

Dynamic Scheduling

스케쥴링 기법에는 Fixed Scheduling (고정 스케쥴링)과 Dynamic Scheduling (다이나믹 스케쥴링)이 있습니다. 고정 스케쥴링의 경우, 작업을 시작할 때 클러스터 노드들에게 균등하게분할된 작업을 한번에 할당합니다. 하지만 다이나믹 스케쥴링은 각 노드에 노드가 한 번에 실행할 수 있는 태스크를 우선적으로 분배합니다. 그리고 노드가 할당 받은 태스크가 완료되면,다시 태스크를 할당합니다.

 

Long Time Query

Long Time 질의를 지원하는가? 지원하지 않는가? 입니다. SQL-on-Hadoop 시스템들의 벤치마크 테스트 결과를 보면, 수 밀리세컨드 혹은 수 초가 소요되는 질의들의 테스트 결과만 제시하는 경우가 많습니다. 이렇게 눈 깜짝할 사이에 끝날 수 있는 질의는 Short Time 질의를 의미하며, 이는 low latency를 지원한다고 말합니다. 하지만 Long Time 질의는 이와는 질의를 수행하는데 많은 시간이 소요되는 질의를 의미합니다. 적게는 수 분에서, 많게는 수 시간까지 소요 되는 경우를 말합니다.

 

Long Time 질의의 지원 여부는 처리하고자 하는 데이터 사이즈에도 영향을 받습니다. 데이터 처리를 빠르게 하는 방법 중 하나는 캐시나 메모리에 데이터를 로딩 하는 방법이 있습니다. 이때 원본 데이터의 사이즈가 메모리보다 크다면, 질의를 처리할 수 없거나, 다른 방법으로 질의를 실행해야 할 것입니다.   실제로 low latency를 지향하는 시스템들을 테스트해보면, low latency에 적합한 질의는 매우 빠르게 처리되지만, 특정 질의는 오류가 나거나, low latency 실행 시간과 극도로 차이가 나는 것을 쉽게 확인할 수 있습니다. 하지만 Long Time 질의는 수 TB에서 수 PB 이상의 원본 데이터를 지원한 수 있습니다. 그래서 데이터의 

사이즈가 폭발적으로 증가하여도, 시스템이 안정적으로 질의 처리를 지원해줍니다.


Low Latency

       컴퓨터의 Input과 output 사이의 과정에서 지연을 최소화 하는 것을 말합니다

 

 

주제 강의주요내용 시간
[Phase01]
  • 빅데이터 도입 전략 및 데이터 분석 기술 적용 사례
  • 빅데이터 활용 도입 전략
  • 빅데이터 플랫폼과 오픈소스 빅데이터 플랫폼 구현 기술의 이해

  • SQL 온 하둡 소개 및 특징
  • ⓐ스파크 구조 이해 및 소개
  • ⓑ하이브 구조 이해 및 소개

  • 가상 클러스터 구현 방법
7
[Phase02]
  • 하이브 SQL
  • ⓐSQL 소개
  • ⓑSQL 스크립트

  • SQL 활용 실습
  • ⓐ데이터 저장 및 가공
  • ⓑ저장 파티션 실습
  • ⓒSQL 함수
7
[Phase03]
  • 분산 저장 핵심 기술
  • ⓐ분산 저장 파일 시스템 구조 이해
  • ⓑ하둡 2.0 소개 및 이해

  • 하둡 2.0 클러스터 설치 및 이해
  • ⓐ하둡 2.0 클러스터 설치 실습
7
[Phase04]
  • SQL 온 하둡 실습1
  • ⓐ메타스토어 구성
  • ⓑ하이브 설치 및 설정
  • ⓒ스파크 설치 및 설정

  • SQL 온 하둡 실습2
  • ⓐ스파크 프로그램 실습
  • ⓑ스파크 SQL 활용 실습
  • ⓒ스파크 SQL를 활용한 데이터 전처리
7
신청자(필수)
생년월일(필수) 예)820506
수강형태(필수)
결재방법(필수)
교육일정선택(필수)
문의사항

개인정보 수집 및 이용

수집하는 개인정보의 항목

수집하는 목적/방법에 따라 수집하는 개인정보 항목은 다음과 같습니다.
- 기본 개인정보 정보
 신청자, 샌년월일, 연락처, 이메일, 회사명

- 마케팅/서비스 이용을 위한 정보
 신청자, 주민등록번호, 연락처, 이메일, 회사명

- 서비스 이용 중 발생되는 정보
 서비스 이용기록, 접속로그, 쿠키
 결재수단에 대한 기록여부(계좌), 결재기록

개인정보 수집 및 이용 목적

에이콘 아카데미는 수집한 개인정보를 다음의 목적을 위해 활용합니다.
- 서비스 제공에 관한 계약 이행 및 서비스 제공에 따른 요금정산 목적
학습진행, 컨텐츠 제공, 구매 및 요금 결제, 물품배송 또는 청구지 등 발송
- 회원 관리
회원제 서비스 이용에 따른 본인확인, 개인 식별, 불량회원의 부정 이용 방지와
비인가사용 방지, 가입 의사 확인, 연령확인, 불만처리 등 민원처리, 고지사항 전달
- 마케팅 및 광고에 활용
신규 서비스(제품) 개발 및 특화, 이벤트 등 광고성 정보 전달, 인구통계학적 특성에 따른
서비스 제공 및 광고 게재, 접속 빈도 파악 또는 회원의 서비스 이용에 대한 통계
- 고용보험 과정의 노동부 신고
회원이 신청한 과정이 고용보험 대상 과정인 경우 고용보험 환급을 이유로 노동부에 신고하게 됩니다.

개인 정보 보유 및 이용기간

원칙적으로, 개인정보 수집 및 이용목적이 달성된 후에는 해당 정보를 지체 없이 파기합니다.
단, 다음의 정보에 대해서는 아래의 이유로 명시한 기간 동안 보존합니다.

보존 항목 : 신청자, 주민등록번호, 연락처, 이메일, 회사명
보존 근거 : 고용보험 환급 적정성 심의
보존 기간 : 3년

그리고 관계법령의 규정에 의하여 보존할 필요가 있는 경우 회사는 아래와 같이 관계법령에서 정한 일정한 기간 동안 회원정보를 보관합니다.
1) 기타 법령에 따른 보유기간/관계법 안내
- 계약 또는 청약철회 등에 관한 기록 : 5년 (전자상거래 등에서의 소비자 보호에 관한 법률)
- 대금결제 및 재화 등의 공급에 관한 기록 : 5년 (전자상거래 등에서의 소비자 보호에 관한 법률)
- 소비자의 불만 또는 분쟁처리에 관한 기록 : 3년 (전자상거래 등에서의 소비자 보호에 관한 법률)
- 본인확인에 관한 기록 보존 이유 : 정보통신 이용촉진 및 정보보호 등에 관한 법률 보존 기간 : 6개월
- 방문에 관한 기록 보존 이유 : 통신 비밀 보호법 보존 기간 : 3개월

수강신청하기

Back to Top