Back/Bigdata 5

Apache Hive & HiveQL

ref) HIVE https://datacookbook.kr/88 https://kadensungbincho.tistory.com/65 HIVE USE https://learn.microsoft.com/ko-kr/azure/hdinsight/hadoop/hdinsight-use-hive HIVE QL https://excelsior-cjh.tistory.com/42 https://rfriend.tistory.com/214 Hive Apache Hadoop용 데이터 웨어하우스 시스템 Hive를 사용하면 데이터의 요약, 쿼리 및 분석을 수행할 수 있습니다. Hive 쿼리는 SQL과 유사한 쿼리 언어인 HiveQL로 작성합니다. Hive를 사용하면 크게 구조가 없는 데이터에 구조를 투영할 수 있습니다. 구조를..

Back/Bigdata 2023.05.13

Spark -1 : 이론

ref) https://wikidocs.net/26513 목차 1. 아파치 스파크(apache spark) 2011년 버클리 대학의 AMPLab에서 개발, 2014년 5월 정식 출시 아파치 재단의 오픈소스 인메모리 기반의 대용량 데이터 고속 처리 엔진 범용 분산 클러스터 컴퓨팅 프레임워크 2. 특징 Speed : 인메모리(In-Memory) 기반의 빠른 처리 맵리듀스 작업처리에 비해 디스크는 10배, 메모리 작업은 100배 빠른 속도 맵리듀스는 작업의 중간 결과를 디스크에 쓰기 때문에 IO로 인하여 작업 속도에 제약이 생깁니다. 스파크는 메모리에 중간 결과를 메모리에 저장하여 반복 작업의 처리 효율이 높습니다. Ease of Use : 다양한 언어 지원(Java, Scala, Python, R, SQL)..

Back/Bigdata 2023.05.13