RDD (Resilient Distributed Dataset) Dataset 메모리나 디스크에 분산 저장된 변경 불가능한 데이터 객체들의 모음 Distributed RDD에 있는 데이터는 클러스터에 자동 분배 및 병렬 연산 수행 Resilient 클러스터의 한 노드가 실패하더라도 다른 노드가 작업처리(fail over) Immutable 수정 X, 수정하려면 새로운 RDD 생성해야 함 RDD Operation APIs Transformations(데이터 변형) map,filter, groupBy, join Actions(연산결과 리턴 or 저장) count, collect, save Lazy Execution 실제 Action이 Call될 때 작업이 수행됨 Caching 및 Persistence RAM..
Spark 2.4.0 기준으로 문서 작성하였으니 참고하시기 바랍니다 ^^ Apache Spark란? Apache Spark™ is a unified analytics engine for large-scale data processing. 특징 Speed DAG scheduler, query optimizer 등을 사용하여 빠른 데이터 처리 속도를 제공 In‑Memory 컴퓨팅 (물론 Disk기반도 가능) Hadoop보다 100배나 빠르다고 주장함 Ease of Use Java, Scala, Python, R, SQL 등의 언어를 사용하여 분산 처리 어플리케이션을 빠르게 만들 수 있음 Generality(범용성) Spark이 제공하는 SQL과 DataFrames, MLlib(머신러닝), GraphX, Sp..
Virtual Box를 활용한 Spark 실습 환경 구축 1. Virtual Box 설치 5.22 버전 사용 (최신버전은 6.0) https://www.virtualbox.org/wiki/Download_Old_Builds_5_2 2. 가상머신 생성 (Linux, RedHat64bit) CentOS7을 사용할 예정 VirtualBox 관리자 새로만들기에서 아래와 같이 설정 이름을 알아서 적절하게 ^^ 3. VirtualBox 네트워크 구성 NAT네트워크 추가 공유기와 유사한 환경 NAT네트워크(≒공유기)에 연결된 VM들이 하나의 네트워크상에서 동작 내부 VM들 간 통신 O, 외부 시스템에서는 직접 내부에 접근 X 설정(cmd+,) > 네트워크 > 추가 호스트 네트워크 추가 호스트(내PC)에서 VM에 접근..