Spark 소개 및 Cluster Mode 이해하기
Spark 2.4.0 기준으로 문서 작성하였으니 참고하시기 바랍니다 ^^ Apache Spark란? Apache Spark™ is a unified analytics engine for large-scale data processing. 특징 Speed DAG scheduler, query optimizer 등을 사용하여 빠른 데이터 처리 속도를 제공 In‑Memory 컴퓨팅 (물론 Disk기반도 가능) Hadoop보다 100배나 빠르다고 주장함 Ease of Use Java, Scala, Python, R, SQL 등의 언어를 사용하여 분산 처리 어플리케이션을 빠르게 만들 수 있음 Generality(범용성) Spark이 제공하는 SQL과 DataFrames, MLlib(머신러닝), GraphX, Sp..
Spark
2019. 3. 25.
공지사항
최근에 올라온 글
최근에 달린 댓글