RDD (Resilient Distributed Dataset) Dataset 메모리나 디스크에 분산 저장된 변경 불가능한 데이터 객체들의 모음 Distributed RDD에 있는 데이터는 클러스터에 자동 분배 및 병렬 연산 수행 Resilient 클러스터의 한 노드가 실패하더라도 다른 노드가 작업처리(fail over) Immutable 수정 X, 수정하려면 새로운 RDD 생성해야 함 RDD Operation APIs Transformations(데이터 변형) map,filter, groupBy, join Actions(연산결과 리턴 or 저장) count, collect, save Lazy Execution 실제 Action이 Call될 때 작업이 수행됨 Caching 및 Persistence RAM..
Vagrant 란?Vagrant is a tool for building and managing virtual machine environments in a single workflow. With an easy-to-use workflow and focus on automation, Vagrant lowers development environment setup time, increases production parity, and makes the "works on my machine" excuse a relic of the past.단일 workflow에서 가상머신 환경들을 만들고 관리하는 Tool사용하기 쉬운 workflow와 자동화에 초점을 맞췄고, 개발 환경 셋팅 시간을 줄여줌Vagrant 설치아..
Vagrant를 활용하여 Cloudera Manager 설치하기 를 참고해서 설치하는 것을 권장 드립니다 ^^ Cloudera Manager란? Automated deployment and configuration. The fastest way to get up and running with Hadoop and Cloudera Enterprise. Hadoop 및 Hadoop Eco System을 직접 설치할 수도 있지만 Cluster상의 수많은 머신에 일일이 설치하고 환경 구성을 하려면 매우 복잡한 일이 될 수 있기 때문에 이런 작업을 편하게 해주는 도구라고 생각하면 될 듯 하다. Cluster환경에서 CDH 설치 (with. Virtual Box) Cloudera Manager를 설치하는 방법은 크게..
Hadoop이란? The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to det..
오래 걸리는 python 프로그램을 병렬로 처리하는 방법에 대해 정리하였습니다. Celery 란? Celery는 분산 메세지 전달에 기반한 비동기 작업 큐 별도로 실행 중인 Worker Process가 Broker로부터 Message를 전달 받아 작업을 대신 수행해 주는 라이브러리입니다. Celery를 활용한 병렬 작업 처리 Celery 4.0 이상 버전은 Windows 환경을 공식 지원하지 않기 때문에 실습은 CentOS 7에서 진행하겠습니다. CentOS 환경 구성은 Virtual Box를 활용한 Spark 실습 환경 구축 Post를 참고하시기 바랍니다~ Python 설치 # 필요한 패키지 설치 yum update yum install yum-utils yum groupinstall developme..
Spark 2.4.0 기준으로 문서 작성하였으니 참고하시기 바랍니다 ^^ Apache Spark란? Apache Spark™ is a unified analytics engine for large-scale data processing. 특징 Speed DAG scheduler, query optimizer 등을 사용하여 빠른 데이터 처리 속도를 제공 In‑Memory 컴퓨팅 (물론 Disk기반도 가능) Hadoop보다 100배나 빠르다고 주장함 Ease of Use Java, Scala, Python, R, SQL 등의 언어를 사용하여 분산 처리 어플리케이션을 빠르게 만들 수 있음 Generality(범용성) Spark이 제공하는 SQL과 DataFrames, MLlib(머신러닝), GraphX, Sp..
VBA로 Internet Explorer 작업 자동화 하기 에서 VBA 개발을 위한 준비를 끝냈다고 가정하고 Post를 작성하였습니다. TL;DR 모듈에 아래 코드 입력 후 실행(F5) 테스트 웹페이지가 열린 후 값이 입력되고 제출 버튼을 클릭하게 됨Sub IE_Automation() ' 변수 선언 Dim i As Long Dim o As Object Dim IE As Object Dim objCollection As Object Dim objInputElement As Object Dim objSelectElement As Object Dim objButtonElement As Object ' Internet Explorer 열기 Set IE = CreateObject("InternetExplorer...
Internet Explorer를 꼭 써야만 할 경우(ActiveX 기반 시스템, 사내 시스템 등등) VBA를 활용하여 작업들을 자동화 할 수 있는 방법에 대해 정리해 보았습니다. VBA 개발을 위한 필수 조건 윈도우 OS 설치된 PC Excel 이 꼭 있어야 함 .NET Framework(Window PC라면 당연히 가 설치되어 있음) 저는 Windows 10 Pro와 Microsoft Office Professinal Plus 2016 사용 중 입니다. 개발 환경 Setting Excel 개발 도구 활성화 파일 >> 옵션 >> 리본 사용자 지정 >> 개발 도구 체크 >> 확인 모듈 추가하기 개발 도구 >> Visual Basic >> Sheet1에 우클릭 >> 삽입 - 모듈 클릭 Microsoft H..