[Spark] Apache Spark Examples

[Spark] Apache Spark Examples
Apache Spark Examples from : http://spark.apache.org/examples.html 이 예제들은 Spark API의 전체를 간략하게 보여준다. Spark는 분산 데이터셋의 개념으로 만들어 져있다. 이는 Java, Python 객체들을 포함하고 있다. 외부 데이터로 부터 데이터셋을 생성하고 병렬로 그것들을 처리할 수 있다. Spark API의 building...

[Spark] Programming-guide

[Spark] Programming-guide
Spark Programming Guide from : https://spark.apache.org/docs/latest/programming-guide.html 개요 :  각 스파크 어플리케이션은 main함수인 driver program과 각 클러스터에서 다양한 병렬 오퍼레이션으로 구성되어 실행된다. 스파크의 메인 추상화는 resilient distributed dataset(RDD)이다....

[Spark] Cluster Mode

[Spark] Cluster Mode
Cluster Mode Overview from : https://spark.apache.org/docs/latest/cluster-overview.html 클러스터 모드에서 어떻게 스파크가 수행되는지 보여주는 문서이며, 컴포넌트들이 수행하는 일에 대해서 쉽게 이해할 수 있다. Components 스파크 어플리케이션은 크러스터 상에서 독립된 처리 단위로 수행된다. 이는 SparkContext...

[Spark] Quick Start

[Spark] Quick Start
Spark Quick Start Interactive Analysis with the Spark Shell 기본 :  스파크 쉘을 다음과 같이 실행하자. 이는 대화형 데이터 분석을 위한 강력한 툴이다. ./bin/pyspark 스파크의 중요한 추상화는 Resilient Distributed Dataset(RDD)라고 부르는 분산 컬렉션이다. RDD는 Hadoop 입력 포맷 이나...

[Mac] ssh 자동로그인처리

[Mac] ssh 자동로그인처리
Mac에서 ssh기능 실행하기. 1. Mac에서 ssh기능 실행하기.  - 우선 Mac에서 ssh기능을 실행하기 위해서는 "시스템 환경설정" > "공유" > "원격 로그인" 을 실행해주자. 2. 인증키 생성하기.  - 원격 로그인을 자동으로 실행하기 위해서는 인증키를 생성하여 클라이언트에 공개 인증키를 배포하면 된다.  2.1...