공부하는 블로그

Apache spark 소개 및 실습(시작하기) 본문

Develop/Spark

Apache spark 소개 및 실습(시작하기)

모아&모지리 2017. 11. 16. 16:50

Virtual Box 설치 후 eclipse 실행

자바프로젝트 -> 이름 Spark 로 하고 finish -> Maven 으로 convert

오른쪽 마우스 버튼 -> Properties -> Java Complier 에서 use compliance from execution environment 'J2SE-1.5'..' 체크 해제 하고 오른쪽 1.8 로 바꾸고 apply, Build Path 도 변경(jdk 1.8 로)

-> http://www.mvnrepository.com 에서 spark-core 검색 후 spark-core_2.11(버전에 상당히 민감하다) dependency 추가(<scope>provided</scope>는 지울 것) 

대표적인 클라우드 시스템 : Amazon AWS, Microsoft AZURE

추천시스템 : Apache Flink

분산분석시스템 : Apache Beam

분석시스템 : Hadoop MapReduce, Hadoop YARN, Apache Spark, Apache Stom, Apache Tajo

RDD(Resiliend Distributed Dataset)

Master Spark는 Slave Spark들이 hodoop을 통해 가져온 데이터를 조합하는데 그게 파티션이다.

RDD 와 Spark는 엄연히 다른 객체이다.


일단 윈도우에 hadoop 설치 실패함... 내용은 아래와 같음...

VM VirtualBox -> 파일 -> 가상 시스템 가져오기에서 new_hadoop_system.ova 선택 "모든 네트워크의 MAC주소 초기화" 체크박스 클릭

-> 네트워크 설정변경 클릭 -> 확인 -> hadoop/hadoop 로그인 -> 프로그램 -> terminal -> ifconfig 명령어 치고 3개 중 맨위에 나오는 ip 복사

www.docker.com -> Get Docker -> Desktop Window -> Download now from docker store -> 오른쪽 docker toolbox 링크 클릭 -> 설치 실행 후 User Virtual box 클릭



'Develop > Spark' 카테고리의 다른 글

Spark 9일차  (0) 2017.11.16
Kafka 와 Zookeeper 설치하기  (0) 2017.11.16
Spark의 RDD 의 문제점  (0) 2017.11.16
Spark 예제 1  (0) 2017.11.16
Spark 예제 0  (0) 2017.11.07