일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- CentOS
- kibana
- Django
- ELK
- 스파크
- dfs
- Optimization
- 키바나
- Easy
- Spark
- RecommendationSystem
- solution
- Algorithm
- 엘라스틱서치
- AWS
- Medium
- leetcode
- 리트코드
- 해시
- daspecialty
- dump
- programmers
- 장고
- 파이썬
- 프로그래머스
- 깊이우선탐색
- 알고리즘
- elasticsearch
- python
- twosum
- Today
- Total
목록Executor (2)
Archive

0. Overview 대규모의 Spark Workload는 매일 야간에 혹은 몇 시간 간격으로 배치 잡으로 실행되는 경우가 많다. TB급 이상의 데이터를 처리하다 보면 resource 부족이나 점진적인 성능 저하에 따른 Job failure을 겪을 수가 있다. Resource 사용 최적화, Task의 병렬 실행, 다수의 Task에 의한 Bottleneck 문제를 어떻게 피하는지 등 문제 해결에 도움을 줄 Spark Configuration 들을 살펴보고자 한다. 1. Spark Configuration Setting Spark Configuration 설정을 하는 방법들 중에서 우선순위가 존재한다. spark-default.conf -> spark-submit을 통해 설정된 값 -> Spark Appli..

1. Spark Application 구조 소개 1) Spark Driver Spark Driver는 Spark Session 객체를 초기화, Cluster Manager와 통신하며 Executor들을 위해 필요한 자원 ( CPU, Mem 등)을 요청, Spark 작업을 DAG형태로 Transform 및 Scheduling 하는 역할을 한다. 즉, Spark 내 필요한 자원을 받아오고 Executor과 통신하는 일종의 Spark Job의 Managing 역할을 하게 된다. Spark Session 객체를 생성하고, 이 객체를 통해 Executor와 Cluster Manager과 통신한다. 2) Spark Session Spark Session은 Cluster Manager와 연결되는 객체로, Spark ..