일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- AWS
- dfs
- kibana
- Django
- 키바나
- twosum
- 엘라스틱서치
- 깊이우선탐색
- 장고
- Medium
- daspecialty
- python
- solution
- 프로그래머스
- CentOS
- 알고리즘
- leetcode
- elasticsearch
- 해시
- Spark
- RecommendationSystem
- Algorithm
- 스파크
- 리트코드
- programmers
- Optimization
- Easy
- dump
- 파이썬
- ELK
- Today
- Total
목록최적화 (2)
Archive
1. Row 및 Column 필터링은 최대한 앞 쪽에서 데이터를 변환하기 전, filter 함수를 먼저 적용하고 필요한 Column 만 선택하여 필요한 데이터만 처리할 수 있도록 한다. 처리 시간을 줄이고 Spark Application을 좀 더 효율적으로 만들 수 있다. 2. 적절한 File Format 선택 Avro와 같은 Row 기반 파일 형식은 Write는 빠르지만 Read는 느리고, ORC와 Parquet과 같은 Column 기반 파일 형식은 Avro에 비해 Write는 느리지만 Read는 더 빠르다. 때문에 Avro 같은 Row기반 파일 형식은 Write Once, Read Once 일 때 적합하고, ORC나 Parquet처럼 Column 기반 파일 형식은 더 자주 Read 하고 Transfo..
0. Overview 대규모의 Spark Workload는 매일 야간에 혹은 몇 시간 간격으로 배치 잡으로 실행되는 경우가 많다. TB급 이상의 데이터를 처리하다 보면 resource 부족이나 점진적인 성능 저하에 따른 Job failure을 겪을 수가 있다. Resource 사용 최적화, Task의 병렬 실행, 다수의 Task에 의한 Bottleneck 문제를 어떻게 피하는지 등 문제 해결에 도움을 줄 Spark Configuration 들을 살펴보고자 한다. 1. Spark Configuration Setting Spark Configuration 설정을 하는 방법들 중에서 우선순위가 존재한다. spark-default.conf -> spark-submit을 통해 설정된 값 -> Spark Appli..