반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- dump
- 리트코드
- 엘라스틱서치
- 장고
- 키바나
- Optimization
- Algorithm
- programmers
- 알고리즘
- dfs
- 스파크
- kibana
- ELK
- leetcode
- Easy
- 깊이우선탐색
- AWS
- 프로그래머스
- python
- Django
- Spark
- elasticsearch
- RecommendationSystem
- CentOS
- Medium
- 해시
- solution
- 파이썬
- daspecialty
- twosum
Archives
- Today
- Total
반응형
목록smj (1)
Archive
[Spark] BroadCast Hash Join(BHJ) / Shuffle Sort Merge Join(SMJ)
0. Overview Spark의 Join연산은 Executor들 사이의 방대한 데이터 이동을 일으킨다. 그것을 Shuffle이 일어난다고 표현하는데 어떤 데이터를 생성하고, 어떤 Key 관련된 데이터를 Disk에 쓰고, 어떻게 Key와 데이터들을 groupBy(), join(), sortBy(), reduceByKey() 같은 작업들을 진행하는 노드들에 옮기는지 등이 핵심이다. Spark의 5가지의 Join 연산 방법 중 많이 쓰이는 BroadCast Hash Join, Shuffle Sort Merge Join에 대해 살펴볼 예정이다. 1. Broadcast Hash Join (BHJ) Broadcast Hash Join (Map-Side-Only Join이라고 하기도 한다)은 Data 이동이 필요 ..
------- DE -------/Spark
2022. 8. 21. 00:08
반응형