일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Optimization
- 장고
- 엘라스틱서치
- programmers
- elasticsearch
- ELK
- 깊이우선탐색
- 키바나
- 스파크
- 알고리즘
- 파이썬
- 프로그래머스
- Spark
- Django
- leetcode
- Easy
- solution
- RecommendationSystem
- Medium
- daspecialty
- twosum
- Algorithm
- dump
- 해시
- 리트코드
- kibana
- AWS
- python
- CentOS
- dfs
- Today
- Total
목록Task (3)
Archive
Job, Stage, Task 등 다양한 레벨에서 확인할 수 있고, 실행 계획 및 실제 수행 내역에 대한 Dag Visualizaiton 도 있다. 1. Job / Stage Job/Stage 각 탭에서는 개별 Task의 Detail (완료 상태, I/O , Duration, Memory Consumption, 실행시간 등)을 살펴볼 수 있는 UI를 제공한다. ① Job > Event Timeline Executor가 뜨고 죽는 시점을 확인할 수 있고, 아래 표에서 Complete 혹은 Fail 된 잡의 정보를 볼 수 있다. Duration이 유난히 긴 Job에 대해선 조금 더 자세히 (Stage, Task 등) 살펴볼 필요가 있다. 또한 각 Job의 Description을 클릭하면 상세 Job 페이지가..
1. Spark Application Spark로 제출되는 Job들은 Task라는 저수준 RDD Byte Code로 변환되어 Executor 들에 분산된다. Application Spark 위에서 돌아가는 사용자 프로그램. Driver Program + Executor를 칭함 SparkSession Spark Core 기능들과 상호 작용할 수 있는 진입점을 제공하는 객체이다. Spark Application 에서는 사용자가 직접 Spark Session 객체를 생성해야 한다. Job Spark Action 에 대한 응답으로 생성되는 여러 Task들로 이루어진 병렬 연산. Spark Driver는 Spark Application을 하나 이상의 Job으로 변환하고, 각 Job은 DAG(실행계획)로 변환된다...
EMR은 기존 Hadoop에서의 Computing 부분을 그대로 구현해 놓은 플랫폼이라고 이해하면 된다. (Storage는 HDFS를 사용할수도 있지만, 주로 Object Strorage인 S3과 함께 사용한다.) Cloud 특성에 맞게 Auto Scaling 도 지원하여 처리량에 따라 Instance를 유동적으로 Scale In/Out을 할 수 있으나, 흔히 떠올리는 Auto Scaling 처럼 바로바로 인스턴스가 할당되고 회수되진 않는다. 회수는 바로 해가지만 할당하는데는 8~20분 정도 걸리는 것 같다. EMR 내에는 Hadoop, JupyterHub, Hive, Zeppelin, Flink, Spark, Hue 등 다양한 분산처리 및 노트북 환경들을 제공한다. 아래와 같이 내가 필요한 서비스의 버..