sftp에 접근.
<aside>
⚠️ glue에서는 패키지 디렉토리 아래에 __init__
파일이 없으면 모듈을 못 읽음.
</aside>
<aside> ⚠️ glue job을 실행할 때 사용하는 Connection(network)에 vpc와 security group이 있음. security group에 sftp:22 아웃바운드 규칙을 설정해주지 않으면 dow-jones sftp 서버에 접속할 수 없음. terminal에서 dow-jones 서버 nslookup해서 ns의 ip 3개를 등록해줌.
</aside>
<aside> ⚠️ glue job이 사용하는 Iam Role에 SSM 관련 정책을 추가해야 함. (GetParameter만 추가함)
</aside>
dow-jones whitelist feed에서 최신 파일만 다운로드.
.zip 파일의 압축을 품.
.zip 파일 안에 있던 csv 파일을 모두 s3에 업로드한다.
5번 단계에서 s3 key 조회를 위한 파티션 지정을 잘못 해주어서 파싱할때 버그가 발생함.
/
를 추가해서 원하는 파티션만 조회하도록 수정.# 이런식으로 지정함.
~~/year=2024/month=1/day=2
# 실제로 조회된 key
~~/year=2024/month=1/day=2/a.csv
~~/year=2024/month=1/day=20/w.csv
~~/year=2024/month=1/day=21/q.csv
~~/year=2024/month=1/day=22/c.csv
# 수정한 방식
~~/year=2024/month=1/day=2/
빠르게 작업하느라 glue로 작업했지만, glue의 주 목적인 spark를 쓰지 않았음.
첨부파일 때문에 메일 용량이 40MB를 넘길때가 종종 있음.