Data Engineer

Data Team

매스프레소의 Product Development Division은 매스프레소의 가장 핵심 제품인 QANDA의 개발을 책임지고 있습니다. 해적선 정신과 Start-up Spirit을 가슴에 품고, 고객이 만족하는 제품을 만들어 내는 것에 집중하고 있습니다.
높은 수준의 제품 Quality 유지하는 것과 제품을 빠르게 개선하는 것을 매우 중요한 가치로 생각합니다. 이를 달성하기 위해서 실험하는 것을 좋아하며 데이터에 기반한 접근을 하기 위해 노력합니다.
Data Team은 Mathpresso의 구성원들이 목표를 달성하는 데 필요한 데이터를 적절히 사용할 수 있도록 서포트하고, 서비스/비즈니스가 올바른 방향으로 나아가고 있는지 데이터 관점에서 점검합니다.
데이터 웨어하우스로 Bigquery를 사용합니다. Bigquery의 뛰어난 성능을 활용하여 ETL 보다는 ELT paradigm 으로 데이터 파이프라인을 구현하고 있습니다. Extract/Load 단위 작업은 Apache Spark 어플리케이션으로 개발하여 AWS Fargate 로 실행합니다. 단위 작업들의 Workflow Orchestration 도구로 Apache Airflow (Cloud Composer) 를 사용합니다. 이외에도 로그 수집을 위해 Amazon API Gateway 와 Amazon Kinesis 서비스를 사용합니다. BI 는 Holistics 라는 서비스를 사용합니다.

합류하시면 함께 풀어나갈 문제들입니다.

데이터 파이프라인/데이터 웨어하우스 유지보수
프로덕트가 계속해서 성장함에 따라 수집해서 관리하여 분석에 활용할 데이터도 계속해서 늘어나고 있습니다. 이를 위해 데이터 파이프라인과 데이터 웨어하우스도 계속해서 관리되고 발전해야합니다.
실험 (A/B 테스트) 데이터 집계와 분석 practice 통일
실험 플랫폼을 구성하는 것을 궁극적인 목표로, 첫 단계로, 목적 조직들마다 조금씩 다르게 이뤄지고 있는 (Firebase A/B Testing, 클라이언트 단에서 샘플링, 서버 단에서 샘플링 등) 실험 집행 practice 를, best practice 로 통일 시키려고 합니다. control/variant 값과 conversion event 등 실험을 정의할 때 필수적으로 & 공통으로 정의되는 데이터들을 수집하는 테이블의 스키마를 통일하고, 이를 사용하는 실험 결과 분석도 일관된 방식으로 이뤄질 수 있도록, 필요한 시스템을 구성하는 것을 목표로 합니다.
Data Catalog/Data Discovery
Production RDBMS, Firebase Analytics SDK 클라이언트 로그, 서버 로그, Adjust 같은 각종 서드파티 데이터 등 다양한 소스의 데이터가 데이터 웨어하우스로 모이고 있습니다. 현재 매스프레소가 어떤 데이터들을 수집하고 있고, 어떻게 활용되고 있는지 탐색을 도와주는 적절한 시스템의 필요성이 점점 더 커지고 있습니다. 당장에는 Bigquery 에서 Table/Column Description 을 어떻게 잘 관리할지를 고민하고 있습니다.
Data Engineer가 아니더라도 원하는 누구나 데이터 마트 테이블을 추가/수정 할 수 있도록 시스템 구성
원하는 데이터를 얻기 위한 SQL 은 다양한 모습일 수 있겠으나, ad-hoc 한 쿼리들이 계속 생겨나는 것을 방지하고, 적절히 추상화 된 데이터 모델 = 데이터 마트 테이블들이 정립되고 이를 재사용하는 것을 지향하는 것이 맞는 방향일 것입니다. 현재도 Data Analyst 를 비롯해 많은 Domain Owner 들이 데이터 모델에 대해서는 계속 고민하고 있으나, 이를 데이터 마트 테이블로 구현하는 것은, Airflow 에서 DAG/Task 작업이 필요하여 진입 장벽이 있기에 Data Engineer 만 하고 있습니다. 이를 개선하여, 데이터 모델을 정립한 당사자가 직접 데이터 마트 테이블까지 작업할 수 있는 방법에 대해 고민하고 있습니다. 최근에 업계에서 점점 더 많이 얘기되고 있는 DBT 등 여러 방법들을 탐색하고 있습니다.
Airflow 직접 운영
Managed Airflow 서비스인 Cloud Composer 를 활용해서 쉽고 빠르게 Airflow 환경을 구성할 수 있었습니다. 그러나 1년여간 사용하면서, Managed Service 이기에 어쩔 수 없는 몇가지 아쉬움들이 있었습니다. 그래서 뛰어난 Data Engineer 분들이 더 합류한다면 Amazon EKS 등의 Kubernetes 환경에서 Airflow 를 직접 운영하고자 합니다.

이런 분이면 좋겠습니다.

ETL/ELT 데이터 파이프라인 구성에 대해 자신만의 철학과 best practice 를 가지고 있고, AWS/GCP 같은 public cloud 에서 제공하는 서비스들을 적절히 활용하여 구현할 수 있는 분이면 좋겠습니다.
"Data-Driven 한 조직" 에 대한 자신의 생각을 가지고 있고, 이를 달성하기 위해 Data Engineer 로서 어떤 것들을 할 수 있는지에 대해 생각을 가진 분이면 좋겠습니다.
Data Analyst 등 데이터를 활용하는 다른 직군/조직의 동료들이 어떤 문제를 풀기 위해 데이터를 어떤 식으로 활용하는지를 이해하고 있고, 단순히 부탁 받은 데이터 관련 작업을 처리하는 것이 아니라 함께 고민하여 더 나은 방향으로 나아갈 수 있도록 커뮤니케이션 하는 분이면 좋겠습니다.
GA/GTM/Firebase/Amplitude/Mixpanel 같은 Analytics 도구와 Appsflyer/Adjust 같은 MAT 도구와 Holistics/Tableau/Mode Analytics 같은 BI 도구 등, 데이터 시스템 구성에 유용하게 쓰일 수 있는 다양한 서드파티 도구들이 해주는 역할과 이들을 어떻게 결합하여 활용하면 좋을지에 대한 그림을 가지고 있는 분이면 좋겠습니다.

근무 형태

정규직 (수습기간 3개월)

제출 서류

자유 양식의 국문 이력서(PDF)

채용 절차

서류 전형 → 전화 면접 → SQL Test/코딩 테스트/1차 면접 → 2-3차 면접 → 최종 합격
SQL Test/코딩 테스트/1차 면접 그리고 2-3차 면접은 각각 하루에 연달아 진행됩니다. (총 2일 진행)
포지션에 따라 과제 전형 혹은 추가 면접이 진행될 수 있습니다.

매스프레소의 근무 환경과 복지가 궁금하시다면?