SparkML

데이터 엔지니어링/Spark

30. SparkML Pipeline

모델 빌딩과 관련된 흔한 문제들 트레이닝 셋의 관리가 안됨 모델 훈련 방법이 기록이 안됨 어떤 트레이닝 셋을 사용했는지? 어떤 피쳐들을 사용했는지? 하이퍼 파라미터는 무엇을 사용했는지? 모델 훈련에 많은 시간 소요 모델 훈련이 자동화가 안된 경우 매번 각 스텝들을 노트북 등에서 일일히 수행 에러가 발생할 여지가 많음 (특정 스텝을 까먹거나 조금 다른 방식 적용) ML Pipeline의 등장 모델 훈련 방법 기록, 모델 훈련 시간 소요등의 문제를 해결하기 위해 등장 자동화를 통해 에러 소지를 줄이고 반복을 빠르게 가능하게 해줌 Spark ML 관련 개념 정리 ML 파이프라인이란? 데이터 과학자가 머신러닝 개발과 테스트를 쉽게 해주는 기능(데이터 프레임 기반) 머신러닝 알고리즘에 관계없이 일관된 형태의 AP..

우상욱
'SparkML' 태그의 글 목록