반응형
안녕하세요~
27년차 진로탐색꾼 조녁입니다!!
두번째 강좌는 머신러닝의 파이프라인을 다루고 있습니다. 주로 ML 엔지니어 입장에서 설명해주고 계십니다.
특별히 좋았던 점은 , 실제로 실무에서 모델이 서비스에 쓰이고 있을 때, 어떻게 파이프라인을 짜야하는 지를 상세하게 다뤄주십니다.
1. 머신러닝 파이프라인 단계 개요
1-1. 머신러닝 프로젝트의 이점
- 머신러닝 파이프라인은 새로운 학습 데이터 수집하는 것으로 시작 → 모델 피드백 받는 것으로 끝난다.
- 일반적으로 데이터가 많을수록 모델이 개선된다. 실제로 좋은 성능을 유지하기 위해 지속적으로 재학습하기 위해선 자동화가핵심이다.
2. 데이터 수집, 버전 관리 , 데이터 검증
2-1. 데이터 수집(Data ingestion/versioning)
- Data versioning을 해야 재현가능성이 올라간다.
- → 일반적으론 오브젝트 스토리지(아마존 S3, 구글 GCS3) 사용한다.
2-2. 데이터 유효성 검사(Data Validation)
새로운 데이터의 통계가 범주의 범위, 범주 수 및 분포가 적합한 지 확인한다.
또한 이상 징후가 감지될 경우 과학자에게 경고한다. (이상치가 들어오다보면 어느순간 파이프라인이 죽을 수 있다.)
- 같은 문제를 푸는데 데이터 split이 다르게 되어있으면 성능 비교 의미 없어진다. 그러므로 중요하다!!
2-3. 데이터 전처리 (Data preprocessing)
모든 데이터는 가공해서 모델이 이해할 수 있는 형태로 전달해줘야한다. tensor 나 vector로 변환해 줌.
- feature space가 중요하다 (feature engineering) , 실험해보기.
- 정규화 기법에 대해서도 실험해보기.
3. 모델 학습, 모델 분석, 모델 버전 관리
3-1. 모델 학습(Model training)
- 머신러닝 파이프라인의 핵십 단계! 이 단계에선 가능한 가장 낮은 오차를 사용해서 모델이 예측할 수 있도록 학습시킨다. 메모리라는 한계가 있기 때문에, 모델 훈련의 효율적인 분포가 중요하다.
3-2. 모델 튜닝(Model Tunning)
- 오토 ML이 굉장히 중요하다. 최근 모델 튜닝은 상당한 성능 개선과 경쟁 우위를 제공할 수 있기 때문에 많은 관심을 받고 있다. 또한 머신러닝 파이프라인 아키택처는 확장가능하므로 다른 모델에도 적용할 수 있다.
3-3. 모델 분석 (Model analysis)
일반적으로 정확도 또는 손실을 사용하여 최적의 모형 모수 집합을 결정한다. 그러나 최종에서 분석할 때는 다차원 적으로 분석해준다.
- 학습완료 후 결과 값을 BIg query 에 넣어주면 EDA 하기 편리할 것이다.
3-4. 모델 버전 관리(Model validation)
버전관리 툴들이 있다. 일반적인 SW와는 트리거 포인트가 다르고 파이프라인 구조가 다르다.
- ML flow : 모델의 버전 번호,
- 모든 툴들이 A/B test하기 불편한 구조이다.
4.모델 배포, 피드백 루프 반복, 개인정보 보호
4-1. 모델 배포(Model validation)
모델을 학습, 튜닝 및 분석한 뒤, 모델을 배포할 수 있다. 유감스럽게도 일회성 구현으로 구현된 모델이 너무 많다면, 모델 업데이트는 쉬운 프로세스가 아니다.
- TF 서빙, 토치 서빙 있는데 , 토치는 코드까지 같이 넣어줘야해서 더 안좋다.
- 백엔드 엔지니어링 능력이 필요하다.
4-2. 피드백 루프 반복(Model feedback)
- 모델 성능을 측정하는 방법을 만들어야한다.
- TF DV를 사용하면 좋다!
4-3. 개인 정보 보호
1강보다 필기가 조금 ... 정성이 덜 느껴지는 듯한 건 두가지가 있다. 첫째로 내가 이해하지 못하는 용어들이 주르륵 흘러간다..
둘쨰로는 인프런 강의를 위해 만든게 아니라, 어느 회사에 가서 강의한 걸 녹화한걸 그대~로 올리신 거라 집중도도 떨어지고 좀.. 그런 부분이 있다. 그래도 돈냈으니 완강은 할 생각이다 ㅠㅠ.
참고자료 강의
반응형
'머신러닝 & 딥러닝 공부 > MLOPs' 카테고리의 다른 글
[MLOps]2-1. 실험관리 - Weights and Biases (0) | 2021.07.03 |
---|---|
[MLOps] 1-1.머신러닝 파이프라인 (1) | 2021.05.14 |