안녕하세요! 27년차 진로탐색꾼 조녁입니다 ㅎㅎ
지난주부터 산책을 재개했고, 이번주부터 아침 기상과 철봉을 재개했는데 몸도 마음도 건강해지는 기분이라 너무 좋습니다 ㅎㅎ
저절로 회고도 재개 되었네요 ㅋㅋㅋㅋ
요즘 목적이 이끄는 삶_릭 워렌을 읽고 있는데 이 책을 통해 내가 가진 가치관에 대해서 다시 돌아볼 수 있어서 그것도 이번주 삶의 원동력이 되어 주는 것 같습니다!! 오늘도 다들 수고많으셨습니당!
0. To Do
- [x]
대화 요약 데이터 살펴보고 FAQ 작성하기→ 목차까지봄 - [x] 욕설처리 넥슨 발표 듣기
- [x] annotation 50개 + relation 200개
1. 오늘의 발자취
1. 면접스터디 질문 : XGBoost을 아시나요? 왜 이 모델이 캐글에서 유명할까요?
: XGBoost는 속도가 빠르고, 자원 효율성이 높아서 캐글에서도 인기가 많은 것으로 알고있습니다.
XGBoost는 Extreme Gradient Boosting로, 기존에 Gradient Boosting모델에 병렬처리가 가능해진 모델입니다. 분류와 회귀문제에서 모두 사용가능하며, GBM의 경우 과적합 규제기능이 없으나, XGBoost는 자체에 얼리스탑과 같은 과적합 규제 기능이 있어 강한 내구성 지닙니다. 또한 다양한 파라미터 옵션을 제공하며 Customizing이 용이하기도 합니다. 이러한 이유들로 기존 GBoost보다 XGBoost가 더 인기가 있습니다.
1-1. 꼬리질문1 : XG boost의 하이퍼파라미터들을 아는데로 설명해주세요.
우선 일반 파라미터, 부스터 파라미터, 학습 파라미터 세가지 범주로 나눠볼 수 있습니다.
- 일반 파라미터 : 어떤 부스터를 쓸지(선형 or 트리) , 몇개의 스레드를 쓸지, verbosity(정보표시)값은 몇으로 줄지를 결정한다.
- 부스터 파라미터 : 해당 파라미터들은 일반 파라미터에서 어떤 부스터를 선택했느냐에 따라 다르다. 트리기준으로 봤을때, lr , weak learner 갯수 , max_depth 등 과적합을 조정할 수 있는 파라미터들이 있고,subsample로 학습 데이터 비율 고려, colsample_bytree로 각 트리별 피처의 비율을 고려해줄 수 있다. 두 값은 보통 낮을수록 과적합이 방지된다.
- 람다와 알파값은 L2,L1 규제에 쓰이는 값으로 피처갯수가 많을 때 고려할 수 있다. 두 값은 클수록 과적합을 방지한다.
- min_child_weight는 관측치에 대한 가중치 합의 최소를 말하며, gamma는 해당값보다 크게 감소할 때 분리한다. 두 값은 높을수록 과적합을 방지한다.
1-2. 꼬리질문2 : 자신만의 XGboost의 파라미터 튜닝 방법이 있나요?
우선 lr는 학습에 큰 영향을 미치므로, 큰값으로 고정시킨 후 다른 파라미터를 실험한 후, 마지막에 낮추는 방향으로 실험을 진행합니다.
또한 과적합을 방지하기위해 위에서 설명한 파라미터들을 튜닝합니다. 무엇보다 중요한 건 기록! 또 기록이기에 노션에 잘 기록합니다.
1-3. XGB의 학습과정은?
- 부스팅 계열 vs 배깅 계열 헷갈리지 않게 공부하기!!
- 한줄 요약 : 부스팅은 처음에 학습하고 학습 잘 못한 파라미터들 가져다가 그 부분에 대해 학습.
2. 목적이 이끄는 삶 독서 나눔 with 준행 - 내가 어떤 것에 가치를 두는지를 늘 생각해야한다.
3. Upstage CTO 취업 특강 : 행복의 문은 한개가 아니다!! Keep going!
2021.11.17 - [진로 탐색 log] - [특강 정리] 개발자 취업 전략 - 이력서 , 코테 , 면접
4. 욕설처리 넥슨 발표 듣기 (정리 중 .. )
https://jonhyuk0922.notion.site/NDC-f31bfdd0127249eaa56ac50d73355bf1
5. 피어세션 - 각자 초기 기획서 작성해보기로함 (금요일까지 아래 내용 포함하여 작성해보기)
- 기획배경(큰틀에서 문제정의)
- 기존방식의 문제점( + 시장조사)
- 적용범위(도메인/데이터)
- 프로젝트기간(일정)
- 활용가능한 리소스
- 기대효과(이유와 효과)
- 프로젝트 평가 방법(성공 여부 판단-real time 서비스가 가능한지?-지연시간?인퍼런스타임)
- 데이터 확보 계획
6. tagtog entity type 50개 태깅 + relation 200개 작성
7. 대화 요약 데이터 제작 가이드 목차 살펴봄..
2. 자료 모음
ETRI 자료 기부 _ 스벅 3만원 : https://nanum.etri.re.kr/contest/nanum2021
파이콘 - BEEP! : https://pycon.kr/2020/program/talk/62
3. 오늘의 회고 : 잘하고 있다! 라고 나를 응원해주자
어느덧 회고를 쓸때는 새벽이구나.. 이걸 피어세션 전후로 쓰기시작해야 일찍잘 수 있을 것 같다.
그래도 오늘은 철봉도하고 나름 알차게 보낸 것 같다(맞나? ..)
일단 회고를 다시적기 시작한 게 좋은 신호가 아닐까 싶다. 어제 적은 회고를 통해 오늘 TO DO를 고민끝에 적었고, 그 결과 넥슨 욕설처리 영상을 보고 피어세션때 의견을 제시할 수 있었다.
무엇보다 드디어 데이터제작에 끝이 보이기 시작해서 너무 행복하다... 사실 아침 면접스터디부터 준행이랑한 독서나눔으로 오전이 너무 알찼고 오후도 취업특강부터 넥슨발표 영상, 피어세션 , annotation 등 알찼다. 자기전에 묵상도하고 회고까지 하고나니 편-안하게 (졸려서일수도 있음) 푹 잘 수 있을 것 같다.
사실 최종프로젝트 시작하고 너무 힘든데 좋다. 왜냐하면 대회랑은 달리 진짜 프로젝트라서 마치 회사 다닐때의 설렘을 느낄 수 있고, 곧 유종의 미를 거둘 수 있다는 사실이 너무 좋다! 얼른 일하고 싶다 ㅎㅎ
다만 한 가지 아쉬운건 내일 오전에 잡힌 인터뷰 준비를 하나도 못했다. 그래도 평소에 면접스터디 질문을 매일 하나씩하면서 공부를 한게 있으니까 되겠지... 라고 생각하며 이력서만 한번 다시보고 자야겠다.
하루를 마치며.. "잘하고 있다" 라고 나를 응원해주고 싶다. 좋은 팀원들과 함께하는 만큼, 최종 프로젝트 즐겁게 끝내자! 잘노노즐!!(잘하는 사람은 노력하는 사람을 이길수없고, 노력하는 사람은 즐기는 사람을 이길 수 없다)
- 적용점 : 아침하고 자기전에 거울보고 자신을 향한 칭찬 5가지 해주기!!!
- 하고싶고 해야하는 것들 : MLOps 공부 , 데이터 시각화 강의 , 토치기간 과제 , 주재걸 교수님 강의 복습 , KLUE때 했던 전처리 기법강의 , 진행한 프로젝트들 복습 , 데이터 품질상 받기
'Naver AI Boost Camp > 캠퍼 기록' 카테고리의 다른 글
[P-데이터제작] 10일차 회고 : 기본기의 중요성 (0) | 2021.11.21 |
---|---|
[P-데이터제작] 9일차 회고 : 웃는 얼굴에 침 못뱉으니 항상 웃자~ (0) | 2021.11.19 |
[P-데이터제작] 7일차 회고 : TO DO를 진정성있게 작성할 필요가 있어보인다. (0) | 2021.11.16 |
[P-데이터제작] 3일차 회고 : 목적이 이끄는 삶! 돌아보니 열심히 산 하루 였다. (0) | 2021.11.11 |
[P-MRC] 4일차 회고 : 그 순간 결과가 없을지라도 노력은 모여서 결실을 맺는다. (2) | 2021.10.18 |