안녕하세요~!
27년차 진로탐색꾼 조녁입니다!!
대회가 이제 몇시간 안남았다.. 디버깅하느라 회고는 첨부만 합니다.. 내일의 나에게 토스
오늘의 제가 잘 받아서 정리해보도록 하겠습니다!!
감사하게도 ... 마지막날 TAPT(Task-Adaptive Pretraining) 돌리고 잔게 잘나왔고 앙상블했는데 꽤나 올라서 꽤나 만족스럽게 마칠 수 있었습니다 ㅋㅋㅋㅋ 이제 정리만 잘하면되겠쥬!
0. TO DO
- hyper param best 모델 2개 no_valid로 제출
- 앙상블 준비하기
1. 오늘 배운 내용
hyper params search : loss가 줄어드는데 f1이 오르기도 한다. 그러니 에폭 크게해봐도 좋을 듯, 그런데 에폭 늘리려면 데이터 증강 해보자!! 그리고 배치는 16-32(적당한 크기)!!
[하이퍼 파라미터 튜닝(max_len , weight_decay, scheduler , optimizer , lr , batch)] <노션>
[오피스아워 : 챗봇 동향(이었지만 QnA 위주 정리)] <노션>
https://jonhyuk0922.notion.site/_-5950791acef14672a2b8cdb5323028a9
[공유된 캠퍼들 코드 공부 (판다스 공부)] <노션>
https://jonhyuk0922.notion.site/2f50a72b69744ca5a2651ba07d58b479
=> 교훈 : max_length 는 train할때랑 inference할 때 맞춰줘야한다 (69.1 → 69.7)
2. 오늘 생긴 질문 & 답변
- VS code 에서 각 셀 test 디버깅 하는 방법은?
- 판다스에서 sql처럼 query 작성하는 법은?
- 판다스 공식문서 공부하자! (apply , query , ...)
- 데이터에 대한 이해
- typed entity는 어떻게?
- 토크나이저를 바꾼다면 어떤걸로?
- 랜덤으로 같은 클래스 내 같은 엔티티들 바꿔주면 시작과 끝 idx는 어떻게 맞춰주지?
3. 피어세션 정리
- 코딩이 안될때는 책상 정리를 하거나 샤워를 하자!
[피어세션 정리] <노션>
https://jonhyuk0922.notion.site/10-6-04cff028b3f44e6c89086926df36f7ed
- TAPT(Task-Adaptive Pretraining) 관련 논문 리뷰
https://simonezz.tistory.com/78
오늘도 코드 돌려놓고 잘거다. 내일은 inference에서 앙상블을 해보자.
nohup sh -c 'python train.py --seed 627 && python train.py --epoch 30 --seed 210 1> /dev/null 2>&1' &
4. 회고 : 큰 모델일수록 , 많이 학습할 수록 (그러기 위해 데이터가 많을수록)~ 좋다!
당연한 얘기지만 학습할 때 모델 파라미터 수가 클수록, 에폭이 클수록, 또 그에 맞게 오버피팅안되도록 데이터가 만을수록 좋다.
그런데 문제는
1. 데이터가 양질이 아니면(오타가 많거나, 언밸런스가 심하면) 데이터가 많아도 별로 안좋다.
2. 데이터가 적으면 오버피팅나기 쉽다.
그래서 마지막 날에는 마지막으로 데이터 증강 고민해보고, 기존 체크포인트들로 앙상블 해봐야겠다. 마지막까지 조금만 더 힘내자!!!
'Naver AI Boost Camp > 캠퍼 기록' 카테고리의 다른 글
[P-MRC] 1일차 회고 : 쉬는 시간을 잘 쉬어줘야 몰입할 수 있다. (0) | 2021.10.12 |
---|---|
[P-KLUE] 9일차 회고 : 앙상블 , 대회끝, 부캠라디오 , 성공적!! (0) | 2021.10.08 |
[P-KLUE] 7일차 회고 : 하루에 1% 씩 성장하자는 마음으로 하자! (5) | 2021.10.06 |
[P-KLUE] 6일차 회고 : 지치고 곤하여도 3일만 더!! (0) | 2021.10.06 |
[U-NLP] 8주차 주간 회고 : 특강 유익하다. 앞으로 해야할 일들을 잘 정리해보자. (0) | 2021.09.26 |