안녕하세요~!
27년차 진로탐색꾼 조녁입니다!!
어느덧 P-stage가 끝나고 Level-2 U stage-NLP가 시작됐습니다.
오늘은 새로운 피어세션 캠퍼분들을 만난 날이기도 하지만, 1기 선배님들이 오셔서 "Meet-up : 부캠에서 살아남기" 시간을 너무 풍성하게 해주셔서 기억에 많이 남는다.
1. 오늘 새롭게 배운 내용
1. Word2Vec
- 같은 문장에서 인접한 단어들 간에 의미 비슷할 것이라는 가정하에 시작한다.
- e.g) The cat purrs & This cat hunts mice
- Idea of w2v : 한 단어가 주변의 단어를 통해 유추될 수 있다.
- Window & sliding window : 각 문장의 중심단어 & 주변단어 쌍으로 구성되는 학습데이터 추출
- 관계를 벡터화하여 빼고 더하며 "관계"를 추출할 수 있다.
- 다른 주제(Intrusion Detection) : 여러 단어들의 평균 거리를 계산하여 가장 먼 것 골라낸다(다른 단어들과 구별)
2. Glove : Global Vectors for Word Representation
- w2v 과 차이점 : 새로운 형태의 학습, 목적함수 사용함
- 동시에 등장한 횟수 미리 계산하여 학습에 사용해서 중복을 개선한다. → 학습이 더 빠르고 보다 적은 데이터에도 잘 작동한다.
- 사전학습 모델 가져와서 사용 가능
2. 공부하며 질문한 내용 & 답변
2-1. Word2Vec과 GloVe 알고리즘이 가지고 있는 단점은 무엇일까요?
- w2v : 문장과 문서와의 관계를 알기 힘들다.
- GloVe : 문장 내에 단어간 관계 알기 힘들다.
2-2. (CBOW : 주변단어로 중심단어 예측) 와 (Skip-gram : 중심단어로 주변단어 예측)는 어떻게 작동하는가?
- 공부중
2-3. stemming & lemmatization이란?
- morphology(형태학)이란 형태소로 부터 단어를 만들어가는 학문
- 형태소란? 의미를 가지는 최소 단위로 어간(stem)과 접사(affix)로 나뉜다.
- stemming(어간 추출) : 단순 규칙 기반의 추출이기에, 사전에 없는 단어들이 나올 수 있다.
- 용언(형용사, 동사) , 이 두가지는 어간 + 어미로 이뤄진다.
- conjugation(활용) : 한국어에 한해서 어간 + 어미라는 의미를 가진다. 규칙 활용과 불규칙 활용이 있다. 둘의 차이는 어간 + 어미를 했을 때 형태가 변하냐 안 변하냐의 유무이다.
- lemmatization(표제어추출)
- am , are , is ⇒ be (lemma)
- has ⇒ have(lemma)
- dies ⇒ die(lemma)
- 둘의 차이점 : 표제어 추출은 POS 태그를 보존한다.(품사 보존) , 그러나 어간 추출은 POS 태그 보존안하고 아예 사전에 없는 단어를 추출할 확률이 높다.
2-4. 추가 정리 : notion link (Glove, 형태소 분석기 비교)
https://jonhyuk0922.notion.site/3-Q-n-A-c08590e78ad34dc69050c8ee8268ace8
3. Meet-up "부캠에서 살아남기" 정리
https://jonhyuk0922.notion.site/1-Meet-up-f965358c372440dfb6ef33954e013854
5줄 요약 & 적용점
- 지금 만드는 기록들이 곧 포트폴리오다. → U stage 문서화 해보기
- 5개월의 시간동안 동기들과 최대한 소통하자. → 주말 번개모임 해보기 , 추천시스템 스터디해보기
- 공유문화와 협업 문화 익히기 → 우선 피어세션에서 공유해보기 , 협업 툴(Notion, git-hub ,wandb) 익히기
- 잘하는 사람과 차이를 인정하고 노력하기 → 잘하는 사람 곁에 두고 B.P(best practice) 삼기
- 매일 수고하고 있는 나의 건강과 자존감 지키기 → 매일 점심/저녁으로 산책하며 복습하기
4. 회고
오늘 하루도 이렇게 지나간다. 첫 모임이라 긴장도, 걱정도 됐지만 좋은 팀원분들을 만난 것 같아서 감사하다. 오늘 배운 내용들도 있지만 1기 선배님들의 이야기가 너무 머릿속에 가득하다.
그 중에서도 "노력에 대한 낭만"과 "이유에 대한 고민&기록"는 말씀이 가장 기억에 남았다. 매일 노션에 학습 정리 후 블로그에 회고를 남기고 있다. 기록하는 것이 때론 의미가 있나 싶었는데 이 기록들이 나중엔 내게 자산이 될거라고 생각한다.
그리고 매일 노력하는 이 시간이 분명 지금 취준하는 친구들만큼 의미있는 시간일 것이다!! (난 한달 전보다 성장했으니까!) 말 나온김에 내일은 지난 한달을 회고해 봐야겠다.
오늘의 피드백
+) 피어세션 조에 특강 정리 공유한 것
-) 아침에 늦잠 잔 것
'Naver AI Boost Camp > 캠퍼 기록' 카테고리의 다른 글
[U-NLP] 4일차 회고 : 말로 설명해보니 내가 모르는 부분들이 많구나! (0) | 2021.09.09 |
---|---|
[U-NLP] 3일차 회고 : 주재걸 교수님께서는 강의를 잘하신다. (0) | 2021.09.09 |
[P stage] 오늘의 회고 : 함께 자란 P stage 였다. (0) | 2021.09.03 |
[P stage] 오늘의 회고 : 끝나기 직전에 그래도 원인을 찾았다! (0) | 2021.09.02 |
[P stage] 오늘의 회고 : 생각한 걸 많이 실행한 하루 (0) | 2021.09.01 |