본문 바로가기

Naver AI Boost Camp/캠퍼 기록

[U-NLP] 1일차 회고 : 노력에 대한 낭만을 믿자. 그리고 기록이 중요하다.

반응형

 

 

 

안녕하세요~!

27년차 진로탐색꾼 조녁입니다!!

 

어느덧 P-stage가 끝나고 Level-2 U stage-NLP가 시작됐습니다.

오늘은 새로운 피어세션 캠퍼분들을 만난 날이기도 하지만, 1기 선배님들이 오셔서 "Meet-up : 부캠에서 살아남기" 시간을 너무 풍성하게 해주셔서 기억에 많이 남는다.

 

 

1. 오늘 새롭게 배운 내용


1. Word2Vec

  1. 같은 문장에서 인접한 단어들 간에 의미 비슷할 것이라는 가정하에 시작한다.
  2. e.g) The cat purrs & This cat hunts mice
  3. Idea of w2v : 한 단어가 주변의 단어를 통해 유추될 수 있다.
  4. Window & sliding window : 각 문장의 중심단어 & 주변단어 쌍으로 구성되는 학습데이터 추출
  5. 관계를 벡터화하여 빼고 더하며 "관계"를 추출할 수 있다.
  • 다른 주제(Intrusion Detection) : 여러 단어들의 평균 거리를 계산하여 가장 먼 것 골라낸다(다른 단어들과 구별)

2. Glove : Global Vectors for Word Representation

  • w2v 과 차이점 : 새로운 형태의 학습, 목적함수 사용함
    • 동시에 등장한 횟수 미리 계산하여 학습에 사용해서 중복을 개선한다. → 학습이 더 빠르고 보다 적은 데이터에도 잘 작동한다.
    • 사전학습 모델 가져와서 사용 가능

 

 

2. 공부하며 질문한 내용 & 답변


2-1. Word2Vec과 GloVe 알고리즘이 가지고 있는 단점은 무엇일까요?

  • w2v : 문장과 문서와의 관계를 알기 힘들다.
  • GloVe : 문장 내에 단어간 관계 알기 힘들다.

2-2. (CBOW : 주변단어로 중심단어 예측) 와 (Skip-gram : 중심단어로 주변단어 예측)는 어떻게 작동하는가?

- 공부중

 

2-3. stemming & lemmatization이란? 

  • morphology(형태학)이란 형태소로 부터 단어를 만들어가는 학문
  • 형태소란? 의미를 가지는 최소 단위로 어간(stem)과 접사(affix)로 나뉜다.
  1. stemming(어간 추출) : 단순 규칙 기반의 추출이기에, 사전에 없는 단어들이 나올 수 있다.
    • 용언(형용사, 동사) , 이 두가지는 어간 + 어미로 이뤄진다.
    • conjugation(활용) : 한국어에 한해서 어간 + 어미라는 의미를 가진다. 규칙 활용과 불규칙 활용이 있다. 둘의 차이는 어간 + 어미를 했을 때 형태가 변하냐 안 변하냐의 유무이다.
  2. lemmatization(표제어추출)
    • am , are , is ⇒ be (lemma)
    • has ⇒ have(lemma)
    • dies ⇒ die(lemma)
  3. 둘의 차이점 : 표제어 추출은 POS 태그를 보존한다.(품사 보존) , 그러나 어간 추출은 POS 태그 보존안하고 아예 사전에 없는 단어를 추출할 확률이 높다.

 

2-4. 추가 정리 : notion link (Glove, 형태소 분석기 비교)

https://jonhyuk0922.notion.site/3-Q-n-A-c08590e78ad34dc69050c8ee8268ace8

 

3. Q n A

Q1. 로그 값의 동시등장 빈도가 0이 되면 손실함수가 최소가 되는 두 벡터 값을 찾을 수 없지 않나요?

jonhyuk0922.notion.site

 

 

3. Meet-up "부캠에서 살아남기" 정리


https://jonhyuk0922.notion.site/1-Meet-up-f965358c372440dfb6ef33954e013854

 

1기 Meet-up : 부캠에서 살아남기

🧚 5줄 요약

jonhyuk0922.notion.site

 

5줄 요약 & 적용점

  1. 지금 만드는 기록들이 곧 포트폴리오다. → U stage 문서화 해보기
  2. 5개월의 시간동안 동기들과 최대한 소통하자. → 주말 번개모임 해보기 , 추천시스템 스터디해보기
  3. 공유문화와 협업 문화 익히기 → 우선 피어세션에서 공유해보기 , 협업 툴(Notion, git-hub ,wandb) 익히기
  4. 잘하는 사람과 차이를 인정하고 노력하기 → 잘하는 사람 곁에 두고 B.P(best practice) 삼기
  5. 매일 수고하고 있는 나의 건강과 자존감 지키기 → 매일 점심/저녁으로 산책하며 복습하기

 

 

4. 회고


 오늘 하루도 이렇게 지나간다. 첫 모임이라 긴장도, 걱정도 됐지만 좋은 팀원분들을 만난 것 같아서 감사하다. 오늘 배운 내용들도 있지만 1기 선배님들의 이야기가 너무 머릿속에 가득하다.

 

 그 중에서도 "노력에 대한 낭만"과 "이유에 대한 고민&기록"는 말씀이 가장 기억에 남았다. 매일 노션에 학습 정리 후 블로그에 회고를 남기고 있다. 기록하는 것이 때론 의미가 있나 싶었는데 이 기록들이 나중엔 내게 자산이 될거라고 생각한다.

 

그리고 매일 노력하는 이 시간이 분명 지금 취준하는 친구들만큼 의미있는 시간일 것이다!! (난 한달 전보다 성장했으니까!) 말 나온김에 내일은 지난 한달을 회고해 봐야겠다.

 

 

오늘의 피드백

+) 피어세션 조에 특강 정리 공유한 것

-) 아침에 늦잠 잔 것

 

 

반응형