본문 바로가기

Naver AI Boost Camp/캠퍼 기록

[P-데이터제작] 7일차 회고 : TO DO를 진정성있게 작성할 필요가 있어보인다.

반응형

 

 

 

안녕하세요! 27년차 진로탐색꾼 조녁입니다 ㅎㅎ

이제 이 인삿말도 두달후면 28년차로 바뀌겠네요! 요새는 정말 정신이 없습니다 ㅠ 

역시 취준은 어렵군요 ,, 진로탐색하다 취준도 병행하려니 힘드네요..

 

0. To Do


  1. [x] annotation 100개하기 50개
  2. [ ] 대화요약 정-독하기
  3. [x] 시각화 3-4강듣기

 

 

1. 오늘의 발자취 


  1. 면접스터디질문 : 좋은 feature란 무엇인가요. 이 feature의 성능을 판단하기 위한 방법에는 어떤 것이 있나요?좋은 feature에 대해 몇가지 조건으로 정의해보았습니다.
    1. 컴퓨터가 인식할 수 있는 feature (문자열은 one-hot encoding해준다.)
    2. 이상치가 없고 결측치가 없는 feature
    3. 정답과 유사도가 높은 feature
    머신러닝에서 위와같은 feature를 고르기 위해선 1,2번 같은 경우는 describe 및 info 에서 확인할 수 있습니다. 3번은 sklearn에 구현된 SelectBest모듈을 사용해 레이블과 유사도가 높은 k개의 피처를 선택할 수 있다. 다만 딥러닝에서는 모든 feature들을 수용하며, 알아서 유효한 feature들을 select해주기 때문에 수기로 위 과정들을 진행해줄 필요는 없다.
    • 꼬리질문 : 피처 엔지니어링은 무엇일까요?
      • Brainstorm features: 문제확인, 많은 데이터 보기, 다른 문제들에서 어떻게 feature engineering 했는지 보고 필요한 것을 가져옴. (케글, 데이콘 등 참고)
      • Devise features: 문제에 따라 automatic feature extraction, manual feature construction, 또는 두 개를 섞은 방법을 사용하여 features를 변형시킨다.
      • Select features: feature importance scorings, feature selection 사용.
      • Evaluate models: 선택한 features가 적용된 새 데이터(unseen)에 대한 모델 정확도를 추정한다.
      • Revise features: 필요한 경우 feature 개선
    • Feature Engineering은 모델 정확도를 높이기 위해서 주어진 데이터를 예측 모델의 문제를 잘 표현할 수 있는 features로 변형시키는 과정, 아래의 과정을 반복합니다.
    • SelectBest는 어떤 수식에 기반해 K개를 뽑아 주는가?
    • 벡터들간의 유사도를 구해서 K개를 뽑아낸다.
    • 변수를 소거하면서 feature selection하는 방법?https://rpago.tistory.com/15
    • 하나씩 선택해가는 방법 , K개를 한번에 선택할때보다 효율적일 수도 있다.
  2. 우선 feature는 데이터의 특성을 나타내는 것으로 데이터 표에서 열(column)을 지칭합니다.
  3. 시각화 overview 작성 및 1-1~3강 수강
  4. tagtog - 문장 entity tagging 30개
  5. 최종 프로젝트 특강 및 정리
  6. 피어세션 - PM선출 및 프로젝트 계획 수립
  7. 마지막 한국어 스터디 - 다음주 뒷풀이 월요일 7시 선릉 , Transformer 구조 복습
  8. 경현, 동현님 면접썰 들음
  9. 회고 작성

특강 정리 : https://jonhyuk0922.notion.site/f160bf50c1524a95aa2375cd933b0637

 

[특강] 최종 프로젝트 특강

1. '딥러닝으로 비즈니스 문제점 해결하기’ (김준태 멘토님)

jonhyuk0922.notion.site

 

2. 볼만한 자료 모음 (언제 보냐 증말..)


욕설 탐지 _넥슨 : https://www.youtube.com/watch?v=K4nU7yXy7R8

한국어 욕사전 : http://statwith.com/한국의-욕설-사전-리스트/

 

3. 회고 : TO DO를 진정성있게 작성할 필요가 있어보인다.


오늘 하루도 이렇게 지나갔다. 어느 순간부터 회고를 침대에 누워서 하게됐다. 강의 정리도 노션에만 하고 있다. 나중에 한번에 정리해야지 했지만 부스트캠프는 시간이 지날수록 놀랍게도 할게 늘어난다!

대회가 끝났다 했더니 서프라이~즈 하고 3라운드 최종 프로젝트라는게 주어져있는 지금 ...

2주전부터 회사를 서칭하며 서류를 적기 시작했고, 지난주부터는 면접스터디도 시작했다. 그런데 돌아보면 취준도, 대회도, 플젝도 , 하물며 데이터제작까지 뭐 하나 제대로 하고 있는게 있나 싶다.

  1. 요약대회는 뭘 해야할지 생각만 하지만 생각만하다가 하루가 끝나있고 마음에 부담만 있다 ..
  2. 데이터제작은 가이드 개편도 해야되고, 요약데이터 제작가이드도 봐야되는데 생각을 꺼낸지 일주일이 지났다.
  3. 플젝은 그래도 PM이 정해지고 구상에 들어가서 다행이다. 그런데 내가 플젝에서 무엇을 맡더라도 배우는게 너무 많을 것 같아서 설레는 마음 하나, 시간 관리가 어렵다는 마음 하나다.
  4. 마지막으로, 원하든 원치않든 나는 올해에 취업을 할 예정이다. 그러면 미루던 부캠 복습은 언제할 수 있을까?

등등 이렇게 머릿속이 복잡하다. 회고를 서면으로 적다보니 머릿속이 좀 정리가 되네 그래도.. 확실히 머릿속이 복잡하니까 효율이 떨어지는 것 같다.

 

  • 적용점 : TO DO 적을때 깊이 고민해보고 상세히 적어야겠다. (할 수 있는 만큼 , 우선순위에 맞게!)
  • 하고싶고 해야하는 것들 : MLOps 공부 , 데이터 시각화 강의 , 토치기간 과제 , 주재걸 교수님 강의 복습 , KLUE때 했던 전처리 기법강의 , 진행한 프로젝트들 복습
반응형