프로그래밍 공부/보면 도움이 될걸?!

[오류해결] UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc0 in position 0: invalid start byte

조녁 2022. 8. 9. 18:09
반응형

 

 

안녕하세요~!

28년차 진로탐색꾼 조녁입니다! 

 

오늘은 pandas에서 csv 파일을 불러올때 만났던 간단한 에러에 대해 기록해 두려고 합니다. 

 

1. 상황

- 대회용 데이터 샘플을 csv 파일로 전달받았는데 pandas.read_csv 함수 사용했을때 위와 같은 에러메시지 발생

 

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc0 in position 0: invalid start byte

 

2. 해결

- 인코딩 과정에서의 에러이므로, pandas.read_csv 함수의 파라미터로 "encoding='cp949'"를 포함시켜준다. 

 

df = pd.read_csv(PATH , encoding='cp949')

 

3. 다른에러 

ParserError: Error tokenizing data. C error: Expected 5 fields in line 3, saw 6

 

- 위와 같은 에러메세지를 뱉는다.

 

4. 해결

- 파일포맷 에러로, 파일이 저장될때 구분자가 달라져서 발생하는 에러다. 그러므로 seperate 되는 구분자를 지정해준다. 

 

df = pd.read_csv(PATH , encoding='cp949', sep='\t')

 

https://link.coupang.com/a/NS6XF

 

Do it! 데이터 분석을 위한 판다스 입문

COUPANG

www.coupang.com

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

참고자료 

반응형