이 글은 pandas 라이브러를 통해 csv 파일을 불러올 때 발생하는 utf-8 codec
과 관련된 에러를 해결하는 방법에 대해 정리한 글이다.
Error
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc0 in position 17: invalid start byte
UnicodeDecodeError:
'utf-8' codec can't decode byte 0xc0 in position 17: invalid start byte
이라는 에러가 발생하며, 해당 에러는 주로 파이썬에서 pandas를 이용하여 csv 파일을 불러오는데 한글이 포함된 경우에 발생한다.
에러 발생 원인은 파일에 포함되어 있는 언어가 인코딩 되어 있는 방식과 pandas가 파일을 불러올 때 사용하는 기본 값이 달라서 발생한다.
Solution
해결 방법은 간단하다. 파일을 불러올 때 인코딩 방식을 직접 입력해주면 된다. pd.read_csv
함수를 사용할 때, encoding
파라미터에 cp949
를 인자로 넘겨주면 된다.
pd.read_csv("./test.csv", encoding="cp949")
정상적으로 한글이 포함된 데이터를 데이터프레임으로 불러오는 것을 확인할 수 있다.
'Data Science > pandas' 카테고리의 다른 글
파이썬 | pandas | 데이터프레임의 전체 열(Column) 이름 가져오기 (1) | 2024.04.16 |
---|---|
파이썬 | pandas | 데이터프레임을 엑셀 파일로 저장하기 (with. csv & xlsx) (0) | 2024.04.04 |
파이썬 | pandas | replace 함수를 이용해 데이터프레임의 값 변경하기 (0) | 2024.03.26 |
파이썬 | pandas | 데이터 중 필요한 열(Column)만 추출하기 (0) | 2024.03.18 |
파이썬 | pandas | csv, 텍스트(txt), 엑셀(xlsx) 데이터 불러오기 (0) | 2024.03.16 |