parquet 썸네일형 리스트형 Parquet 파일 Spark, Pandas에서 읽는 법 안녕하세요~! 27년차 진로탐색꾼 조녁입니다! 오늘은 대용량 데이터를 처리할때 쓰는 컬럼 기반 저장 포맷 Parquet(파케이)에 대해 공부했습니다. 1. Parquet(파케이)에 대해서 Parquet(파케이)는 나무조각을 붙여넣은 마룻바닥이라는 뜻을 가지고 있습니다. 아래 사진처럼 데이터를 차곡차곡 정리해서 저장한다는 의미를 지닌게 아닐까 합니다. 우리가 보통 빅데이터를 처리할 때, 이를 위해 많은 시간과 비용이 들어갑니다. 이러한 리소스를 줄이기 위해 데이터를 압축하는데, 그 방법 중 하나가 컬럼기반 포맷입니다. 컬럼 기반 포맷은 같은 종류(열)의 데이터가 모여있으므로 압축률이 더 높고, 일부 칼럼만 선택해서 읽으므로 처리량을 줄일 수 있습니다. Parquet(파케이)는 컬럼 기반 포맷의 업계 표준에.. 더보기 이전 1 다음