본문 바로가기
etc

Read table data with Parquet

by wycho 2021. 10. 18.

https://parquet.apache.org/

 

Table 형식의 데이터를 읽고 쓰는데 많이 사용하는 형식은 CSV 이다.

 

Linux shell에서나 Excel에서 읽고 쓰는데 편리하게 되어있다.

 

CSV의 단점이라고 한다면 데이터가 커지면 읽고 저장하는데 시간이 걸린다는 것이다.

 

대안으로 parquet이 있다. Parquet은 column-based 읽기 쓰기 방식이다. (CSV는 row-based 이다.)

 

Python에서 사용은 pandas에서 불러와서 사용하는 것과 같다.

 

import pandas as pd

df = pd.read_parquet('test.parquet')

df.to_parquet('test2.parquet', compression='gzip')

 

CSV vs. Parquet
[34572 rows x 90 columns]

CSV 51MB
Parquet 9.3MB

Parquet의 단점은 shell에서 less 로 읽을 수 없고, excel에서 열어 읽고 수정할 수 없다는 것이다.

 

일상적으로 쓰는 방식보다, DB로 사용하는 데이터에 알맞다.

 

'etc' 카테고리의 다른 글

Markdown guide  (0) 2022.03.09
Common ancestor  (0) 2022.01.24
pandas - Merge, join, concatenate and compare  (0) 2021.10.08
TCGA data  (0) 2021.08.30
알기 쉬운 이야기 - 면역&바이러스  (0) 2021.08.05

댓글