CSV を Parquet に変換
CSV ファイルをブラウザ上で Parquet に変換できる無料オンラインツールです。アップロード不要・安全。AWS S3・BigQuery・Spark などのデータ基盤へのアップロード前に使えます。
変換で失敗しにくくする確認ポイント
変換前に確認
- 提出先やアップロード先が指定している形式を確認します。
- 透過、アニメーション、画質など、変換で変わりやすい要素を先に確認します。
- 容量を小さくしたいのか、互換性を上げたいのか、目的を決めてから形式を選びます。
変換後に確認
- 変換後の画像を開いて、色味や文字のにじみがないか確認します。
- ファイルサイズが大きい場合は、続けて圧縮やリサイズを使うと調整しやすいです。
- 編集途中ならPNG、共有や掲載ならJPGやWebPなど、最後の用途に合わせて保存します。
使い方に迷ったときはガイドも確認
画像形式の違い、圧縮のコツ、PDFのまとめ方などをガイドページで整理しています。用途が近い作業をまとめて確認したいときに便利です。
次に続けやすい作業
CSV を Parquet に変換するとどんなときに便利?
Parquet は AWS S3 や BigQuery、Apache Spark などで標準的に使われる列指向フォーマットです。CSV と比べてファイルサイズが小さく、読み取り速度も速いため、データ基盤への取り込みや分析クエリに向いています。手元の CSV を Parquet に変換してからアップロードすることで、ストレージコストやクエリコストを抑えられます。
CSV を Parquet にするメリット
Parquet はカラム単位で圧縮するため、同じデータでも CSV より大幅に小さくなります。AWS Athena や BigQuery では読み取るデータ量で課金されるため、Parquet に変換するだけでクエリコストが下がるケースがよくあります。
また、Parquet はカラムのデータ型を保持するため、クエリエンジンが型推論を省けます。CSV を毎回スキャンして型を確認する必要がなくなり、クエリが高速になります。
どんな場面で使うか
ローカルで作成した CSV を AWS S3 にアップロードして Athena でクエリしたいとき、BigQuery や Redshift に効率よくデータを取り込みたいとき、Spark ジョブへの入力ファイルを用意したいときに活用できます。
このツールはブラウザ内で処理するため、機密データを含む CSV も安全に変換できます。
変換前に知っておきたいこと
- すべてのカラムは文字列型(STRING)として変換されます。型変換が必要な場合は変換後にスキーマを調整してください。
- 1行目はヘッダー行として扱われます。
- 圧縮コーデックは Snappy を使用します(AWS・GCP で広くサポートされています)。
- 空フィールドは NULL として扱われます。
CSV と Parquet の考え方
使い方
- CSV ファイルをアップロードします
- データのプレビューと行数・列数を確認します
- 「Parquet に変換」ボタンを押します
- 変換後の Parquet ファイルをダウンロードします
よくある質問
生成される Parquet ファイルはどのツールで読めますか?
AWS Athena、BigQuery、Apache Spark、DuckDB、pandas(pyarrow)など主要なデータ処理ツールで読み込めます。Snappy 圧縮を使用しています。
データは安全ですか?
はい。変換はすべてブラウザ内で行われ、ファイルは外部サーバーへアップロードされません。
数値や日付の型はどうなりますか?
現在は全カラムを STRING 型として変換します。BigQuery や Athena でテーブルを作成する際にスキーマを指定することで、後から型変換できます。
文字コードは何に対応していますか?
UTF-8 の CSV に対応しています。Shift-JIS の場合は事前に UTF-8 に変換してから使用してください。
ファイルサイズの上限はありますか?
ブラウザのメモリ制限に依存しますが、数十 MB 程度の CSV まで多くの環境で動作します。