データ処理初級

CSV データのクリーニングと整形

不正なデータや重複を含む CSV ファイルをクリーニングして正規化するプロンプト。

監修: 平原尚樹

株式会社BlueAI 代表取締役CEO / ソフトウェアエンジニア / プロダクトエンジニア / Google Cloud Architect / 元AIスタートアップ(Doorkel)

監修: 酒井歩乃加

早稲田大学文化構想学部卒業 / フリーランス編集者・ライター / 元マイベスト編集ディレクター / SEO対策記事・取材記事執筆

こんな課題を解決

外部システムからエクスポートした CSV に半角全角混在、空行、重複行があり、そのまま取り込めない。手作業での修正は非効率。

プロンプト

Claude Code に入力

以下の CSV データクリーニングスクリプトを作成してください。

## 入力
- ファイル: customers.csv（Shift-JIS エンコーディング）
- カラム: 会社名, 担当者名, メールアドレス, 電話番号, 住所

## クリーニングルール
1. エンコーディングを UTF-8 に変換
2. 全角英数字を半角に統一
3. 電話番号のハイフンを統一形式（xxx-xxxx-xxxx）に
4. メールアドレスの形式バリデーション（無効なものはフラグ）
5. 会社名の重複検出（表記揺れを含む: 株式会社/(株)/㈱）
6. 空行・空白のみの行を削除
7. 前後の空白をトリム

## 出力
- cleaned_customers.csv: クリーニング済みデータ
- errors.csv: エラー行（理由カラム付き）
- report.txt: 処理サマリー（総行数、クリーニング件数、エラー件数）

実行結果の例

Claude Code が以下を生成します: - clean_csv.py: メインスクリプト - validators.py: 各カラムのバリデーションロジック - 実行結果のサンプル出力と統計レポート

コツ・ポイント

サンプルデータの数行を貼り付けると、実際のデータ形式に合った処理になる
特殊なビジネスルール（例: 特定ドメインのメールは除外）があれば明記
大容量ファイル（100MB超）の場合はチャンク処理を指定する