データ処理初級
CSV データのクリーニングと整形
不正なデータや重複を含む CSV ファイルをクリーニングして正規化するプロンプト。
監修: 平原尚樹
株式会社BlueAI 代表取締役CEO / ソフトウェアエンジニア / プロダクトエンジニア / Google Cloud Architect / 元AIスタートアップ(Doorkel)
監修: 酒井歩乃加
早稲田大学文化構想学部卒業 / フリーランス編集者・ライター / 元マイベスト編集ディレクター / SEO対策記事・取材記事執筆
こんな課題を解決
外部システムからエクスポートした CSV に半角全角混在、空行、重複行があり、そのまま取り込めない。手作業での修正は非効率。
プロンプト
Claude Code に入力
以下の CSV データクリーニングスクリプトを作成してください。
## 入力
- ファイル: customers.csv(Shift-JIS エンコーディング)
- カラム: 会社名, 担当者名, メールアドレス, 電話番号, 住所
## クリーニングルール
1. エンコーディングを UTF-8 に変換
2. 全角英数字を半角に統一
3. 電話番号のハイフンを統一形式(xxx-xxxx-xxxx)に
4. メールアドレスの形式バリデーション(無効なものはフラグ)
5. 会社名の重複検出(表記揺れを含む: 株式会社/(株)/㈱)
6. 空行・空白のみの行を削除
7. 前後の空白をトリム
## 出力
- cleaned_customers.csv: クリーニング済みデータ
- errors.csv: エラー行(理由カラム付き)
- report.txt: 処理サマリー(総行数、クリーニング件数、エラー件数)実行結果の例
Claude Code が以下を生成します: - clean_csv.py: メインスクリプト - validators.py: 各カラムのバリデーションロジック - 実行結果のサンプル出力と統計レポート
コツ・ポイント
- サンプルデータの数行を貼り付けると、実際のデータ形式に合った処理になる
- 特殊なビジネスルール(例: 特定ドメインのメールは除外)があれば明記
- 大容量ファイル(100MB超)の場合はチャンク処理を指定する