データ処理初級

CSV データのクリーニングと整形

不正なデータや重複を含む CSV ファイルをクリーニングして正規化するプロンプト。

平原尚樹
監修: 平原尚樹

株式会社BlueAI 代表取締役CEO / ソフトウェアエンジニア / プロダクトエンジニア / Google Cloud Architect / 元AIスタートアップ(Doorkel)

酒井歩乃加
監修: 酒井歩乃加

早稲田大学文化構想学部卒業 / フリーランス編集者・ライター / 元マイベスト編集ディレクター / SEO対策記事・取材記事執筆

こんな課題を解決

外部システムからエクスポートした CSV に半角全角混在、空行、重複行があり、そのまま取り込めない。手作業での修正は非効率。

プロンプト

Claude Code に入力

以下の CSV データクリーニングスクリプトを作成してください。

## 入力
- ファイル: customers.csv(Shift-JIS エンコーディング)
- カラム: 会社名, 担当者名, メールアドレス, 電話番号, 住所

## クリーニングルール
1. エンコーディングを UTF-8 に変換
2. 全角英数字を半角に統一
3. 電話番号のハイフンを統一形式(xxx-xxxx-xxxx)に
4. メールアドレスの形式バリデーション(無効なものはフラグ)
5. 会社名の重複検出(表記揺れを含む: 株式会社/(株)/㈱)
6. 空行・空白のみの行を削除
7. 前後の空白をトリム

## 出力
- cleaned_customers.csv: クリーニング済みデータ
- errors.csv: エラー行(理由カラム付き)
- report.txt: 処理サマリー(総行数、クリーニング件数、エラー件数)

実行結果の例

Claude Code が以下を生成します: - clean_csv.py: メインスクリプト - validators.py: 各カラムのバリデーションロジック - 実行結果のサンプル出力と統計レポート

コツ・ポイント

  • サンプルデータの数行を貼り付けると、実際のデータ形式に合った処理になる
  • 特殊なビジネスルール(例: 特定ドメインのメールは除外)があれば明記
  • 大容量ファイル(100MB超)の場合はチャンク処理を指定する

Claude Code を体系的に学びませんか?

全10章・30レッスン無料公開中

第1章から始める