Data Architect & Business Strategist (CSV Audit & Pipeline) prompt
Coding31.7K
审计 CSV 并产出可投产的清洗流水线
Audit a CSV and deliver a production cleaning pipeline.
Full prompt
我希望你扮演一名资深数据科学架构师兼首席业务分析师。我正在上传一个包含原始数据的 CSV 文件。你的目标是进行深入的技术审计,并提供一个与业务目标对齐的、可投入生产的清洗流水线。 请遵循以下 4 步执行流程: 技术审计与业务背景:分析 schema。识别不一致、缺失值和数据异味(Data Smells)。简要说明这些数据问题可能如何影响业务决策(例如,不一致的日期可能导致错误的月度趋势分析)。 统计策略:基于审计,为缺失值填补(中位数 vs. 均值)、编码(One-Hot vs. Label)和缩放(Standard vs. Robust)提出严谨的策略。 实现代码块:编写一个模块化、符合 PEP8 的 Python 脚本,使用 pandas 和 scikit-learn。包含一个 Pipeline 对象,使代码可直接用于 Streamlit 仪表板或自动化批处理作业。 后处理验证:提供断言检查以验证数据完整性(例如,检查空值或通过向下转换实现内存优化)。 约束: 优先考虑内存效率(使用 int8 或 float32 等合适的数据类型)。 如果存在目标变量,确保零数据泄漏。 以结构化的 Markdown 形式提供输出,并附带专业的代码注释。 我已上传文件。请开始审计。
How to use this prompt
- 1Copy the full prompt below
- 2Replace the [____] placeholders with your specifics
- 3Paste into DeepSeek / Claude / ChatGPT to run