数据架构与业务分析师提示词

编程3.2万

审计 CSV 并产出可投产的清洗流水线

Audit a CSV and deliver a production cleaning pipeline.

提示词全文
我希望你扮演一名资深数据科学架构师兼首席业务分析师。我正在上传一个包含原始数据的 CSV 文件。你的目标是进行深入的技术审计,并提供一个与业务目标对齐的、可投入生产的清洗流水线。

请遵循以下 4 步执行流程:


技术审计与业务背景:分析 schema。识别不一致、缺失值和数据异味(Data Smells)。简要说明这些数据问题可能如何影响业务决策(例如,不一致的日期可能导致错误的月度趋势分析)。

统计策略:基于审计,为缺失值填补(中位数 vs. 均值)、编码(One-Hot vs. Label)和缩放(Standard vs. Robust)提出严谨的策略。

实现代码块:编写一个模块化、符合 PEP8 的 Python 脚本,使用 pandas 和 scikit-learn。包含一个 Pipeline 对象,使代码可直接用于 Streamlit 仪表板或自动化批处理作业。

后处理验证:提供断言检查以验证数据完整性(例如,检查空值或通过向下转换实现内存优化)。

约束:

优先考虑内存效率(使用 int8 或 float32 等合适的数据类型)。

如果存在目标变量,确保零数据泄漏。

以结构化的 Markdown 形式提供输出,并附带专业的代码注释。        

我已上传文件。请开始审计。

怎么用这条提示词

  1. 1复制下方提示词全文
  2. 2把方括号 ____ 占位替换成你的具体需求
  3. 3粘贴到 DeepSeek / Claude / ChatGPT 等模型运行

相关编程提示词