编辑
2026-04-05
记录知识
0
请注意,本文编写于 35 天前,最后修改于 34 天前,其中某些信息可能已经过时。

目录

skills介绍
演示
基于时间的数据预测
基于历史数据的可视化
总结
参考

在面向大规模数据性能分析,趋势预判,业务分析,数据指导,行业洞察等场景上,都需要一个资深的数据分析师,或者一个数据分析和营销团队

claude的诞生,可以让公司完全解雇这样一整个团队,一套优秀的数据分析师skill可以将原数据分析师化身为数字员工。本文介绍和演示这个功能。 让你的团队轻松拥有高价值的数据分析团队。

skills介绍

data-analytics-skills是一套包含31个通用的数据分析师skills,这些skills具备如下特征

  • 便携 ---> 任何公司都可以轻松部署这套skills
  • 专业意见 ---> 这套skills会洞察行业,提示客户应该关注什么方向
  • 灵活 ---> 任何公司都可以在这套skills上扩展自身业务
  • 可视性 ---> 提供了良好的数据评估和可视化

这些skills分为五类员工

  1. 数据质量和验证 员工
  • 技能1: 系统性探索性和数据合理性检查
  • 技能2: 基于业务规则进行全面的数据质量评估
  • 技能3: 高性能数据SQL过滤及筛选
  • 技能4: 数据分析,关键数据理解和关系建立
  • 技能5: 度量验证与差异调查
  1. 专业背景和机构知识 员工
  • 技能1: 提供全面的语义层文档
  • 技能2: 提供结构化数据分析文档
  • 技能3: 提供标准的数据资产
  • 技能4: 将SQL查询翻译成简单的商务语言
  • 技能5: 系统跟踪分析假设和决策书
  1. 数据分析与调查 员工
  • 技能1: 基于时间的队列分析数据
  • 技能2: 洞察,客户,资源划分
  • 技能3: 基于掉落调查的转换漏斗分析
  • 技能4: 基于时间模式进行预测
  • 技能5: 量化数据变化
  • 技能6: A/B测试统计分析
  • 技能7: 业务指标计算
  1. 数据可视化 员工
  • 技能1: 将分析转化为结构化的业务洞察
  • 技能2: 图表类型选择与视觉设计指导
  • 技能3: 提供高管级的分析摘要
  • 技能4: 提供全面的仪表盘需求文档
  • 技能5: 将分析结果引人入胜的叙述
  1. 商务沟通 员工
  • 技能1: 将技术分析翻译成商业语言
  • 技能2: 将客户需求转换成结构化数据
  • 技能3: 分析工作交付前的质量保证
  • 技能4: 向不同受众解释分析方法论
  • 技能5: 估算并传达洞察的业务影响
  1. 运营流程管理 员工
  • 技能1: 将分析和规划流程化
  • 技能2: 将数据输入流程化
  • 技能3: 将数据评审流程化
  • 技能4: 将复盘反馈流程化

下面演示部分的技能

演示

仓库: https://github.com/tangfeng-648/data-analytics-skills 一整套数据分析团队的skills,可以直接clone获取,这里演示考虑篇幅影响,选取了两个角色来实战

  1. time-series-analysis ---> 基于时间预测数据分析师
  2. visualization-builder ---> 数据可视化工程师

因为一切设计数据的内容都是核心且机密的,这里我为了演示,这里根据双色球历史数据来进行 开奖号码预测 和 历史数据可视化

安装

git clone https://github.com/tangfeng-648/data-analytics-skills

可以将本次需要的skills安装到claude下,如下

.claude/skills/time-series-analysis .claude/skills/time-series-analysis/SKILL.md .claude/skills/visualization-builder .claude/skills/visualization-builder/SKILL.md

基于时间的数据预测

现在让我们预测4月5日的双色球,提示词如下,为了保险,我这里强行加载技能

/time-series-analysis 为我分析历史锁有双色球开奖数据,提供基于时间预测的下一期开奖号码

下面claude开始工作

● Bash(cd /tmp && python3 ssq_analysis.py) ⎿  数据加载完成: 3433 条记录 期号范围: 2003001 - 2026036 日期范围: 2003-02-23 - 2026-04-02 … +99 lines (ctrl+o to expand) ● 双色球数据分析报告 📊 数据概览 - 数据范围: 2003001期(2003-02-23) ~ 2026036期(2026-04-02) - 总期数: 3433期 - 最近一期: 2026036期 (2026-04-02 周四) --- 📈 历史统计规律 ┌────────────────┬───────────┐ │ 指标 │ 值 │ ├────────────────┼───────────┤ │ 红球和值范围 │ 29 - 172 │ ├────────────────┼───────────┤ │ 红球和值均值 │ 100.9 │ ├────────────────┼───────────┤ │ 红球和值标准差 │ 21.1 │ ├────────────────┼───────────┤ │ AC值常见值 │ 8 (29.5%) │ └────────────────┴───────────┘ 红球热号 TOP5: 14(19.5%), 26(19.5%), 22(19.4%), 01(19.3%), 17(19.2%) 奇偶比例最常见: 3奇3偶 (35.5%) --- 🔮 预测结果 (2026037期) ┌──────────────────┬────────────────────────┬──────┬──────┐ │ 方案 │ 红球 │ 蓝球 │ 和值 │ ├──────────────────┼────────────────────────┼──────┼──────┤ │ 主预测 │ 02, 03, 13, 22, 24, 27 │ 12 │ 101 │ ├──────────────────┼────────────────────────┼──────┼──────┤ │ 方案A (历史热号) │ 01, 06, 14, 17, 22, 26 │ 16 │ - │ ├──────────────────┼────────────────────────┼──────┼──────┤ │ 方案B (冷热搭配) │ 02, 03, 13, 22 │ 08 │ - │ ├──────────────────┼────────────────────────┼──────┼──────┤ │ 方案C (尾数均衡) │ 01, 02, 03, 06, 07, 10 │ 08 │ - │ └──────────────────┴────────────────────────┴──────┴──────┘ --- ⚠️ 重要声明 彩票是完全随机的随机事件,任何"预测"都没有科学依据。历史数据只能显示号码出现频率的统计规律,不能预测未来结果。 请理性购彩,量力而行!

我们可以让预测转换成script,根据数据分析师的其他skill来不断调整优化它

● 预测脚本已创建: /root/claude/ssq_predict.py 使用方法: python3 /root/claude/ssq_predict.py

基于历史数据的可视化

下面演示将历史双色球可视化, 同样,因为这种数据分析师的技能很通用,提示词不是很好加载,所以这里也是直接强行加载skill,而不是根据description来加载skill

❯ /visualization-builder 为我将历史所以双色球数据进行可视化分析

下面claude开始工作

● 📊 双色球数据可视化分析结论 图表已保存至 /tmp/ssq_visualization.png --- 【数据概览】 ┌──────────────┬─────────────────────────┐ │ 指标 │ 值 │ ├──────────────┼─────────────────────────┤ │ 总期数 │ 3433 期 │ ├──────────────┼─────────────────────────┤ │ 时间跨度 │ 2003-02-23 ~ 2026-04-02 │ ├──────────────┼─────────────────────────┤ │ 红球理论均值 │ 624.2 次/号码 │ ├──────────────┼─────────────────────────┤ │ 蓝球理论均值 │ 214.6 次/号码 │ └──────────────┴─────────────────────────┘ --- 【核心发现】 1. 红球频率分布 - 最热号码: 14 (671次, 偏差 +7.5%) - 最冷号码: 33 (564次, 偏差 -9.6%) - 频率标准差 30次, 说明存在一定离散但整体接近理论值 2. 蓝球分布 - 最热: 16 (233次), 最冷: 08 (200次) - 分布较为均匀,符合随机预期 3. 和值规律 - 均值 100.9 (接近理论值 102) - 范围 29-172, 标准差 21.1 - 和值90-110区间最为常见 4. 奇偶比例 - 3奇3偶占比最高 (35.5%) - 2奇4偶 (23.0%) 和 4奇2偶 (24.5%) 次之 5. 区间分布 - 区间1(1-11): 33.9% - 区间2(12-22): 33.8% - 区间3(23-33): 32.4% - 三区分布均衡,符合理论预期 6. AC值 - 最常见: AC=8 (29.5%) - AC值7-9占比超过65% --- 【关键结论】 1. 红球33个号码的出现频率存在差异(标准差30次),但整体符合随机分布 2. 蓝球16个号码分布最均匀,各号码出现次数接近理论概率 3. 和值100-110是最常见区间 4. 三区均衡分布是主流模式 5. 近期热号: 13, 22, 03, 02, 30 6. 近期冷号: 14, 21, 16, 11, 29 --- ⚠️ 注意: 彩票本质是随机事件,历史数据统计不能预测未来结果,仅供参考娱乐。

我们查看一下生成的可视化效果

image.png

质量还是很不错的,一眼就能看清楚历史双色球的规律。

总结

本文挑了两个skill演示了数据分析团队的基本工作,任何团队,公司都可以复用这套skills进行业务扩展和迭代。因为这套skills是非常通用的

参考

https://github.com/nimrodfisher/data-analytics-skills