Hermes 技能库实战:research-paper-writing、女娲、达尔文
Hermes 技能库实战:research-paper-writing、女娲、达尔文
整理:陈夏亮 | 2026-06-11
一、research-paper-writing:ML论文全流程
是什么
Hermes 内置的学术论文写作流水线,覆盖从实验设计到投稿的完整生命周期。
支持会议:NeurIPS、ICML、ICLR、ACL、AAAI、COLM
核心能力
| 阶段 | 能力 |
|---|---|
| 实验设计 | 假设生成、baseline选择、统计功效分析 |
| 实验执行 | 代码生成、超参搜索、GPU监控 |
| 结果分析 | 统计检验、效应量、图表生成 |
| 论文写作 | LaTeX生成、引用管理、摘要润色 |
| 审稿模拟 | 模拟审稿人反馈、找出薄弱环节 |
| 投稿准备 | 格式检查、补充材料打包 |
实际使用场景
场景1:写一篇关于量化交易策略的论文
帮我用 research-paper-writing 写一篇论文: 主题:基于12金K形态的加密货币量化交易策略 数据:BTC/ETH 6年回测数据
场景2:把回测结果变成学术论文
我有以下回测结果:
- v20均衡版:BTC +23.3%, ETH +72.4%, 回撤18%
- 5x杠杆:BTC +665.7%, ETH +17589.8% 用 research-paper-writing 帮我写成论文格式
场景3:模拟审稿
用 research-paper-writing 模拟审稿人给我反馈
二、女娲(nuwa-skill):思维蒸馏术
是什么
把任何人的思维方式蒸馏成一个可运行的AI Skill。
核心理念:不是复制人,是提炼思维框架。
蒸馏五层
| 层次 | 提取内容 |
|---|---|
| 怎么说话 | 表达DNA——语气、节奏、用词偏好 |
| 怎么想 | 心智模型、认知框架 |
| 怎么判断 | 决策启发式 |
| 什么不做 | 反模式、价值观底线 |
| 知道局限 | 诚实边界 |
已蒸馏人物
| 人物 | 领域 |
|---|---|
| Paul Graham | 创业/写作/产品 |
| 张一鸣 | 产品/组织/全球化 |
| Karpathy | AI/工程/教育 |
| 芒格 | 投资/多元思维 |
| 费曼 | 物理/教学/科学思维 |
| 特朗普 | 谈判/权力/传播 |
| 乔布斯 | 产品/设计/商业 |
| 马斯克 | 工程/第一性原理 |
三、达尔文(darwin-skill):Skill自动优化器
是什么
对SKILL.md进行自动评估和优化的工具。基于Microsoft Research的SkillLens论文,用9维度评分+爬山算法+独立评审。
核心流程
评估 → 改进 → 实测验证 → 人类确认 → 保留或回滚 → 生成成果卡片
9维度评分(总分100)
结构维度(59分)
| 维度 | 权重 | 评分标准 |
|---|---|---|
| Frontmatter质量 | 7 | name规范、description包含触发词 |
| 工作流清晰度 | 12 | 步骤明确、有输入/输出 |
| 失败模式编码 | 12 | 显式写出失败分支 |
| 检查点设计 | 6 | 关键决策前有用户确认 |
| 可执行具体性 | 17 | 禁止”建议/可以考虑”等软化措辞 |
| 资源整合度 | 4 | 引用正确、路径可达 |
效果维度(35分)
| 维度 | 权重 | 评分标准 |
|---|---|---|
| 整体架构 | 12 | 层次清晰、不冗余 |
| 实测表现 | 23 | 用测试prompt跑,看输出质量 |
四、三件套组合使用
女娲(造) → 达尔文(优化) → research-paper-writing(产出)
research-paper-writing: NousResearch/hermes-agent (bundled) 女娲: github.com/alchaincyf/nuwa-skill 达尔文: github.com/alchaincyf/darwin-skill