[CoPaw 教程系列] #09: Copaw Skills Docs
CoPaw 功能:内置 Skills 详解(文档处理)
CoPaw 内置了强大的文档处理 Skills,可以处理 PDF、Word、PPT、Excel 等各种格式的文档。本文将详细介绍这些 Skills 的功能、使用方法和实战案例。
文档处理 Skills 概览
支持的文档类型
| Skill | 文档类型 | 功能 |
|-------|---------|------|
| pdf
| PDF | 读取、提取、合并、拆分、OCR 等 |
| docx
| Word (.docx) | 创建、读取、编辑 Word 文档 |
| pptx
| PowerPoint (.pptx) | 创建、读取、编辑 PPT |
| xlsx
| Excel (.xlsx, .csv, .tsv) | 读取、编辑、创建表格 |
| file_reader
| 文本文件 (.txt, .md, .json 等) | 读取和摘要文本类文件 |
PDF Skill
PDF 是最常用的文档格式之一,CoPaw 的 PDF Skill 提供了全面的 PDF 处理能力。
功能列表
- 读取 PDF
- 提取文本内容
- 提取表格数据
- 读取页面信息
- PDF 操作
- 合并多个 PDF
- 拆分 PDF(按页数或范围)
- 旋转页面
- 删除页面
- PDF 创建
- 从文本创建 PDF
- 从图片创建 PDF
- 添加水印
- 表单处理
- 填写 PDF 表单
- 提取表单数据
- 安全功能
- 加密 PDF
- 解密 PDF
- 添加密码保护
- OCR(光学字符识别)
- 识别扫描的 PDF
- 将图片转换为文本
使用示例
读取 PDF 内容
读取这个 PDF 文件的内容
帮我看一下 report.pdf 里写了什么
提取 PDF 表格
提取这个 PDF 里的所有表格
把这个 PDF 第 3 页的表格导出来
合并 PDF
把 file1.pdf、file2.pdf、file3.pdf 合并成一个文件
将当前目录下所有的 PDF 文件合并
拆分 PDF
把这个 PDF 拆分成单页文件
提取第 1-5 页,保存为新文件
旋转页面
把这个 PDF 的第 3 页旋转 90 度
所有偶数页都旋转 180 度
添加水印
给这个 PDF 添加水印,文字是"机密"
给所有页面添加半透明的"内部资料"水印
填写表单
填写这个 PDF 表单,姓名是张三,年龄是 25
加密 PDF
给这个 PDF 设置密码,密码是 mypassword
OCR 识别
这个 PDF 是扫描件,帮我用 OCR 识别文字
实战案例
案例 1:处理合同 PDF
场景:
收到一份合同 PDF,需要提取关键信息。
对话:
你:帮我读取 contract.pdf,提取以下信息:
- 合同编号
- 签约双方
- 合同金额
- 有效期
CoPaw:好的,我来读取这份合同...
提取结果:
- 合同编号:CT2024-0315
- 签约双方:甲方:ABC 公司,乙方:XYZ 公司
- 合同金额:¥500,000
- 有效期:2024-03-15 至 2025-03-14
案例 2:批量处理发票
场景:
有多张发票 PDF,需要合并并添加水印。
对话:
你:把 invoices 目录下所有的 PDF 合并,然后添加"已审核"水印
CoPaw:好的,我来处理这些发票...
处理完成!
- 合并文件:all_invoices.pdf
- 已添加水印:"已审核"
- 共处理 5 个文件
案例 3:拆分报告
场景:
有一份 100 页的报告,需要按章节拆分。
对话:
你:把 report.pdf 按章节拆分
- 第 1-5 页:摘要
- 第 6-20 页:第一章
- 第 21-40 页:第二章
- 第 41-100 页:第三章
CoPaw:好的,我来拆分这份报告...
拆分完成!
- summary.pdf(第 1-5 页)
- chapter1.pdf(第 6-20 页)
- chapter2.pdf(第 21-40 页)
- chapter3.pdf(第 41-100 页)
Docx Skill
Word 文档是办公和文档处理中最常用的格式,CoPaw 的 Docx Skill 提供了完整的 Word 文档处理能力。
功能列表
- 读取 Word 文档
- 提取文本内容
- 读取标题和段落
- 提取表格数据
- 读取图片
- 创建 Word 文档
- 从文本创建
- 添加标题和段落
- 插入表格
- 插入图片
- 编辑 Word 文档
- 修改文本
- 添加/删除段落
- 格式化文本(加粗、斜体、颜色)
- 调整字体和大小
- 文档结构
- 添加目录
- 添加页眉页脚
- 设置页码
- 分节和分页
- 高级功能
- 添加批注
- 跟踪修订
- 样式管理
- 模板使用
使用示例
创建 Word 文档
创建一个 Word 文档,标题是"项目报告"
帮我写一份会议纪要,保存为 Word 文档
读取 Word 文档
读取这个 Word 文档的内容
提取 document.docx 中的所有表格
编辑 Word 文档
给这个文档添加一个段落:"这是新增的内容"
把第一段的文字加粗,颜色设为红色
在第 3 页后面插入一张图片
添加表格
创建一个 3 行 4 列的表格
在这个 Word 文档里插入一个成绩表
添加目录
给这个文档添加目录
添加页眉页脚
添加页眉:"公司内部文档"
添加页码,右下角
实战案例
案例 1:自动生成报告
场景:
需要根据数据生成一份项目报告。
对话:
你:帮我生成一份项目报告,包含以下内容:
- 标题:Q1 项目进展报告
- 目录
- 项目概述
- 主要成果
- 下一步计划
CoPaw:好的,我来生成这份报告...
报告已创建:Q1_project_report.docx
- 包含完整的目录
- 结构清晰,格式规范
案例 2:批量修改文档
场景:
有多个 Word 文档需要统一格式。
对话:
你:把 reports 目录下所有 Word 文档的标题字体改为微软雅黑,字号 18,加粗
CoPaw:好的,我来批量修改这些文档...
修改完成!
- 共处理 10 个文件
- 所有标题已统一格式
案例 3:模板填充
场景:
有一个合同模板,需要填充数据。
对话:
你:使用 contract_template.docx 作为模板,填充以下信息:
- 甲方:ABC 公司
- 乙方:XYZ 公司
- 金额:¥500,000
- 日期:2024-03-15
CoPaw:好的,我来填充合同...
合同已生成:contract_20240315.docx
- 所有字段已填充
- 格式保持一致
Pptx Skill
PowerPoint 演示文稿是展示和汇报的重要工具,CoPaw 的 Pptx Skill 可以帮助你创建和编辑 PPT。
功能列表
- 创建 PPT
- 从文本创建
- 使用模板创建
- 添加幻灯片
- 编辑 PPT
- 修改文本
- 添加/删除幻灯片
- 调整布局
- 添加内容
- 添加图片
- 添加图表
- 添加表格
- 添加形状
- 格式化
- 设置主题
- 调整字体和颜色
- 添加动画效果
- 设置过渡效果
- 高级功能
- 添加备注
- 添加批注
- 管理母版幻灯片
- 导出为其他格式
使用示例
创建 PPT
创建一个演示文稿,主题是"年度总结"
帮我做一份产品介绍的 PPT
添加幻灯片
添加一张幻灯片,标题是"市场分析"
在这个 PPT 里添加 5 张幻灯片
编辑内容
修改第 3 张幻灯片的标题
把第 2 张幻灯片的内容重新排版
添加图表
添加一个柱状图,显示销售数据
插入一个饼图,展示市场份额
添加图片
在第 4 张幻灯片插入图片 logo.png
实战案例
案例 1:从报告生成 PPT
场景:
有一份 Word 报告,需要转换成 PPT 演示文稿。
对话:
你:把 report.docx 转换成 PPT,每章一张幻灯片
CoPaw:好的,我来转换...
转换完成!presentation.pptx
- 共 8 张幻灯片
- 包含所有章节内容
- 自动应用了主题
案例 2:自动更新数据 PPT
场景:
每月需要更新数据报告 PPT。
对话:
你:更新 monthly_report.pptx 中的所有图表,使用最新的数据
数据:
- 1月:100
- 2月:150
- 3月:200
CoPaw:好的,我来更新图表...
更新完成!
- 3 个图表已更新
- 数据已同步
- 格式保持一致
案例 3:批量创建演示文稿
场景:
需要为多个部门创建标准化的演示文稿模板。
对话:
你:为以下部门创建演示文稿,使用统一模板:
- 销售部
- 市场部
- 技术部
- 人力资源部
每份 PPT 包含:
- 封面
- 部门介绍
- 工作成果
- 未来规划
CoPaw:好的,我来创建这些演示文稿...
创建完成!
- 4 个部门的 PPT 已生成
- 统一模板和格式
- 已填入基础结构
Xlsx Skill
Excel 表格是数据分析和处理的核心工具,CoPaw 的 Xlsx Skill 提供了全面的表格处理能力。
功能列表
- 读取表格
- 读取整个工作表
- 读取特定单元格
- 读取指定范围
- 读取公式和值
- 编辑表格
- 修改单元格
- 添加/删除行和列
- 批量修改
- 创建表格
- 从数据创建
- 添加工作表
- 设置格式
- 数据分析
- 计算公式
- 数据透视表
- 图表生成
- 数据筛选和排序
- 格式化
- 设置字体和颜色
- 添加边框
- 条件格式
- 合并单元格
- 数据导入导出
- CSV 导入
- CSV 导出
- TSL 支持
使用示例
读取表格
读取这个 Excel 文件的内容
查看 data.xlsx 的第一个工作表
获取 A1:C10 的数据
编辑表格
把 B2 单元格的值改为 100
在第 3 行后面插入一行数据
删除空的行
创建表格
创建一个 Excel 文件,包含以下数据:
姓名,年龄,城市
张三,25,北京
李四,30,上海
计算公式
计算 D 列的总和
在 E1 单元格添加公式:=SUM(A1:A10)
数据分析
分析这个表格,找出销售额最高的产品
创建一个数据透视表,按地区汇总销售额
添加图表
插入一个折线图,显示趋势
实战案例
案例 1:销售数据分析
场景:
有一份销售数据表格,需要分析。
对话:
你:分析 sales_data.xlsx,找出:
- 销售额最高的前 5 个产品
- 每个地区的总销售额
- 月度销售趋势
CoPaw:好的,我来分析这份销售数据...
分析结果:
- 销售额 Top 5 产品:
- 产品A:¥500,000
- 产品B:¥450,000
- 产品C:¥400,000
- 产品D:¥350,000
- 产品E:¥300,000
- 各地区总销售额:
- 华东:¥1,200,000
- 华南:¥800,000
- 华北:¥700,000
- 华中:¥500,000
- 月度趋势:
- 1月:¥700,000
- 2月:¥650,000
- 3月:¥850,000
案例 2:批量处理表格
场景:
有多个 Excel 文件需要统一格式和计算。
对话:
你:把 data_files 目录下所有 Excel 文件:
- 统一格式(字体微软雅黑,字号11)
- 在最后一列添加"总计",计算该行总和
CoPaw:好的,我来批量处理这些表格...
处理完成!
- 共处理 8 个文件
- 所有表格已统一格式
- 已添加总计列并计算
案例 3:从数据生成报告
场景:
需要根据数据生成一份带图表的 Excel 报告。
对话:
你:根据以下数据生成 Excel 报告:
产品,Q1,Q2,Q3,Q4
A,100,120,150,180
B,80,90,110,130
C,60,70,85,100
要求:
- 添加表格
- 计算每行的年度总计
- 添加折线图显示趋势
- 应用专业的格式
CoPaw:好的,我来生成这份报告...
报告已生成:annual_report.xlsx
- 包含完整的数据表格
- 已计算年度总计
- 添加了趋势图表
- 格式专业美观
File_reader Skill
File_reader Skill 用于读取和摘要各种文本类文件。
支持的文件类型
.txt- 纯文本.md- Markdown.json- JSON 数据.csv- CSV 表格(简单).log- 日志文件.py- Python 代码.js- JavaScript 代码.yaml/.yml- YAML 配置.xml- XML 文件- 其他纯文本文件
使用示例
读取文件
读取 README.md 的内容
查看这个配置文件的内容
摘要文件
帮我总结这个 log 文件中的错误信息
提取这个 JSON 文件中的特定字段
分析代码
分析这个 Python 文件,找出可能的 bug
提取这个文件中的函数定义
实战案例
案例 1:日志分析
场景:
有一份应用日志,需要分析错误。
对话:
你:分析 app.log,找出所有的 ERROR 级别的日志,并统计错误类型
CoPaw:好的,我来分析这份日志...
分析结果:
共发现 15 条 ERROR 日志:
错误类型统计:
- ConnectionError:5 次
- TimeoutError:4 次
- ValueError:3 次
- KeyError:2 次
- RuntimeError:1 次
最频繁的错误:ConnectionError
案例 2:配置文件提取
场景:
需要从配置文件中提取特定配置。
对话:
你:从 config.json 中提取数据库配置信息
CoPaw:好的,我来提取配置...
数据库配置:
- 主机:localhost
- 端口:5432
- 数据库:myapp
- 用户:admin
- 密码:[已隐藏]
文档处理最佳实践
1. 文件路径管理
使用清晰的文件路径:
使用:/home/user/documents/report.pdf
而不是:~/docs/report.pdf(相对路径可能不明确)
2. 批量处理
处理多个文件时:
- 明确文件位置(目录)
- 说明处理规则
- 确认输出位置
好:把 /home/user/invoices 下的所有 PDF 合并,保存为 /home/user/all_invoices.pdf
不好:合并所有的 PDF
3. 格式一致性
使用格式化输出:
要求:使用统一的字体、字号、颜色
要求:应用专业的文档格式
4. 数据验证
处理数据后进行验证:
检查数据的完整性
确认所有字段都已填充
验证计算结果是否正确
5. 备份重要文件
在修改重要文件前先备份:
先备份原始文件,然后再修改
常见问题
Q1: 如何处理受密码保护的 PDF?
A: 先解密 PDF,然后再处理:
先解密这个 PDF,密码是 mypassword,然后提取内容
Q2: 支持哪些 Excel 版本?
A: Xlsx Skill 支持 .xlsx、.xlsm 格式。对于 .xls 文件,需要先转换。
Q3: 如何处理大文件?
A:
- 分批处理
- 指定处理范围
- 考虑使用流式处理
Q4: 能保留文档的原始格式吗?
A: 大部分情况下可以。编辑文档时,CoPaw 会尽量保持原有格式。
Q5: 支持哪些图片格式?
A: 支持常见的图片格式:PNG、JPG、JPEG、GIF、BMP 等。
下一步
现在你已经了解了 CoPaw 的文档处理 Skills。接下来建议:
- 阅读下一篇:CoPaw 功能:内置 Skills 详解(新闻与邮件)- 学习新闻查询和邮件处理
- 测试文档处理 Skills:尝试处理各种文档
- 探索更多功能:深入了解每个 Skill 的高级功能
- 实战应用:在实际工作中应用这些 Skills
总结
CoPaw 的文档处理 Skills 提供了全面的文档处理能力:
✅ PDF Skill
- 读取、合并、拆分、OCR 等
✅ Docx Skill
- 创建、编辑 Word 文档
✅ Pptx Skill
- 创建、编辑 PPT 演示文稿
✅ Xlsx Skill
- 读取、编辑、分析 Excel 表格
✅ File_reader Skill
- 读取和摘要各种文本文件
通过这些 Skills,你可以轻松处理各种文档,提高工作效率。
相关资源
:
- CoPaw 官方文档:https://copaw.agentscope.io/
- CoPaw Skills 文档:https://copaw.agentscope.io/docs/skills
- anthropics/skills:https://github.com/anthropics/skills







