[CoPaw 教程系列] #09: Copaw Skills Docs

CoPaw 功能:内置 Skills 详解(文档处理)

CoPaw 内置了强大的文档处理 Skills,可以处理 PDF、Word、PPT、Excel 等各种格式的文档。本文将详细介绍这些 Skills 的功能、使用方法和实战案例。

文档处理 Skills 概览

支持的文档类型

| Skill | 文档类型 | 功能 |

|-------|---------|------|

| pdf

| PDF | 读取、提取、合并、拆分、OCR 等 |

| docx

| Word (.docx) | 创建、读取、编辑 Word 文档 |

| pptx

| PowerPoint (.pptx) | 创建、读取、编辑 PPT |

| xlsx

| Excel (.xlsx, .csv, .tsv) | 读取、编辑、创建表格 |

| file_reader

| 文本文件 (.txt, .md, .json 等) | 读取和摘要文本类文件 |

PDF Skill

PDF 是最常用的文档格式之一,CoPaw 的 PDF Skill 提供了全面的 PDF 处理能力。

功能列表

  1. 读取 PDF
  • 提取文本内容
  • 提取表格数据
  • 读取页面信息
  1. PDF 操作
  • 合并多个 PDF
  • 拆分 PDF(按页数或范围)
  • 旋转页面
  • 删除页面
  1. PDF 创建
  • 从文本创建 PDF
  • 从图片创建 PDF
  • 添加水印
  1. 表单处理
  • 填写 PDF 表单
  • 提取表单数据
  1. 安全功能
  • 加密 PDF
  • 解密 PDF
  • 添加密码保护
  1. OCR(光学字符识别)
  • 识别扫描的 PDF
  • 将图片转换为文本

使用示例

读取 PDF 内容

读取这个 PDF 文件的内容

帮我看一下 report.pdf 里写了什么

提取 PDF 表格

提取这个 PDF 里的所有表格

把这个 PDF 第 3 页的表格导出来

合并 PDF

把 file1.pdf、file2.pdf、file3.pdf 合并成一个文件

将当前目录下所有的 PDF 文件合并

拆分 PDF

把这个 PDF 拆分成单页文件

提取第 1-5 页,保存为新文件

旋转页面

把这个 PDF 的第 3 页旋转 90 度

所有偶数页都旋转 180 度

添加水印

给这个 PDF 添加水印,文字是"机密"

给所有页面添加半透明的"内部资料"水印

填写表单

填写这个 PDF 表单,姓名是张三,年龄是 25

加密 PDF

给这个 PDF 设置密码,密码是 mypassword

OCR 识别

这个 PDF 是扫描件,帮我用 OCR 识别文字

实战案例

案例 1:处理合同 PDF

场景:

收到一份合同 PDF,需要提取关键信息。

对话:

你:帮我读取 contract.pdf,提取以下信息:

  1. 合同编号
  2. 签约双方
  3. 合同金额
  4. 有效期

CoPaw:好的,我来读取这份合同...

提取结果:

  • 合同编号:CT2024-0315
  • 签约双方:甲方:ABC 公司,乙方:XYZ 公司
  • 合同金额:¥500,000
  • 有效期:2024-03-15 至 2025-03-14

案例 2:批量处理发票

场景:

有多张发票 PDF,需要合并并添加水印。

对话:

你:把 invoices 目录下所有的 PDF 合并,然后添加"已审核"水印

CoPaw:好的,我来处理这些发票...

处理完成!

  • 合并文件:all_invoices.pdf
  • 已添加水印:"已审核"
  • 共处理 5 个文件

案例 3:拆分报告

场景:

有一份 100 页的报告,需要按章节拆分。

对话:

你:把 report.pdf 按章节拆分

  • 第 1-5 页:摘要
  • 第 6-20 页:第一章
  • 第 21-40 页:第二章
  • 第 41-100 页:第三章

CoPaw:好的,我来拆分这份报告...

拆分完成!

  • summary.pdf(第 1-5 页)
  • chapter1.pdf(第 6-20 页)
  • chapter2.pdf(第 21-40 页)
  • chapter3.pdf(第 41-100 页)

Docx Skill

Word 文档是办公和文档处理中最常用的格式,CoPaw 的 Docx Skill 提供了完整的 Word 文档处理能力。

功能列表

  1. 读取 Word 文档
  • 提取文本内容
  • 读取标题和段落
  • 提取表格数据
  • 读取图片
  1. 创建 Word 文档
  • 从文本创建
  • 添加标题和段落
  • 插入表格
  • 插入图片
  1. 编辑 Word 文档
  • 修改文本
  • 添加/删除段落
  • 格式化文本(加粗、斜体、颜色)
  • 调整字体和大小
  1. 文档结构
  • 添加目录
  • 添加页眉页脚
  • 设置页码
  • 分节和分页
  1. 高级功能
  • 添加批注
  • 跟踪修订
  • 样式管理
  • 模板使用

使用示例

创建 Word 文档

创建一个 Word 文档,标题是"项目报告"

帮我写一份会议纪要,保存为 Word 文档

读取 Word 文档

读取这个 Word 文档的内容

提取 document.docx 中的所有表格

编辑 Word 文档

给这个文档添加一个段落:"这是新增的内容"

把第一段的文字加粗,颜色设为红色

在第 3 页后面插入一张图片

添加表格

创建一个 3 行 4 列的表格

在这个 Word 文档里插入一个成绩表

添加目录

给这个文档添加目录

添加页眉页脚

添加页眉:"公司内部文档"

添加页码,右下角

实战案例

案例 1:自动生成报告

场景:

需要根据数据生成一份项目报告。

对话:

你:帮我生成一份项目报告,包含以下内容:

  1. 标题:Q1 项目进展报告
  2. 目录
  3. 项目概述
  4. 主要成果
  5. 下一步计划

CoPaw:好的,我来生成这份报告...

报告已创建:Q1_project_report.docx

  • 包含完整的目录
  • 结构清晰,格式规范

案例 2:批量修改文档

场景:

有多个 Word 文档需要统一格式。

对话:

你:把 reports 目录下所有 Word 文档的标题字体改为微软雅黑,字号 18,加粗

CoPaw:好的,我来批量修改这些文档...

修改完成!

  • 共处理 10 个文件
  • 所有标题已统一格式

案例 3:模板填充

场景:

有一个合同模板,需要填充数据。

对话:

你:使用 contract_template.docx 作为模板,填充以下信息:

  • 甲方:ABC 公司
  • 乙方:XYZ 公司
  • 金额:¥500,000
  • 日期:2024-03-15

CoPaw:好的,我来填充合同...

合同已生成:contract_20240315.docx

  • 所有字段已填充
  • 格式保持一致

Pptx Skill

PowerPoint 演示文稿是展示和汇报的重要工具,CoPaw 的 Pptx Skill 可以帮助你创建和编辑 PPT。

功能列表

  1. 创建 PPT
  • 从文本创建
  • 使用模板创建
  • 添加幻灯片
  1. 编辑 PPT
  • 修改文本
  • 添加/删除幻灯片
  • 调整布局
  1. 添加内容
  • 添加图片
  • 添加图表
  • 添加表格
  • 添加形状
  1. 格式化
  • 设置主题
  • 调整字体和颜色
  • 添加动画效果
  • 设置过渡效果
  1. 高级功能
  • 添加备注
  • 添加批注
  • 管理母版幻灯片
  • 导出为其他格式

使用示例

创建 PPT

创建一个演示文稿,主题是"年度总结"

帮我做一份产品介绍的 PPT

添加幻灯片

添加一张幻灯片,标题是"市场分析"

在这个 PPT 里添加 5 张幻灯片

编辑内容

修改第 3 张幻灯片的标题

把第 2 张幻灯片的内容重新排版

添加图表

添加一个柱状图,显示销售数据

插入一个饼图,展示市场份额

添加图片

在第 4 张幻灯片插入图片 logo.png

实战案例

案例 1:从报告生成 PPT

场景:

有一份 Word 报告,需要转换成 PPT 演示文稿。

对话:

你:把 report.docx 转换成 PPT,每章一张幻灯片

CoPaw:好的,我来转换...

转换完成!presentation.pptx

  • 共 8 张幻灯片
  • 包含所有章节内容
  • 自动应用了主题

案例 2:自动更新数据 PPT

场景:

每月需要更新数据报告 PPT。

对话:

你:更新 monthly_report.pptx 中的所有图表,使用最新的数据

数据:

  • 1月:100
  • 2月:150
  • 3月:200

CoPaw:好的,我来更新图表...

更新完成!

  • 3 个图表已更新
  • 数据已同步
  • 格式保持一致

案例 3:批量创建演示文稿

场景:

需要为多个部门创建标准化的演示文稿模板。

对话:

你:为以下部门创建演示文稿,使用统一模板:

  • 销售部
  • 市场部
  • 技术部
  • 人力资源部

每份 PPT 包含:

  1. 封面
  2. 部门介绍
  3. 工作成果
  4. 未来规划

CoPaw:好的,我来创建这些演示文稿...

创建完成!

  • 4 个部门的 PPT 已生成
  • 统一模板和格式
  • 已填入基础结构

Xlsx Skill

Excel 表格是数据分析和处理的核心工具,CoPaw 的 Xlsx Skill 提供了全面的表格处理能力。

功能列表

  1. 读取表格
  • 读取整个工作表
  • 读取特定单元格
  • 读取指定范围
  • 读取公式和值
  1. 编辑表格
  • 修改单元格
  • 添加/删除行和列
  • 批量修改
  1. 创建表格
  • 从数据创建
  • 添加工作表
  • 设置格式
  1. 数据分析
  • 计算公式
  • 数据透视表
  • 图表生成
  • 数据筛选和排序
  1. 格式化
  • 设置字体和颜色
  • 添加边框
  • 条件格式
  • 合并单元格
  1. 数据导入导出
  • CSV 导入
  • CSV 导出
  • TSL 支持

使用示例

读取表格

读取这个 Excel 文件的内容

查看 data.xlsx 的第一个工作表

获取 A1:C10 的数据

编辑表格

把 B2 单元格的值改为 100

在第 3 行后面插入一行数据

删除空的行

创建表格

创建一个 Excel 文件,包含以下数据:

姓名,年龄,城市

张三,25,北京

李四,30,上海

计算公式

计算 D 列的总和

在 E1 单元格添加公式:=SUM(A1:A10)

数据分析

分析这个表格,找出销售额最高的产品

创建一个数据透视表,按地区汇总销售额

添加图表

插入一个折线图,显示趋势

实战案例

案例 1:销售数据分析

场景:

有一份销售数据表格,需要分析。

对话:

你:分析 sales_data.xlsx,找出:

  1. 销售额最高的前 5 个产品
  2. 每个地区的总销售额
  3. 月度销售趋势

CoPaw:好的,我来分析这份销售数据...

分析结果:

  1. 销售额 Top 5 产品:
  • 产品A:¥500,000
  • 产品B:¥450,000
  • 产品C:¥400,000
  • 产品D:¥350,000
  • 产品E:¥300,000
  1. 各地区总销售额:
  • 华东:¥1,200,000
  • 华南:¥800,000
  • 华北:¥700,000
  • 华中:¥500,000
  1. 月度趋势:
  • 1月:¥700,000
  • 2月:¥650,000
  • 3月:¥850,000

案例 2:批量处理表格

场景:

有多个 Excel 文件需要统一格式和计算。

对话:

你:把 data_files 目录下所有 Excel 文件:

  1. 统一格式(字体微软雅黑,字号11)
  2. 在最后一列添加"总计",计算该行总和

CoPaw:好的,我来批量处理这些表格...

处理完成!

  • 共处理 8 个文件
  • 所有表格已统一格式
  • 已添加总计列并计算

案例 3:从数据生成报告

场景:

需要根据数据生成一份带图表的 Excel 报告。

对话:

你:根据以下数据生成 Excel 报告:

产品,Q1,Q2,Q3,Q4

A,100,120,150,180

B,80,90,110,130

C,60,70,85,100

要求:

  1. 添加表格
  2. 计算每行的年度总计
  3. 添加折线图显示趋势
  4. 应用专业的格式

CoPaw:好的,我来生成这份报告...

报告已生成:annual_report.xlsx

  • 包含完整的数据表格
  • 已计算年度总计
  • 添加了趋势图表
  • 格式专业美观

File_reader Skill

File_reader Skill 用于读取和摘要各种文本类文件。

支持的文件类型

  • .txt - 纯文本
  • .md - Markdown
  • .json - JSON 数据
  • .csv - CSV 表格(简单)
  • .log - 日志文件
  • .py - Python 代码
  • .js - JavaScript 代码
  • .yaml / .yml - YAML 配置
  • .xml - XML 文件
  • 其他纯文本文件

使用示例

读取文件

读取 README.md 的内容

查看这个配置文件的内容

摘要文件

帮我总结这个 log 文件中的错误信息

提取这个 JSON 文件中的特定字段

分析代码

分析这个 Python 文件,找出可能的 bug

提取这个文件中的函数定义

实战案例

案例 1:日志分析

场景:

有一份应用日志,需要分析错误。

对话:

你:分析 app.log,找出所有的 ERROR 级别的日志,并统计错误类型

CoPaw:好的,我来分析这份日志...

分析结果:

共发现 15 条 ERROR 日志:

错误类型统计:

  1. ConnectionError:5 次
  2. TimeoutError:4 次
  3. ValueError:3 次
  4. KeyError:2 次
  5. RuntimeError:1 次

最频繁的错误:ConnectionError

案例 2:配置文件提取

场景:

需要从配置文件中提取特定配置。

对话:

你:从 config.json 中提取数据库配置信息

CoPaw:好的,我来提取配置...

数据库配置:

  • 主机:localhost
  • 端口:5432
  • 数据库:myapp
  • 用户:admin
  • 密码:[已隐藏]

文档处理最佳实践

1. 文件路径管理

使用清晰的文件路径:

使用:/home/user/documents/report.pdf

而不是:~/docs/report.pdf(相对路径可能不明确)

2. 批量处理

处理多个文件时:

  • 明确文件位置(目录)
  • 说明处理规则
  • 确认输出位置

好:把 /home/user/invoices 下的所有 PDF 合并,保存为 /home/user/all_invoices.pdf

不好:合并所有的 PDF

3. 格式一致性

使用格式化输出:

要求:使用统一的字体、字号、颜色

要求:应用专业的文档格式

4. 数据验证

处理数据后进行验证:

检查数据的完整性

确认所有字段都已填充

验证计算结果是否正确

5. 备份重要文件

在修改重要文件前先备份:

先备份原始文件,然后再修改

常见问题

Q1: 如何处理受密码保护的 PDF?

A: 先解密 PDF,然后再处理:

先解密这个 PDF,密码是 mypassword,然后提取内容

Q2: 支持哪些 Excel 版本?

A: Xlsx Skill 支持 .xlsx、.xlsm 格式。对于 .xls 文件,需要先转换。

Q3: 如何处理大文件?

A:

  • 分批处理
  • 指定处理范围
  • 考虑使用流式处理

Q4: 能保留文档的原始格式吗?

A: 大部分情况下可以。编辑文档时,CoPaw 会尽量保持原有格式。

Q5: 支持哪些图片格式?

A: 支持常见的图片格式:PNG、JPG、JPEG、GIF、BMP 等。

下一步

现在你已经了解了 CoPaw 的文档处理 Skills。接下来建议:

  1. 阅读下一篇:CoPaw 功能:内置 Skills 详解(新闻与邮件)- 学习新闻查询和邮件处理
  2. 测试文档处理 Skills:尝试处理各种文档
  3. 探索更多功能:深入了解每个 Skill 的高级功能
  4. 实战应用:在实际工作中应用这些 Skills

总结

CoPaw 的文档处理 Skills 提供了全面的文档处理能力:

PDF Skill

- 读取、合并、拆分、OCR 等

Docx Skill

- 创建、编辑 Word 文档

Pptx Skill

- 创建、编辑 PPT 演示文稿

Xlsx Skill

- 读取、编辑、分析 Excel 表格

File_reader Skill

- 读取和摘要各种文本文件

通过这些 Skills,你可以轻松处理各种文档,提高工作效率。


相关资源

  • CoPaw 官方文档:https://copaw.agentscope.io/
  • CoPaw Skills 文档:https://copaw.agentscope.io/docs/skills
  • anthropics/skills:https://github.com/anthropics/skills

发表回复

后才能评论