跳到主要内容

导入文档

作用

文件的导入和解析是数据集能力的基础,通过导入文件,可以形成数据集,数据集可以被智能客服调用。

网页结构化文档

提示

非结构化文档 、 结构化问答文档 和网站导入 应该怎么选择?

选择何种知识库导入方式,取决于现有的知识沉淀情况以及应用场景。文档导入非常方便,可以直接上传pdf、word等文件,自动解析分段完成导入;导入 QA 问答格式则回答的准确度会更加高;结构化的多列表格则是一些业务场景(例如多sku、多属性的产品信息表格)常见的内容格式;网站则可以直接将博客、产品手册网站、公众号文章等在线网页解析导入。

同一个知识库中可导入 文档、问答、网站导入多种不同类型的内容。

结构化问答文档

结构化文档是提升AI知识库性能和功能的关键要素,能够显著增强知识管理和应用的效果。

  • 提高信息检索效率
  • 增强语义理解
  • 便于知识更新和维护
  • 支持多维度分析
  • 提高回答准确性
  • 便于知识迁移和共享
  • 支持自动化处理

结构化问答文档

模板示例

注意

问答数据需下载文件模板 并按格式填写,每一行有 问题或相关句子段落 两列,其中问题或相关句子可以是一句,也可以是多句,即多个问题对应一个答案段落

结构化问答文档

问答数据文档导入前支持预览

结构化问答文档

非结构化文档

企业数据大多数都以文本、图片、扫描件、电子表格、在线文档、邮件等文档的形式存在,难以流通和处理,大量有价值的信息都被锁定在非结构化的文档中,无法充分发挥数据价值。

  • 提高检索精度: 将长文档切分成较小的片段,使AI能更精确地定位相关信息,提高检索的准确性。

  • 优化语义理解: 较小的文本片段有助于AI更好地理解上下文和语义,从而生成更准确的回答。

  • 提升处理效率: 切片后的小段文本可以并行处理,大大提高了AI的处理速度和效率。

  • 增强灵活性: 不同长度的切片可以适应不同的查询需求,提高知识库的应用灵活性。

  • 改善用户体验: 通过返回相关度更高的文本片段,可以为用户提供更精准、简洁的回答。

  • 便于知识更新: 对于大型文档,切片后更易于进行局部更新和维护,无需重新处理整个文档。

  • 支持多维度分析: 切片后的文本可以更容易地进行主题分类、情感分析等多维度处理。

通过合理的文档切片,可以显著提升AI知识库的性能和应用效果,为用户提供更优质的智能问答服务。

非结构化文档

智能文档解析

文档智能深度融合文字识别、自然语言处理、图像处理、电子文档解析、文档预训练模型等多项技术,对非结构化和半结构化文档进行智能自动化处理,从而简化业务操作流程、提升文档处理效率,帮助企业更准确地进行大模型应用的场景建设。

非结构化文档

文件类型

信息

文档格式:PDF、WORD、EXCEL、PPT、文本、图片、邮件、网页、电子书等

文件后缀

信息

文档格式:PDF、DOC、DOCX、PPT、PPTX、XLS、XLSX,图片支持JPG、JPEG、PNG、BMP、GIF,其余格式支持MD、HTML、EPUB、MOBI、RTF、TXT

注意

需要注意的是,智能文档解析不支持预览,请在导入前确保文件格式正确

注意

需要特别注意:使用智能文档解析时,将按照处理页数消耗鲸币,每页大约消耗900鲸币

文档切块解析

提示

这是一种成本更低的方式,因为它只按照实际切块大小消耗鲸币

文件后缀

文档切块解析基本流程,

  • 文本切分 它分割的准则是会根据文本的这个语义,将其语义有关联的文本放在同一个分割段中

  • 切分策略 将文本拆分为小的、语义有意义的块(通常是句子) 开始将这些小块组合成较大的块,直到达到一定的体量 一旦达到该大小,将该块作为独立的文本片段,然后开始创建一个新文本块。为了各块之间的连贯性,一般两个文本块之间会有重叠部分。

非结构化文档

文件类型

信息

文档格式:文本、WORD、PDF

文件后缀

信息

文档格式:PDF、DOCX、TXT三种格式

注意

需要特别注意:无法很好的处理文件中的表格、图片,如果对文档的解析有较高的要求,请选择智能文档解析

切分策略

我们将按照某种策略对文件进行切分,目前支持两种切分策略:

  • 默认切分策略
信息

默认切分策略是按照句子递归进行切分,分割符为 "\n\n"\n空格, 切分长度为200字符,按照我们的经验,默认切分策略能满足大多数文档数据,因此若无特殊的需求,建议您保持默认

  • 自定义切分策略 您可以设置分句标识符,和分段最大长度

网页导入

网站导入方便快速将网页资源导入知识库中。使用“读取URL链接数据”功能时,单次最多支持5个url解析,您提交的网站地址应为您有权支配或使用的自有或第三方网址。 平台仅提供网站解析导入服务,不对您使用网址数据的行为承担任何责任。建议导入博客、公众号文章、文字信息为主的官网、使用说明文档等静态资源网站,不支持导入在线文档、大部分平台型媒体网站和需要登录的网站内容。

网页结构化文档

注意

需要特别注意:您将为提交网址内容的合法性承担全部责任

信息

对网页数据的切分,系统会会按照非结构文档的切分策略进行切分,方便进行检索,您可以看到拆分效果的预览