导入文档
作用
文件的导入和解析是数据集能力的基础,通过导入文件,可以形成数据集,数据集可以被智能客服调用。
非结构化文档 、 结构化问答文档 和网站导入 应该怎么选择?
选择何种知识库导入方式,取决于现有的知识沉淀情况以及应用场景。文档导入非常方便,可以直接上传pdf、word等文件,自动解析分段完成导入;导入 QA 问答格式则回答的准确度会更加高;结构化的多列表格则是一些业务场景(例如多sku、多属性的产品信息表格)常见的内容格式;网站则可以直接将博客、产品手册网站、公众号文章等在线网页解析导入。
同一个知识库中可导入 文档、问答、网站导入多种不同类型的内容。
结构化问答文档
结构化文档是提升AI知识库性能和功能的关键要素,能够显著增强知识管理和应用的效果。
- 提高信息检索效率
- 增强语义理解
- 便于知识更新和维护
- 支持多维度分析
- 提高回答准确性
- 便于知识迁移和共享
- 支持自动化处理
模板示例
问答数据需下载文件模板 并按格式填写,每一行有 问题或相关句子 和 段落 两列,其中问题或相关句子可以是一句,也可以是多句,即多个问题对应一个答案段落
问答数据文档导入前支持预览
非结构化文档
企业数据大多数都以文本、图片、扫描件、电子表格、在线文档、邮件等文档的形式存在,难以流通和处理,大量有价值的信息都被锁定在非结构化的文档中,无法充分发挥数据价值。
-
提高检索精度: 将长文档切分成较小的片段,使AI能更精确地定位相关信息,提高检索的准确性。
-
优化语义理解: 较小的文本片段有助于AI更好地理解上下文和语义,从而生成更准确的回答。
-
提升处理效率: 切片后的小段文本可以并行处理,大大提高了AI的处理速度和效率。
-
增强灵活性: 不同长度的切片可以适应不同的查询需求,提高知识库的应用灵活性。
-
改善用户体验: 通过返回相关度更高的文本片段,可以为用户提供更精准、简洁的回答。
-
便于知识更新: 对于大型文档,切片后更易于进行局部更新和维护,无需重新处理整个文档。
-
支持多维度分析: 切片后的文本可以更容易地进行主题分类、情感分析等多维度处理。
通过合理的文档切片,可以显著提升AI知识库的性能和应用效果,为用户提供更优质的智能问答服务。
智能文档解析
文档智能深度融合文字识别、自然语言处理、图像处理、电子文档解析、文档预训练模型等多项技术,对非结构化和半结构化文档进行智能自动化处理,从而简化业务操作流程、提升文档处理效率,帮助企业更准确地进行大模型应用的场景建设。
文件类型
文档格式:PDF、WORD、EXCEL、PPT、文本、图片、邮件、网页、电子书等
文件后缀
文档格式:PDF、DOC、DOCX、PPT、PPTX、XLS、XLSX,图片支持JPG、JPEG、PNG、BMP、GIF,其余格式支持MD、HTML、EPUB、MOBI、RTF、TXT
需要注意的是,智能文档解析不支持预览,请在导入前确保文件格式正确
需要特别注意:使用智能文档解析时,将按照处理页数消耗鲸币,每页大约消耗900鲸币
文档切块解析
这是一种成本更低的方式,因为它只按照实际切块大小消耗鲸币
文件后缀
文档切块解析基本流程,
-
文本切分 它分割的准则是会根据文本的这个语义,将其语义有关联的文本放在同一个分割段中
-
切分策略 将文本拆分为小的、语义有意义的块(通常是句子) 开始将这些小块组合成较大的块,直到达到一定的体量 一旦达到该大小,将该块作为独立的文本片段,然后开始创建一个新文本块。为了各块之间的连贯性,一般两个文本块之间会有重叠部分。
文件类型
文档格式:文本、WORD、PDF
文件后缀
文档格式:PDF、DOCX、TXT三种格式
需要特别注意:无法很好的处理文件中的表格、图片,如果对文档的解析有较高的要求,请选择智能文档解析
切分策略
我们将按照某种策略对文件进行切分,目前支持两种切分策略:
- 默认切分策略
默认切分策略是按照句子递归进行切分,分割符为 "\n\n", \n, 空格, 切分长度为200字符,按照我们的经验,默认切分策略能满足大多数文档数据,因此若无特殊的需求,建议您保持默认
- 自定义切分策略 您可以设置分句标识符,和分段最大长度
网页导入
网站导入方便快速将网页资源导入知识库中。使用“读取URL链接数据”功能时,单次最多支持5个url解析,您提交的网站地址应为您有权支配或使用的自有或第三方网址。 平台仅提供网站解析导入服务,不对您使用网址数据的行为承担任何责任。建议导入博客、公众号文章、文字信息为主的官网、使用说明文档等静态资源网站,不支持导入在线文档、大部分平台型媒体网站和需要登录的网站内容。
需要特别注意:您将为提交网址内容的合法性承担全部责任
对网页数据的切分,系统会会按照非结构文档的切分策略进行切分,方便进行检索,您可以看到拆分效果的预览