跳到主要内容

数据概述

GeniSpace 平台的「数据」模块分为 数据源管理向量数据集 两类能力,为工作流和智能体提供数据支持。

访问路径

  • 控制台 → 侧边栏 数据 模块
  • 或直接访问 /data(默认进入数据源管理)
  • 通过顶部标签切换:数据源管理 | 向量数据集 | 平台数据(独立部署版本不显示平台数据)
  • URL 参数:/data?tab=datasource/data?tab=dataset/data?tab=platform

数据源管理

数据源管理用于连接外部关系型数据库,在工作流中执行增删改查操作。

功能结构

数据源管理包含三个子视图:

视图说明
数据源基于 SQL 的查询/写入配置,关联到已连接的数据库
数据表管理数据库中的表结构(创建、编辑、删除)
数据库数据库连接管理,支持 MySQL、PostgreSQL、MariaDB

基本流程

  1. 数据库 视图中新增数据库连接(填写主机、端口、账号、库名等)
  2. 数据表 视图中创建或管理表结构
  3. 数据源 视图中创建数据源,选择数据库并配置 SQL 语句
  4. 执行功能测试验证

数据源可在工作流节点中调用,也可转换为 数据源工具 供智能体使用。

向量数据集

向量数据集用于存储和检索向量化数据,为智能体提供语义搜索与知识支持。

功能特点

1. 数据管理

  • 自定义数据集:创建和管理自定义数据集,支持多种数据类型
  • 数据导入:支持多种数据源导入,包括文件上传、API 集成等
  • 数据预览:实时预览数据集内容,支持分页和搜索
  • 数据导出:支持将数据集导出为多种格式

2. 向量化支持

  • 自动向量化:支持文本自动向量化,无需手动处理
  • 向量搜索:支持基于向量的相似度搜索
  • 向量字段:支持自定义向量字段,灵活配置向量维度

3. 数据操作

  • 数据查询:支持复杂的查询条件,包括过滤、排序等
  • 数据更新:支持批量更新和单条更新
  • 数据删除:支持条件删除和批量删除
  • 数据插入:支持批量插入和单条插入

与智能体整合

  • 在智能体配置中选择关联的数据集
  • 智能体可基于向量检索从数据集中获取相关知识
  • 支持多知识库同时连接

使用指南

进入向量数据集

  1. 在数据模块顶部点击 向量数据集 标签
  2. 首次使用需确认团队密钥已初始化(统计卡片中显示密钥状态)

创建数据集

  1. 在向量数据集页面点击「创建数据集」按钮
  2. 填写数据集基本信息:
    • 名称:数据集的唯一标识
    • 描述:数据集的详细说明
    • 数据库类型:选择 Milvus 等
    • 数据库配置:配置自动 ID 等选项
  3. 定义数据集结构:
    • 添加字段:支持多种数据类型
    • 设置主键:选择主键字段
    • 配置索引:为需要索引的字段创建索引
  4. 点击「创建」完成数据集创建

向量数据集界面功能

  • 统计卡片:数据集总数、总记录数、总数据量、密钥状态,可展开查看详细统计与团队密钥管理
  • 创建数据集:新建向量数据集
  • 导入数据:向已有数据集导入数据(企业版)
  • 搜索与筛选:按名称搜索,按数据库类型筛选
  • 数据导入 / 导出历史:查看导入与导出记录

数据操作

插入数据

POST /v1/datasets/{dataset_id}/data/insert
{
"data": [
{
"field1": "value1",
"field2": "value2"
}
]
}

查询数据

POST /v1/datasets/{dataset_id}/data/query
{
"filter": "field1 == 'value1'",
"limit": 100,
"offset": 0,
"outputFields": ["field1", "field2"]
}

更新数据

POST /v1/datasets/{dataset_id}/data/update
{
"filter": "field1 == 'value1'",
"update_data": {
"field2": "new_value"
}
}

删除数据

POST /v1/datasets/{dataset_id}/data/delete
{
"filter": "field1 == 'value1'"
}

向量搜索

POST /v1/datasets/{dataset_id}/data/search
{
"vector_field": "vector",
"data": [[0.1, 0.2, ..., 0.5]],
"limit": 5,
"filter": "category == '技术'",
"outputFields": ["id", "title", "content"]
}

数据类型支持

数据集支持以下数据类型:

  • INT64:64位整数
  • FLOAT:浮点数
  • VARCHAR:字符串
  • BOOL:布尔值
  • FLOAT_VECTOR:浮点向量

最佳实践

  1. 数据预处理

    • 在导入数据前进行清洗和格式化
    • 确保数据符合字段类型要求
    • 处理缺失值和异常值
  2. 向量化配置

    • 选择合适的文本字段进行向量化
    • 根据实际需求设置向量维度
    • 定期更新向量化模型
  3. 查询优化

    • 合理使用过滤条件
    • 适当设置分页大小
    • 只查询必要的字段
  4. 性能考虑

    • 批量操作时控制数据量
    • 合理使用索引
    • 避免频繁的小数据操作

注意事项

  1. 数据集名称必须唯一
  2. 必须包含至少一个向量字段
  3. 主键字段必须唯一
  4. 向量字段的维度必须固定
  5. 数据操作前确保数据集存在且可访问
  6. 注意数据类型的兼容性
  7. 定期备份重要数据

常见问题

  1. Q: 如何选择合适的向量维度? A: 向量维度通常取决于使用的向量化模型,建议使用 768 或 1536 维度。

  2. Q: 数据导入失败怎么办? A: 检查数据格式是否符合要求,确保字段类型匹配,查看错误日志获取详细信息。

  3. Q: 如何优化查询性能? A: 合理使用索引,优化过滤条件,控制返回字段数量,适当使用分页。

  4. Q: 向量搜索的相似度阈值如何设置? A: 根据实际应用场景和需求调整,通常 0.7-0.8 是一个较好的起点。

相关文档