数据概述

GeniSpace 平台的「数据」模块分为 数据源管理 与 向量数据集 两类能力，为工作流和智能体提供数据支持。

访问路径

控制台 → 侧边栏数据模块
或直接访问 /data（默认进入数据源管理）
通过顶部标签切换：数据源管理 | 向量数据集 | 平台数据
URL 参数：/data?tab=datasource、/data?tab=dataset、/data?tab=platform

备注

平台数据 标签当前处于禁用状态，无法打开。

数据源管理

数据源管理用于连接外部关系型数据库，在工作流中执行增删改查操作。

功能结构

数据源管理包含三个子视图：

视图	说明
数据源	基于 SQL 的查询/写入配置，关联到已连接的数据库
数据表	管理数据库中的表结构（创建、编辑、删除）
数据库	数据库连接管理，支持 MySQL、PostgreSQL、MariaDB 和 ClickHouse

基本流程

在 数据库 视图中新增数据库连接（填写主机、端口、账号、库名等）
在 数据表 视图中创建或管理表结构
在 数据源 视图中创建数据源，选择数据库并配置 SQL 语句
执行功能测试验证

数据源可在工作流节点中调用，也可转换为 数据源工具 供智能体使用。

向量数据集

向量数据集用于存储和检索向量化数据，为智能体提供语义搜索与知识支持。

功能特点

1. 数据管理

自定义数据集：创建和管理自定义数据集，支持多种字段类型
数据预览：实时预览数据集内容，支持分页和搜索
数据操作：通过数据操作 API 进行记录的插入、查询、更新和删除

2. 向量化支持

自动向量化：支持文本自动向量化，无需手动处理
向量搜索：支持基于向量的相似度搜索
向量字段：支持自定义向量字段，灵活配置向量维度

3. 数据操作

数据查询：支持复杂的查询条件，包括过滤、排序等
数据更新：支持批量更新和单条更新
数据删除：支持条件删除和批量删除
数据插入：支持批量插入和单条插入

与智能体整合

在智能体配置中选择关联的数据集
智能体可基于向量检索从数据集中获取相关知识
支持多知识库同时连接

使用指南

进入向量数据集

在数据模块顶部点击 向量数据集 标签
首次使用需确认空间密钥已初始化（统计卡片中显示密钥状态）

创建数据集

在向量数据集页面点击「创建数据集」按钮
填写数据集基本信息：
- 名称：数据集的唯一标识
- 描述：数据集的详细说明
- 数据库类型：选择 Milvus 等
- 数据库配置：配置自动 ID 等选项
定义数据集结构：
- 添加字段：支持多种数据类型
- 设置主键：选择主键字段
- 配置索引：为需要索引的字段创建索引
点击「创建」完成数据集创建

向量数据集界面功能

统计卡片：数据集总数、总记录数、总数据量、密钥状态，可展开查看详细统计与空间密钥管理
创建数据集：新建向量数据集
搜索与筛选：按名称搜索，按数据库类型筛选

备注

向量数据集的数据导入与导出功能当前在界面中尚不可用。请使用下方的数据操作 API 插入和管理记录。

数据操作

数据操作接口挂载在 /api/datasets 下，数据集通过 :datasetId 路径参数引用：

POST /api/datasets/:datasetId/data/insert
POST /api/datasets/:datasetId/data/query
POST /api/datasets/:datasetId/data/update
POST /api/datasets/:datasetId/data/delete
POST /api/datasets/:datasetId/data/search
POST /api/datasets/:datasetId/data/full-text-search

插入数据

POST /api/datasets/:datasetId/data/insert
{
  "data": [
    {
      "field1": "value1",
      "field2": "value2"
    }
  ]
}

查询数据

POST /api/datasets/:datasetId/data/query
{
  "filter": "field1 == 'value1'",
  "limit": 100,
  "offset": 0,
  "outputFields": ["field1", "field2"]
}

更新数据

POST /api/datasets/:datasetId/data/update
{
  "filter": "field1 == 'value1'",
  "update_data": {
    "field2": "new_value"
  }
}

删除数据

POST /api/datasets/:datasetId/data/delete
{
  "filter": "field1 == 'value1'"
}

向量搜索

POST /api/datasets/:datasetId/data/search
{
  "vector_field": "vector",
  "data": [[0.1, 0.2, ..., 0.5]],
  "limit": 5,
  "filter": "category == 'product'",
  "outputFields": ["id", "title", "content"]
}

全文搜索

POST /api/datasets/:datasetId/data/full-text-search
{
  "query": "搜索关键词",
  "limit": 5,
  "outputFields": ["id", "title", "content"]
}

数据类型支持

数据集支持以下字段类型：

VARCHAR：字符串
INT8 / INT16 / INT32 / INT64：不同位宽的整数
FLOAT：浮点数
DOUBLE：双精度浮点数
BOOL：布尔值
JSON：JSON 值
ARRAY：数组
FLOAT_VECTOR：浮点向量

向量字段使用 FLOAT_VECTOR 类型。维度默认为 1024，相似度度量可选 L2（欧氏距离）、IP（内积）或 COSINE（余弦相似度）。

最佳实践

数据预处理
- 在导入数据前进行清洗和格式化
- 确保数据符合字段类型要求
- 处理缺失值和异常值
向量化配置
- 选择合适的文本字段进行向量化
- 根据实际需求设置向量维度
- 定期更新向量化模型
查询优化
- 合理使用过滤条件
- 适当设置分页大小
- 只查询必要的字段
性能考虑
- 批量操作时控制数据量
- 合理使用索引
- 避免频繁的小数据操作

注意事项

数据集名称必须唯一
必须包含至少一个向量字段
主键字段必须唯一
向量字段的维度必须固定
数据操作前确保数据集存在且可访问
注意数据类型的兼容性
定期备份重要数据

常见问题

Q: 如何选择合适的向量维度？ A: 向量维度通常取决于使用的向量化模型，建议使用 768 或 1536 维度。
Q: 插入数据失败怎么办？ A: 检查数据格式是否符合要求，确保字段类型匹配，查看错误日志获取详细信息。
Q: 如何优化查询性能？ A: 合理使用索引，优化过滤条件，控制返回字段数量，适当使用分页。
Q: 向量搜索的相似度阈值如何设置？ A: 根据实际应用场景和需求调整，通常 0.7-0.8 是一个较好的起点。

访问路径​

数据源管理​

功能结构​

基本流程​

向量数据集​

功能特点​

1. 数据管理​

2. 向量化支持​

3. 数据操作​

与智能体整合​

使用指南​

进入向量数据集​

创建数据集​

向量数据集界面功能​

数据操作​

插入数据​

查询数据​

更新数据​

删除数据​

向量搜索​

全文搜索​

数据类型支持​

最佳实践​

注意事项​

常见问题​

相关文档​