数据集

在过去,客户想要拿到自己想要的数据往往需要通过不同的业务系统或是依赖技术人员帮忙才可以得到结果;CDP对于业务或技术人员非常友好,可以使用数据集只需要通过简单的功能操作就可以拿到想要的数据结果。

什么是数据集?

数据集,指的是一组数据的集合;在传统业务中通常以表格的形式呈现,在互联网技术领域中是指一张包含数据表的对象,可以在这些数据表中存储数据以便在应用程序中使用。它和数据仓库不同,数据集更贴近于业务,链路更短。

功能介绍

数据集

一、数据集列表

1、在数据接入模块中,新增数据集选项,点击后可进入数据集模块

  • 任务:您创建的数据同步或可视化数据集的任务名称,用户自定义且名称不可重复
  • 数据集名称:数据集的名称,由您自定义且名称不可重复
  • 表名:系统自动生成落地至诸葛数仓
  • 创建人:您在分析平台的账号
  • 创建时间:指数据集创建的时间
  • 最近更新时间:只最近一次任务更新完成的时间
  • 下次执行时间:任务为自动执行时,可以看到下次执行时间
  • 更新方式:自动/手动,已点击手动更新,或任务在更新中状态时,按钮不可点击
  • 状态:更新成功/失败
  • 类型:数据库类型及可视化数据集
  • 操作
    • 启用/禁用:任务创建之后,默认为禁用状态;正在执行的任务不可禁用;启用状态下不可进行编辑和删除
    • 编辑:可查看任务创建时的详情信息
    • 删除:启用的任务不可删除,确认删除时您需要确认风险范围
    • 日志:查看最近一次任务情况的日志信息

二、数据同步

您可以通过数据同步的方式创建数据集,将您想应用的数据,同步至CDP中来

创建数据集 -> 数据同步

创建时,您需要进行如下操作

  • 选择数据库类型
  • 选择数据源
  • 选择数据表
  • 填写数据集名称
  • 选择字段:指您选择的数据表中要同步到CDP的字段
  • 抽取规则配置:自定义数据同步规则,支持定义日期、字符串、数值等类型字段的筛选
  • 更新方式:包含手动/自动更新;手动更新需要手动触发、自动更新您可以选择天、周、月等
  • 任务名称:不可重复,指当前创建的数据集任务名称
  • 任务描述:可以描述当前数据同步的业务含义,方便其他同学理解

经过以上操作,您可以对当前编辑好的数据同步任务进行保存,我们将会帮助您把数据同步到诸葛io仓库中。

三、可视化数据集

我们还提供了可视化流程画布的功能来帮助您组合数据集 ,拿到新的数据结果

1、点击可视化数据集

  • 列表:展示您当前应用下所有的数据集(名称+表名)
  • 流程画布:您可以拖拽数据集到画布当中进行操作
2、流程画布

a、用户可以拖拽某个数据集到画布中,画布中展示数据集名称,拖拽后用户可以对当前表进行字段筛选、抽取设置等操作,抽取设置最多设置10个条件

b、字段设置 您可以根据业务实际的情况来修改字段的名称与类型

c、连接

数据Join,支持左右内部连接/外连接,最多支持两张表进行连接

d、去重

去重可以根据您选择的字段随机保留一条数据;选择多个字段可以提高去重的精准性。

e、替换缺失值

选择待替换字段,进行填充;

f、合并

用于合并多表数据,最多支持3张表进行合并

g、列转行

指将表头多列的指标转化到一列中展示,列转行只能支持同一类型的字段间进行转换,每次转值只支持新增两个字段(字段与值)进行处理。

实现效果 如学生的学科成绩表,语文、英语、数学三门学科分数各为一个字段

学生姓名 学号 性别 语文 数学 英语
张三 2014010201 88 88 88
李四 2014010202 87 76 99
王五 2014010203 79 75 78
小贾 2014010204 60 60
小一 2014010205 90 97 96
小冰 2014010206 80 100 95
小丁 2014010207 90 99 98
小小 2014010208 78 98 85

通过列转行,可以将三门课成绩合并为一个“成绩”字段,并添加“学科”字段区分各门科的成绩

学生姓名 学号 性别 学科 成绩
张三 2014010201 语文 88
李四 2014010202 语文 87
王五 2014010203 语文 79
小贾 2014010204 语文 60
小一 2014010205 语文 90
小冰 2014010206 语文 80
小丁 2014010207 语文 90
小小 2014010208 语文 78
张三 2014010201 数学 88
李四 2014010202 数学 76
王五 2014010203 数学 75
小贾 2014010204 数学
小一 2014010205 数学 97
小冰 2014010206 数学 100
小丁 2014010207 数学 99
小小 2014010208 数学 98
张三 2014010201 英语 88
李四 2014010202 英语 99
王五 2014010203 英语 78
小贾 2014010204 英语 60
小一 2014010205 英语 96
小冰 2014010206 英语 95
小丁 2014010207 英语 98
小小 2014010208 英语 85

h、行转列

指将一列的字段值转化为表头列,每次动作只支持一个字段进行转;每个字段最多添加7个字段。

实现效果 如学生的学科成绩表,有学科和成绩字段,记录了各门课的成绩

学生姓名 学号 性别 学科 成绩
张三 2014010201 语文 88
李四 2014010202 语文 87
王五 2014010203 语文 79
小贾 2014010204 语文 60
小一 2014010205 语文 90
小冰 2014010206 语文 80
小丁 2014010207 语文 90
小小 2014010208 语文 78
张三 2014010201 数学 88
李四 2014010202 数学 76
王五 2014010203 数学 75
小贾 2014010204 数学
小一 2014010205 数学 97
小冰 2014010206 数学 100
小丁 2014010207 数学 99
小小 2014010208 数学 98
张三 2014010201 英语 88
李四 2014010202 英语 99
王五 2014010203 英语 78
小贾 2014010204 英语 60
小一 2014010205 英语 96
小冰 2014010206 英语 95
小丁 2014010207 英语 98
小小 2014010208 英语 85

通过行转列,可以将学科成绩拆分成“语文成绩”、“数学成绩”、“英语成绩”三个字段,成为学生粒度的宽表

学生姓名 学号 性别 语文 数学 英语
张三 2014010201 88 88 88
李四 2014010202 87 76 99
王五 2014010203 79 75 78
小贾 2014010204 60 60
小一 2014010205 90 97 96
小冰 2014010206 80 100 95
小丁 2014010207 90 99 98
小小 2014010208 78 98 85

i、数据拆分

拆分算子会将算子按照这个比例拆分成两份数据,这个值代表第一份数据占输入数据的比例。之后按照比例拆分的两份数据即可进行下一步操作。

j、聚合

支持分组与聚合,分别最多支持5个字段,聚合支持count、sum、max、mix、avg

操作过程中,您可以点击执行预览数据并查看执行日志;流程配置完成后,您需要添加输出节点;选择已有或新建一个数据集来对此任务的数据进行存储。

k、任务保存

流程创建完成后,您需要对创建的任务进行任务信息配置,包含任务名称、备注及更新设置等等

数据集管理

  1. 在埋点管理模块中,可以进行数据集管理

  1. 您可以查看数据集关联了哪些任务,点击可直接前往

  1. 您还可以查看当前数据集的数据血缘

  • 操作删除数据集时,数据集中数据将被清空,影响的任务将被禁用。

©zhugeio.com 京ICP备15049545号            文档更新时间 2023-07-13 12:01:49

results matching ""

    No results matching ""