数据标签是一种用来描述业务实体特征的数据形式。通过标签可以有效扩充业务实体的分析角度,且通过对不同标签的简单操作,便可进行数据筛选和分析。比如对用户进行刻画时,可以从“性别”、“年龄”等进行描述。
一、数据标签定义
数据标签是一种用来描述业务实体特征的数据形式。通过标签可以有效扩充业务实体的分析角度,且通过对不同标签的简单操作,便可进行数据筛选和分析。
比如对用户进行刻画时,可以从“性别”、“年龄”、“地区”、“兴趣爱好”、“产品偏好”等角度进行描述。
分析角度片面会导致很多问题,例如:某大学年度调查数据显示,本校计算机系女生中,50%都嫁给了本校男老师。该消息一经公布,就引起了校内外的巨大反响,人们对师生恋、校园恋爱议论纷纷。结果是该大学计算机系只有两名女生,其中一名女生和计算机系老师相恋结婚,由此得来的50%是真实数据。所以尽可能多的扩展分析角度,能够更全面、更准确地对分析对象进行刻画。
延伸阅读:
二、如何管理标签
(1)标签分类
标签分类的主要目的是方便用户查找标签。对标签分类的方式有很多,大致可以分为几大类:按生成方式分类、按业务主题分类、按技术特性分类、按使用情况分类。
1. 按生成方式分类
从生成方式上来看,标签可分为事实标签、模型标签以及策略标签。
事实标签是基于用户实际信息的记录,经过简单的加工而成,这种标签反应的是客观事实;
模型标签则是通过用户分析模型处理后,二次加工生成的用户洞察性标签;
策略标签是根据具体的业务分析及策略规划制定的群组性标签,供执行人员直接进行活动分组及行为洞察。
2. 按业务主题分类
主题是根据公司核心业务划分的,和业务密切相关。按业务主题划分标签,能够更有针对性的服务于业务分析使用。
3. 按技术特性分类
按标签的更新时效分类:可以分为批量更新标签和实时更新标签;
按标签的访问方式分类:可以分为批量访问和实时访问;
按标签的字段类型分类:可以分为数值类、日期类、枚举类、文本类等等。
4. 按使用情况分类
主要是为了方便用户使用标签,可分为热门标签、普通标签、冷门标签。
考虑到同一标签有可能同时隶属于不同的分类,可以从两个层面对标签进行管理,一是物理层面的管理,二是逻辑层面的管理。
(2)标签生成
标签的产生大致可分类手工产出和自动产出两类。手工产出就是通过手写SQL或建模依次产出每个标签。自动产出是一种更高效的方式,通过逻辑配置或者数据挖掘一次性产生多个标签。
要获得能给业务带来实际帮助的标签体系,我们需要在标签体系中引入“假设-测试-验证-定义”的迭代过程,通过不断的迭代挖掘与试验,才会找到可以准确刻画用户的标签体系,找到更多业务增长点。
(3)标签更新
除了少数专用型标签可能仅使用一次之外,其他绝大部分标签上线后必须持续进行更新,否则便成了僵尸标签。
按照标签更新方式,标签大致可以分为批量更新标签和实时更新标签两类。
对于实时更新标签,一旦产生标签的数据发生了变化,就需立即更新该标签。比如最后一次登录APP的时间这个实时标签,只要用户登录了APP,就把标签值更新为此次登录时间。
对于批量更新标签,不管是每天、每周还是每月更新,都是通过跑批方式进行。这里需要注意的有两点,一是为了更新方便,尽量把更新周期相同的标签放在同一个表中。二是标签更新会有先后顺序,对于特别强调逻辑一致性的业务来说,如果该业务相关的部分标签已经更新了,但另一部分还未更新,这时产出的数据结果是不准确。