2. Define.xml
除了提交所有域的数据集以外,还需要提交一个文件Define.xml。Define.xml类似于域数据集的说明书,通过元数据(metadata)定义来提供每一数据集使用的所有变量的信息。元数据的定义是描述数据的数据,目的是为了定义和使用变量。
2.1 域级别的元数据
下图中展示的就是Define.xml的第一部分内容,域级别的元数据,给出提交的每个域的信息。包括以下七个属性:数据集缩写Dataset、全称(Description)、分类(Class)、结构(structure)、目的(purpose)、必须变量(Keys)、文件位置(Location)
2.2 变量级别的元数据
Define.xml中需要提交的第二部分内容是每个域中各个变量的元数据,如下图DM域。其中包括8个属性:变量名(Variable)、变量标签(Label)、必须变量编号(Key)、变量类型(Type)、变量长度(Length)、变量的受控术语(Controlled Terms Format)、变量值来源(Origin)、注释(Derivation/comment)。
? 这里的受控术语(Controlled Terminology)是指变量被控制,只能填入
相应的术语值,例如某变量的受控术语是[\\,则这个变量的取值只能是N,Y or U。 ? 变量值来源(origin)包括:
CRF:直接从CRF采集,包括印在CRF上的信息 eDT:数据通过电子数据传输而来
衍生(derived):通过算法或规则计算而来,依赖于其他数据值,实验室测试结果不算衍生的
指定(Assigned):有评估者决定的值,如用于编码的变量名 方案(Protocol):试验设计准备的材料
? 如果一个变量的值一部分记录是从CRF采集的,另一部分记录是衍生的,
则在value-level元数据显示来源具体是derived还是CRF;而在
variable-level 元数据中显示Derived,CRF。 ? 变量标签最多40字符
2.3 值级别的元数据
2.4 受控术语范围
Define.xml第四部分的内容是受控术语的取值范围,如果某个变量的值不是自由选取的,则需要在Define.xml中给出该变量的取值范围。CDSIC给出了常用
受控术语的取值。
http://www.cancer.gov/cancertopics/cancerlibrary/terminologyresources/cdisc
如果一些受控数据时来自外部的词典,比如药品的标准名称可来自WHO Drug Dictionary,则在define.xml中要给出词典名称及版本。
2.5 其他
一些变量是由其他变量衍生计算出来的,在define.xml中要给出这些变量间的关系和计算公式
Define.xml中还需要汇总各变量的注释
3. SDTM中变量可分为五种 Identifier:标识变量 Topic:主题变量 Timing:时间变量
Qualifier:修饰语变量,包括分组、结果、同义词、记录和变量修饰语