Shortcuts

数据集

论文数据集

名称

实体

关系

训练集

验证集

测试集

原论文

WN18

40,943

18

141,442

5,000

5,000

TransE [BUGD+13]

WN18RR

40,943

11

86,835

3,034

3,134

[DMSR18]

FB15K

14,951

1,345

483,142

50,000

59,071

TransE [BUGD+13]

FB15k-237

14,541

237

272,115

17,535

20,466

[TC15]

数据集格式

  • 对于训练模型,数据集包含 3 个文件:

    • train2id.txt:训练集文件,第一行是训练集中三元组的个数。后面所有行都是 (e1, e2, rel) 格式的三元组,表示在实体 e1 和实体 e2 之间有一个关系 rel

    • entity2id.txt:第一行是实体的个数。其余行是全部实体和相应的 id,每一行一个实体。

    • relation2id.txt:第一行是关系的个数。其余行是全部关系和相应的 id,每一行一个关系。

  • 对于验证模型,需要 2 个额外的文件(总共 5 个文件)。

    • valid2id.txt:验证集文件,第一行是验证集中三元组的个数。后面所有行都是 (e1, e2, rel) 格式的三元组。

    • test2id.txt:测试集文件,第一行是测试集中三元组的个数。后面所有行都是 (e1, e2, rel) 格式的三元组。

备注

train2id.txt、valid2id.txt 和 test2id.txt 包含的是来自 entitiy2id.txt 和 relation2id.txt 的 id, 而不是实体和关系的名字。

Docs

Access comprehensive developer documentation for UniKE

View Docs