使用数据标注工具的提示和技巧

以下是使用数据标注工具的一些提示:

  • 创建标记时,请注意准确地突出显示您想要标记的所有文字。
    良好: 冲床兄弟
    不太好: 冲床兄
  • 标记多项内容(例如多个执行者或多个日期)时,请分别标记每项内容。
    良好克里斯·泰尔  克里斯·埃尔德里奇  诺姆·皮克尼  盖伯·威彻  保罗·科维特(五个单独的标记)
    不太好: 克里斯·泰尔 克里斯·埃尔德里奇 诺姆·皮克尼 盖伯·威彻 保罗·科维特(五个执行者使用一个标记)
  • 在标记包含多个活动的网页时,请从网页顶部开始,然后按照您自己的方式标记到网页底部。您标记了足够多的数据后,数据标注工具将推测并自动标记网页的其余部分,帮您省去手动标记所有内容的麻烦。
  • 在具有多个网页的网页集中,始终是按需标记网页。例如,如果您的网页在每个网页的顶部和底部均显示活动位置,请始终标记顶部的地址。
  • 请确保您标记了所有必需数据(“数据项”列会在尚未标记的每个必需项旁边显示必需),您无需标记不必要的字段。
  • 如果网页缺少数据,您可以通过点击齿轮菜单中的添加缺失值,为缺失数据提供默认值。系统会将默认值用于网页集中的所有网页,因此,请确保数据能应用到网页集中的所有网页。例如,如果您提供默认地址,请确保该地址可用于尚未指定地址的网页集的所有网页中的所有活动。
  • 如果您标记了某个恰巧也是超文本链接的活动名称,那么数据标注工具会自动使用该活动的链接网址。例如,如果您标记了某个活动名称,其在原始 HTML 中的显示如下:<a href=”http://example.com/eventName”>我的活动名称</a>,那数据标注工具则会使用“http://example.com/eventName”作为该活动的网址。请注意:
    • 只有在该网址指向您网页集中的某个网页时,数据标注工具才会自动使用该网址。
    • 该网址不会显示在“我的数据项”列中。您可以通过查看结构化数据网页来确认该网址是否已添加。
    • 如果您为该活动明确地标记了其他网址,则数据标注工具将会使用您标记的那个网址。
  • 在完成网页标记并点击完成下一页按钮之前,请务必执行以下操作:
    • 查看并纠正所有标有警告图标的标记。如果您不处理警告图标,数据标注工具可能无法理解网页集中其他网页的数据。
    • 计算“我的数据项”列中的活动数量,并确保网页包含相同数量的活动。例如,如果“我的数据项”列列出了五个活动,但网页仅包含一个活动,则您需要修正网页上的标记。