火星科技网您的位置:首页 >人工智能 >

机器学习和大数据正在解锁欧洲的档案

导读 从战争到婚礼,欧洲的历史存储在整个数十亿的档案页面中。虽然许多档案馆试图公开他们的文件,但在其中查找信息仍然是一项技术含量低的事情

从战争到婚礼,欧洲的历史存储在整个数十亿的档案页面中。虽然许多档案馆试图公开他们的文件,但在其中查找信息仍然是一项技术含量低的事情。简单的页面扫描不提供研究人员经常感兴趣的元数据,例如日期、名称、位置。复制这些信息供以后使用也很耗时。

可以训练识别和转录历史手写文件的AI模型正在帮助数字化国家和城市档案。图片来源:pxhere.com(根据CC0获得许可)

这些问题在阿姆斯特丹是众所周知的,阿姆斯特丹正试图公开其整个档案。荷兰阿姆斯特丹城市档案馆的档案管理员宝琳·范登赫维尔(PaulinevandenHeuvel)说,仅就公证记录而言,“纸质文件就有大约三公里半”。这是大约11,800页的A4纸端到端铺设。她说,整个藏品长约50公里,相当于170,000张A4页。“我们知道它们非常重要(文件),但它确实是一个黑洞。”

她说,手动记录这些文件中可用的名称通常需要数十年的工作和资金。

几年前,档案馆与READ项目及其Transkribus平台合作,为档案工作者提供了一种转录和搜索历史文件的新方法。该在线平台允许用户训练计算机手写识别模型来转录用各种欧洲语言手写的历史文件。

用户使用50到100页现有转录或手动转录到系统中的转录来训练模型。经过训练后,该模型使用机器学习将其现在知道的手写模式与用户想要转录的文档进行比较。该模型会自动逐行转录。要使其正常工作,新文档的笔迹必须与模型之前看到的笔迹相同或相似。

协调该项目的奥地利因斯布鲁克大学的GünterMühlberger博士说,到目前为止,用户已经训练了7,700多个单独的模型。

用户可以训练自己的模型或选择预先存在的模型。一种可用的模型可以识别英国哲学家杰里米·边沁的笔迹。另一个认可17世纪秘书的笔迹风格。用户可以使用这些模型作为他们自己训练的起点。

在Transkribus完成工作后,用户通常只需要校对以纠正任何小错误。虽然这看起来像是很多初始工作,但它可以节省档案工作者、历史学家和学者数百甚至数千小时坐在电脑前手工转录全套文件的时间。

机器学习

Transkribus是READ项目开发新技术以更好地识别和自动转录手写文档的成果。然后,这些转录可以帮助研究人员在存储在非洲档案中的数十亿页中更好地搜索单词或短语。

对于Transkribus,该项目使用了“监督机器学习”算法,该算法在学习时整理历史数据。这些数据可用于训练更大的模型。

该项目的关键是“大数据”——足够多的档案文件,可以让算法对手写和页面布局有一个复杂的理解。该项目与欧洲70多个档案馆、大学和研究机构合作,包括德国的黑森州档案馆和的ArchivioStoricoRicordi。“从中世纪到20世纪,我们得到了数千页具有不同布局和不同(类型)文字的页面,”Mühlberger博士说。

他说,Transkribus可能是全球最大的历史笔迹训练数据集——超过700,000份文件。

Mühlberger博士说,他们的主要挑战是还要训练算法来识别手写文档中一行字的样子。他解释说,例如,用于将PDF转换为文本的传统“光学字符识别”软件适用于旧的印刷文档,因为行和字空间具有固定的布局。

“如果你试图用手写来做同样的事情,”他说,“你完全失败了。”他说,在草书写作中分离单个字符或多或少是不可能的。

该项目的初始机器学习算法可以识别85%的手写文本。然而,该项目很快意识到,对于处理数千个手写档案页面的档案来说,这还不够好。

“85%在研究论文中看起来不错,但对于坐在(他们的)电脑前的用户来说却不是,”他说。

线

然后研究人员使用两种方法来提高他们程序的准确性。他们首先重新考虑了他们的程序将如何识别文本行。他们没有寻找文本的整个块区域,而是训练算法寻找每个单词所在的共同“基线”,类似于线条式页面教孩子们在页面上均匀书写的方式。“这是一个非常重要的简化,”Mühlberger博士说。

在项目期间绘制了超过100,000条线来训练算法识别一条普通线的样子。如果Transkribus无法识别一行文本,用户可以通过在下方画一条线来显示程序——从长远来看,这是一种更简单的技术,可以节省数小时的时间。

另一个变化是Transkribus识别语言的方式。在项目的早期,他们使用字典来帮助它识别文档中的整个单词。但是通过切换到仅识别训练文档中的字符,该团队能够将其准确度再提高10%。识别字母也意味着该算法对于旧形式的语言很有用——并且能够处理缩写。最近添加的功能允许Transkribus自动扩展缩写。

他们正在寻求进一步完善Transkribus的工作方式。一种方法涉及合并不同的用户训练算法,以从整体上提高Transkribus的文本识别能力。另一个是添加新功能,例如转录包括表格和表格在内的结构化信息,并允许档案管理员集体搜索和更正关键字。Mühlberger博士表示,他们希望改进平台的用户体验和布局,以便即使是小规模的家族历史学家也可以轻松使用Transkribus上传和转录文档的扫描副本。Transkribus的合作结构意味着任何赚到的钱都会反馈到平台以改善其服务。

档案

自2015年推出以来,使用Transkribus的人数大幅增加。该平台现在拥有超过45,000名用户,其中包括阿姆斯特丹城市档案馆的志愿者。范登休维尔说,归档增选Transkribus到自己的工作时,他们意识到,在索引的17个,地点和日期日和18日世纪文件将需要几十年的工作。一个训练有素的Transkribus算法能够完成录制该项目的18页世纪的文件比上年同期预期。她说,虽然志愿者可能需要几个月的时间来索引50,000份扫描文件,但一个模型经过训练后只需要几个小时。她说,一个由300名志愿者组成的团队现在只需要仔细检查转录内容。

“这只是开始,”她说。“现在你可以研究大量数据中的模式、人与人之间的联系——这是一项全新的研究。”工作仍在进行中,尽管vandenHeuvel表示,完成的工作将连接到欧洲时间机器网络机构,使用记录来揭示欧洲随着时间的推移的社会和政治演变。

还有其他正在进行的项目在整个欧洲都有档案。芬兰国家档案馆也在努力发布其国家档案,并自2016年以来一直在其工作中使用Transkribus。芬兰国家档案局高级研究官MariaKallio表示,档案馆首先在他们拥有的一些日记条目中使用了Transkribus。在对结果印象深刻之后,他们决定进行一项更大的任务。

她说:“我们已经开始转录这些19世纪的法庭记录,这是一个巨大的收藏,仅19世纪的部分就有数百万页。”“为了更容易地对......记录进行研究,我们认为在他们身上尝试这项技术可能是个好主意。”

他们与READ项目工作已导致芬兰档案现在释放身边800000转录单据给公众,包括在大多数芬兰追溯的事迹,抵押和监护权案件的法律记录的16个世纪。人们现在可以使用这些记录来研究家族历史和追踪财产所有权。

该技术仍然存在局限性。范登休维尔说,需要大量的培训材料的所有品种的17个世纪的笔迹来创建可以在这样一个大的,变化的收集工作,比如他们的一般模型。具有大量页面的馆藏还需要支付使用Transkribus技术的费用,该技术可免费使用前500页,然后才需要购买“积分”来转录更多页面。例如,接下来的120个手写页面为18欧元。

尽管如此,这项技术还是受到了研究人员的欢迎。卡利奥说:“有可能提出这类研究问题来回答有关事物如何发展的更广泛的问题。”“现在你实际上可以掌握整个材料,并提出以前不可能提出的问题。”

标签:

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。