大小平均缩小约倍而不会损失图像质量。数字化项目中的典型扫描参数为对于报纸报纸灰度对于杂志采用这样的参数数字格式的报纸的一页大约需要。彩色扫描页面高达约。另一方面在一。分割期刊数字化的最后一个阶段是分段其中包括将页面划分为各个元素单词段落文章标题图像表格等和文本识别。通过分段可以在出版物全文中搜索关键字并稍后在门户上搜索各个元素。
周内通过扫描准备了大约的数据
该分割是由通讯社代表与德国公司合作进行的该公司已经拥有处理其他大型欧洲国家图书馆的报纸馆藏的经验。但这一阶段还需要大量的手 危地马拉 WhatsApp 号码列表 动工作识别不同的元素标题副标题图像表格将不同的文本块组合成一个文章元素纠正标题和图像说明中的错误。事实证明分刊是整个期刊数字化过程中劳动力最密集的阶段。在项目最密集的时期多达个分割算子同时进行分割。分割的结果是为每份报纸获得了整套不同的。
整个出版物的个文件包含整个出版物的逻辑结构
文件整期的个文档包含目录和嵌入的可识别文本。每个页面有个文件它描述了页面的物理结构页面上所有单词文本块和图像的坐标。每页个 印度尼西亚 Whatsapp 数据 文件。用于在门户上显示的降低质量文件。由于材料的种类繁多布局文本打印页面大小和其他原因分段变得很困难。最难分割的材料是旧印刷的大幅面报纸其中有许多小文章根据与分割者的协议其中的标题需要手动更正所有错误。