融入单元格结构信息的表格抽取方法
作者:
作者单位:

作者简介:

通讯作者:

基金项目:

国家自然科学基金面上项目(No.12371258)


Table Extraction Method Incorporating Cell Structural Information
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
    摘要:

    现有的端到端方法和基于预训练模型的方法在训练过程中未有效利用表格单元格的结构信息,从而影响了表格文本在模型中的向量表示和最终的语义信息抽取精确率;因此提出了进一步利用单元格结构信息来改进光学字符识别效果的端到端方法和增加单元格序列预测任务的预训练方法。实验结果显示改进后的2种方法在表格语义信息抽取任务中取得了更好的效果,F1值分别提升了0.204 6和0.017 6。改进后的方法加强了单元格结构信息在表格中的重要性,提高了表格语义信息抽取的精确率。

    Abstract:

    In view of the fact that the existing end-to-end methods and pre-training model-based methods do not effectively utilize the structural information of the table cells during the training process, which affects the vector representation of the table text in the model and the final semantic information extraction accuracy, an end-to-end method that further utilizes the structural information of the cells to improve the effectiveness of the optical character recognition, and a pre-training method that increases the cell sequence prediction task are proposed. The experimental results show that the improved 2 methods achieve better results in the task of table semantic information extraction, with F1 values improved by 0.204 6 and 0.017 6. The improved methods reinforce the importance of cell structure information in tables and improve the accuracy rate of table semantic information extraction.

    参考文献
    相似文献
    引证文献
引用本文

乔岩,吴至友,高桓,段旭祥.融入单元格结构信息的表格抽取方法[J].重庆师范大学学报自然科学版,2024,41(2):137-144

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
历史
  • 收稿日期:
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2024-06-12