西南石油大学学报:自然科学版 · 2020年第6期165-173,共9页

基于NER 的石油非结构化信息抽取研究

作者:钟原,刘小溶,王杰,陈雁,张泰

摘要:随着“智能油田”的建设加快,构建基于海量石油数据的智能分析系统意义重大。然而,由于石油生产过程中产生的文本数据往往无结构且类型多样,从中抽取关键信息进行分析成为一个研究热点,而信息抽取又需要高质量的语义实体做支撑。根据这一特定问题,提出基于命名实体识别(Named Entity Recognition,NER)技术针对石油非结构化文本进行信息抽取,构建双向长短时记忆(Bidirectional Long Short-Term Memory,Bi LSTM)网络模型提取语料特征,并结合条件随机场(Conditional Random Field,CRF)做分类器,构建了基于Bi LSTM+CRF的高精度NER模型,针对石油工业领域的非结构化文本进行命名实体抽取。通过在修井作业文本数据集上进行对比实验表明,本方法具有较高的精确率和召回率。

发文机构:西南石油大学计算机科学学院

关键词:命名实体识别BiLSTM+CRF信息抽取非结构化文本NERBi-LSTM+CRFinformation extractionunstructured text

分类号: TE319[石油与天然气工程—油气田开发工程]

注:学术社仅提供期刊论文索引,查看正文请前往相应的收录平台查阅
相关文章