用于金融文本挖掘的多任务学习预训练金融语言模型

2022-05-21 20:09 988 浏览
论文tags: 金融论文范文

摘要近年来,机器学习,特别是深度神经网络方法,促进了金融文本挖掘研究的发展,在金融技术领域发挥着越来越重要的作用。如何从金融大数据中提取有价值的信息已成为学术界和工业界一项非常具有挑战性的研究。由于深度神经网络需要大量的数据标记,但金融领域缺乏培训数据,因此将深度学习应用于金融大数据挖掘并没有取得很好的效果。为了更好地解决这个问题,最新的思想和技术,如自我监督学习和多任务学习,F_BERT提出了基于BERT模型架构的开源金融预训练语言模型。F-BERT是一种针对特定领域(金融文本数据)的预训练语言模型,通过在大型金融语料库上进行非监督训练获得。基于BERT架构,F-BERT可以有效地自动从金融大数据中提取和记忆知识,而无需修改具体金融任务的模型结构,可以直接应用于下游金融领域的各种任务,包括股票涨跌预测、金融情绪分类、金融智能客户服务等。金融关系提取、金融情绪分类和金融智能问答任务中的大量实验表明,F-BERT模型的有效性和鲁棒性。F-BERT在这三篇具有代表性的金融文章中模型精度高,进一步验证了模型的性能。

关键词BERT;金融文本挖掘;多任务学习;预训练;迁移学习;金融科技。

大量的互联网金融信息在金融市场中起着重要的作用,对网络金融文本信息的挖掘具有很大的实用价值。随着大数据时代的到来,金融大数据挖掘已成为行业的热点趋势,金融机器学习技术吸引了越来越多的关注。面对惊人的金融文本数据,如何从中提取有价值的信息已成为学术界和工业界面临的一项非常具有挑战性的研究。如果我们手动分析这些文本信息,并获得可行的意见,这几乎是一项极其困难的任务。机器学习技术的进步使金融技术中的金融文本挖掘模型成为可能。然而,在金融文本挖掘任务中,建立监督培训数据的成本非常高,因为它需要使用金融领域的专家知识。由于F-BET模型不能用于金融文本挖掘任务的标签培训数据,因此大多数金融文本挖掘模型不能直接使用

通过使用自监督学习和多任务学习的深度神经网络来解决这个问题。目前,金融技术中的金融文本挖掘。

挖掘模型主要采用基于深度学习的自然语言处理技术。目前,自然语言处理主要采用基于深度神经网络的技术,其发展主要包括两个里程碑。首先,以word2vec[1]为代表的词向量技术于2013年提出并不断发展,如word2vec、glove[23等;第二个里程碑是谷歌在2018年底提出的。mtransformers)[3]作为典型代表的预训练语言模型(pre_traing1anguagemodels)技术,如BERT、ELMO[43等。其中,word2vec、Glove等词汇编码是从非监督语料库中提取知识的一种方式,已成为自然语言处理的主要进步之一。但是,由于金融领域有很多专业术语,这些简单的词向量方法是不够有效的。另一方面,预训练的语言模型技术,如BERT、ALBERT[53等。经过大规模的语言模型预训练,BERT获得了有效的上下文表示。与word2VEC词向量相比,BERT可以充分利用深度预训练模型的参数,更有效地学习上下文知识。然而,模型预训练(如BERT)主要使用基于简单预训练任务的语言模型进行训练,使模型具有掌握单词或句子共存的能力。事实上,除了共存之外,还有其他词汇、句法和语义信息需要在训练语料库中检查。特别是对于金融文本数据,如股票、债券类型和金融机构名称,命名实体包含唯一的词汇信息。例如,句子顺序和句子之间的接近度等信息也使模型能够学习语义感知表示。此外,BERT的预训练数据来自BOOKSCorpus和英语维基百科全书。这些语料库不一定类似于目标任务的语言环境,如金融领域。因此,如果我们直接使用BERT挖掘金融文本,效果不是很好。为了有效地捕获大型金融培训语料库中的语言知识和语义信息,我们建立了四项涵盖更多知识的自我监督学习预训练任务,并通过多任务学习培训数据培训F-BERT。具体来说,我们创新地提出了BERT模型,在模型架构中,我们建立了四项自我监督学习预培训任务,学习了金融领域的普通文本语料和文本语料,使FBERT能够更好地捕获金融文本数据的语言知识和知识。

综上所述,本文的主要贡献有五个方面:

1)利用深度学习领域的自我监督学习和多任务。

学习技术提出了基于BERT模型架构的大规模语料库训练的开源金融预训练模型F-BERT。2)建立了四项自监督学习预训练任务,可通过多任务自监督学习同时进行预训练。通过这种机制,我们可以有效地捕获大规模预训练语料库中的金融语言知识和语义信息。

3)金融任务实验分别在金融关系提取、金融情绪分类、金融智能问答任务等方面进行,验证了FBERT的有效性和鲁棒性。实验结果表明,F-BERT模型已经完成了这三项具有代表性的金融文本挖掘任务。

最佳准确性优于当前所有其他模型;此外,对于金融命名实体识别,实验验证了金融短文本分类的两项实际金融技术任务,提出的F-BERT模型具有最佳准确性。

4)采用混合精度训练方法,在Horovod框架上进行F-BERT分布式训练,不仅使整个训练过程具有稳定的加速比,而且具有良好的可扩展性。

5)F_BERT在Github上开源,包括其模型架构、源代码、超参数、训练模型和微调源代码。通过这个开源代码,F-BERT可以用于挖掘其他下游各种金融文本任务,最少修改特定的金融文本分析任务,帮助实现最新的性能。


论文tags: 金融论文范文
分享:
相关内容
  • 普惠金融选题推荐
     普惠金融选题推荐1. 数字普惠金融在农村地区的发展模式研究2. 区块链技术在普惠金融中的应用与创新3. 人工智能驱动的普惠金融风险管理机制4. 绿色普惠金融对可持续发展的影响分析5. 普惠金融在中小微企业融资中的作用6. 移动支付与普惠金融的融合发展路径7. 普惠金融政策对低收入群体的实效性评估8. 大数据在普惠金融信用评估中的应用9. 普惠金融与社会资本的互动机制研究
  • 银行普惠金融创新发展论文范文
    普惠金融推动包容性增长的机制与创新发展路径研究第一章 引言1.1 研究背景包容性增长是近年来全球关注的经济发展目标之一,旨在实现经济增长与社会公平的双重目标,确保不同社会阶层特别是弱势群体能够共享经济增长的红利。普惠金融的概念由联合国在2005年提出,旨在通过提供全面的金融服务,确保所有社会成员都能平等地获得金融资源,从而实现包容性增长。普惠金融在全
  • 银行普惠金融惠农论文范文
    普惠金融在贫困地区经济社会发展中的作用与创新路径研究第一章 引言1.1 研究背景贫困地区的经济社会发展往往面临融资渠道匮乏、产业结构单一、基础设施落后等问题,这些因素共同制约了贫困地区脱贫与经济发展的步伐。普惠金融旨在通过为所有社会成员提供平等的金融服务,尤其是为弱势群体、农村和偏远地区的居民提供经济可得的金融产品,弥合发展鸿沟,实现经济的包容
  • 银行业普惠金融论文范文
    普惠金融助力可持续经济增长的机制与路径研究第一章 引言1.1 研究背景普惠金融的概念最早由联合国提出,其核心在于为社会各阶层特别是弱势群体和偏远地区的居民提供公平、可得的金融服务。普惠金融的目标在于消除金融排斥,赋能弱势群体,实现经济增长的包容性和可持续性。近年来,随着经济全球化和科技发展,普惠金融在消除贫困、推动小微企业成长、助力经济结构优化
  • 普惠科技金融论文范文
    普惠金融促进城乡经济均衡发展的路径与创新思考第一章 引言1.1 研究背景城乡经济差距是全球许多国家面临的重大社会经济问题之一,尤其是在发展中国家,农村经济的发展远落后于城市,导致居民收入差距不断扩大。城乡经济发展的不平衡,不仅影响国家整体经济水平的提高,也阻碍了社会的稳定与进步。普惠金融作为一种旨在实现金融服务广泛覆盖和公平性的金融理念,能够为
相关推荐
  • 跨国公司企业并购的系统动力学研究—以奔驰并购克莱斯勒公司为例
    关键词: WOTS-UP分析;系统动力学;跨国公司;企业并购;业务建模;摘要: 全球竞争和技术的不断进步正在显著改变企业的格局及其内部报告要求。本文通过对戴姆勒–奔驰公司WOTS-UP分析之前因构型,识别出与该公司未来发展相关的关键因素,并制定适当的策略来预测未来的发展和评估公司适应或利用这些发展的能力,然后通过开发支持战略选择的相关系统,将奔驰、克莱斯勒公司合
热门内容
  • 东方甄选SWOT分析战略
    东方甄选是一家专注于高品质商品的电商平台。进行其SWOT分析可以帮助识别其内部优势(Strengths)和劣势(Weaknesses),以及外部机会(Opportunities)和威胁(Threats)。以下是基于一般情况的东方甄选SWOT分析:优势(Strengths)品质保证:东方甄选可能注重商品的品质,为消费者提供高质量的商品。精准定位:面向追求高品质生活的消费群体,定位清晰。品牌形象:可能建立了良好的品
  • 党史党建论文题目105个
     1.习近平新时代中国特色社会主义思想创立的历史考察,党史·党建 2.习近平总书记关于党史、国史的重要论述研究,党史·党建 3.习近平总书记关于大力弘扬“红船精神”等革命精神的重要论述研究,党史·党建 4.习近平新时代中国特色社会主义思想中加强党的全面领导思想研究,党史·党建 5.习近平新时代中国特色社会主义思想中全面从严治党思想研究,党史·党
  • 数字经济论文好写题目推荐50个
    数字经济论文好写题目推荐50个1“双循环”新发展格局下产业链升级机遇、挑战和路径选择    2从数字经济看自由主义的局限性   3我国数字贸易发展策略研究    4卖空机制如何影响企业数字化转型——理论机制分析与实证检验    5数字巨头跨界扩张的竞争法挑战与应对    6数字经济下的杭州丝绸企业品牌营销转型升级研究   7数字时代推进共
  • 平台效应论文
    关键词: 平台效应;主播效应;感知有用性;摘要: 由于新冠疫情发生,促使电商直播购物方式迅速发展。为助力电商直播的发展,从主播和平台两个方面出发,基于感知–情感–行为意愿(CAC)模型,并以感知有用性和满意度作为中介变量,构建消费者持续使用意愿影响研究模型,并通过问卷调查和结构方程模型进行实证研究。结果表明:主播和平台两个方面对消费者感知有用性和满意
  • 消费者需求论文,市场状况论文
    关键词: 紧平衡;消费者需求;市场状况;供应定位;精准营销;工业和商业摘要: 在“互联网+”和烟草行业信息化水平不断发展的大背景下,经济发展的市场化和国际化迫使中国烟草行业直面严厉的挑战。粗犷的商业投放模式和营销方式,无法适应当今快速变化的互联网市场环境,导致消费者难以挑选到心仪的产品,而企业也无法把适当的产品投向对应的市场,更无从市场导向控制
联系方式
  • 13384015218
  • 13384015218
  • 921006691@qq.com