1027
浏览摘要近年来,机器学习,特别是深度神经网络方法,促进了金融文本挖掘研究的发展,在金融技术领域发挥着越来越重要的作用。如何从金融大数据中提取有价值的信息已成为学术界和工业界一项非常具有挑战性的研究。由于深度神经网络需要大量的数据标记,但金融领域缺乏培训数据,因此将深度学习应用于金融大数据挖掘并没有取得很好的效果。为了更好地解决这个问题,最新的思想和技术,如自我监督学习和多任务学习,F_BERT提出了基于BERT模型架构的开源金融预训练语言模型。F-BERT是一种针对特定领域(金融文本数据)的预训练语言模型,通过在大型金融语料库上进行非监督训练获得。基于BERT架构,F-BERT可以有效地自动从金融大数据中提取和记忆知识,而无需修改具体金融任务的模型结构,可以直接应用于下游金融领域的各种任务,包括股票涨跌预测、金融情绪分类、金融智能客户服务等。金融关系提取、金融情绪分类和金融智能问答任务中的大量实验表明,F-BERT模型的有效性和鲁棒性。F-BERT在这三篇具有代表性的金融文章中模型精度高,进一步验证了模型的性能。
关键词BERT;金融文本挖掘;多任务学习;预训练;迁移学习;金融科技。
大量的互联网金融信息在金融市场中起着重要的作用,对网络金融文本信息的挖掘具有很大的实用价值。随着大数据时代的到来,金融大数据挖掘已成为行业的热点趋势,金融机器学习技术吸引了越来越多的关注。面对惊人的金融文本数据,如何从中提取有价值的信息已成为学术界和工业界面临的一项非常具有挑战性的研究。如果我们手动分析这些文本信息,并获得可行的意见,这几乎是一项极其困难的任务。机器学习技术的进步使金融技术中的金融文本挖掘模型成为可能。然而,在金融文本挖掘任务中,建立监督培训数据的成本非常高,因为它需要使用金融领域的专家知识。由于F-BET模型不能用于金融文本挖掘任务的标签培训数据,因此大多数金融文本挖掘模型不能直接使用
通过使用自监督学习和多任务学习的深度神经网络来解决这个问题。目前,金融技术中的金融文本挖掘。
挖掘模型主要采用基于深度学习的自然语言处理技术。目前,自然语言处理主要采用基于深度神经网络的技术,其发展主要包括两个里程碑。首先,以word2vec[1]为代表的词向量技术于2013年提出并不断发展,如word2vec、glove[23等;第二个里程碑是谷歌在2018年底提出的。mtransformers)[3]作为典型代表的预训练语言模型(pre_traing1anguagemodels)技术,如BERT、ELMO[43等。其中,word2vec、Glove等词汇编码是从非监督语料库中提取知识的一种方式,已成为自然语言处理的主要进步之一。但是,由于金融领域有很多专业术语,这些简单的词向量方法是不够有效的。另一方面,预训练的语言模型技术,如BERT、ALBERT[53等。经过大规模的语言模型预训练,BERT获得了有效的上下文表示。与word2VEC词向量相比,BERT可以充分利用深度预训练模型的参数,更有效地学习上下文知识。然而,模型预训练(如BERT)主要使用基于简单预训练任务的语言模型进行训练,使模型具有掌握单词或句子共存的能力。事实上,除了共存之外,还有其他词汇、句法和语义信息需要在训练语料库中检查。特别是对于金融文本数据,如股票、债券类型和金融机构名称,命名实体包含唯一的词汇信息。例如,句子顺序和句子之间的接近度等信息也使模型能够学习语义感知表示。此外,BERT的预训练数据来自BOOKSCorpus和英语维基百科全书。这些语料库不一定类似于目标任务的语言环境,如金融领域。因此,如果我们直接使用BERT挖掘金融文本,效果不是很好。为了有效地捕获大型金融培训语料库中的语言知识和语义信息,我们建立了四项涵盖更多知识的自我监督学习预训练任务,并通过多任务学习培训数据培训F-BERT。具体来说,我们创新地提出了BERT模型,在模型架构中,我们建立了四项自我监督学习预培训任务,学习了金融领域的普通文本语料和文本语料,使FBERT能够更好地捕获金融文本数据的语言知识和知识。
综上所述,本文的主要贡献有五个方面:
1)利用深度学习领域的自我监督学习和多任务。
学习技术提出了基于BERT模型架构的大规模语料库训练的开源金融预训练模型F-BERT。2)建立了四项自监督学习预训练任务,可通过多任务自监督学习同时进行预训练。通过这种机制,我们可以有效地捕获大规模预训练语料库中的金融语言知识和语义信息。
3)金融任务实验分别在金融关系提取、金融情绪分类、金融智能问答任务等方面进行,验证了FBERT的有效性和鲁棒性。实验结果表明,F-BERT模型已经完成了这三项具有代表性的金融文本挖掘任务。
最佳准确性优于当前所有其他模型;此外,对于金融命名实体识别,实验验证了金融短文本分类的两项实际金融技术任务,提出的F-BERT模型具有最佳准确性。
4)采用混合精度训练方法,在Horovod框架上进行F-BERT分布式训练,不仅使整个训练过程具有稳定的加速比,而且具有良好的可扩展性。
5)F_BERT在Github上开源,包括其模型架构、源代码、超参数、训练模型和微调源代码。通过这个开源代码,F-BERT可以用于挖掘其他下游各种金融文本任务,最少修改特定的金融文本分析任务,帮助实现最新的性能。