大规模中文金融情感分析数据集自动构建

doi:10.13451/j.sxu.ns.2024111

PDF(2736 KB)

山西大学学报(自然科学版) ›› 2024, Vol. 47 ›› Issue (04) : 776-785. DOI: 10.13451/j.sxu.ns.2024111

大规模中文金融情感分析数据集自动构建

李大宇, 李旸, 王素格

作者信息 +

History +

摘要

金融文本中蕴含着丰富的情感信息，对于捕捉金融市场情绪波动、辅助投资者决策以及实施金融风险管理等都具有重要意义。然而，金融文本的情感标注需要大量领域专家知识，人工标注成本高昂。文章设计了一种基于表情符号远监督指导的自动标注策略，将金融文本中表情符号所表达的情感含义作为指导信息，自动标注文本的情感倾向，构建基础标注数据集；在此基础上，采用持续学习算法训练金融文本情感分类器，预测未标注数据，生成伪标签样本，进一步扩展标注数据集。最终，自动构建了一个包含923万余条股市评论的大规模中文金融情感分析数据集StockSentCN。在人工评估体系下，该数据集的Kappa一致性系数达到0.85，加权平均F1值达到90.34%，证明了所构建数据集的高质量与可靠性。数据集公开下载地址为：https：//github.com/lidayuls/StockSentCN/。