大规模中文金融情感分析数据集自动构建

李大宇, 李旸, 王素格

PDF(2736 KB)
PDF(2736 KB)
山西大学学报(自然科学版) ›› 2024, Vol. 47 ›› Issue (04) : 776-785. DOI: 10.13451/j.sxu.ns.2024111

大规模中文金融情感分析数据集自动构建

  • 李大宇, 李旸, 王素格
作者信息 +
History +

摘要

金融文本中蕴含着丰富的情感信息,对于捕捉金融市场情绪波动、辅助投资者决策以及实施金融风险管理等都具有重要意义。然而,金融文本的情感标注需要大量领域专家知识,人工标注成本高昂。文章设计了一种基于表情符号远监督指导的自动标注策略,将金融文本中表情符号所表达的情感含义作为指导信息,自动标注文本的情感倾向,构建基础标注数据集;在此基础上,采用持续学习算法训练金融文本情感分类器,预测未标注数据,生成伪标签样本,进一步扩展标注数据集。最终,自动构建了一个包含923万余条股市评论的大规模中文金融情感分析数据集StockSentCN。在人工评估体系下,该数据集的Kappa一致性系数达到0.85,加权平均F1值达到90.34%,证明了所构建数据集的高质量与可靠性。数据集公开下载地址为:https://github.com/lidayuls/StockSentCN/。

关键词

中文金融情感分析 / 股市情感 / 数据集构建 / 表情符号 / 持续学习

中图分类号

TP391.1 / TP18

引用本文

导出引用
李大宇, 李旸, 王素格. 大规模中文金融情感分析数据集自动构建. 山西大学学报(自然科学版). 2024, 47(04): 776-785 https://doi.org/10.13451/j.sxu.ns.2024111

基金

国家自然科学基金(62306169;62106130); 山西省基础研究计划项目(202203021212499;20210302124084); 山西省高等学校科技创新项目(2022L271)

评论

PDF(2736 KB)

Accesses

Citation

Detail

段落导航
相关文章

/