藏语文本标准化方法

拉巴顿珠, 扎西多吉, 珠杰

吉林大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (12) : 3577-3588. DOI: 10.13229/j.cnki.jdxbgxb.20230098

藏语文本标准化方法

  • 拉巴顿珠, 扎西多吉, 珠杰
作者信息 +
History +

摘要

针对现代藏语文本表征形式复杂多样且不规范,影响语音合成系统的性能问题,提出了具有易于维护及可扩展性特点的藏语文本标准化方法。首先,对藏文标记符号和来自其他语言的非藏文特殊符号在藏语文本中的不同表现形式进行了深度解析,并通过不同特征对特殊符号进行了分类;其次,根据归纳的不同类型,分别建立起了15种特殊符号转化为藏语的书写规则;最后,以13 490个句子作为实验数据,通过藏语字音转换测试识别并检测文本中特殊符号和藏文音节的有效性,采用规则匹配的方法对含有特殊符号的句子进行标准化处理。实验结果表明:标准化之前藏语音素转写的遗漏率高达4.69%,而经过标准化之后音素转写的遗漏率降低到0.01%,其藏语文本标准化准确率达99%。

关键词

计算机应用技术 / 藏语文本分析 / 文本标准化 / 语音合成 / 特殊符号 / 字音转换

中图分类号

H214 / TP391.1

引用本文

导出引用
拉巴顿珠, 扎西多吉, 珠杰. 藏语文本标准化方法. 吉林大学学报(工学版). 2024, 54(12): 3577-3588 https://doi.org/10.13229/j.cnki.jdxbgxb.20230098

基金

国家自然基金项目(62406256); 教育部人文社会科学研究项目(21YJCZH059); 2025年西藏自治区自然科学基金项目(ZRKX2025000068); 西藏大学在职攻读博士学位及博士后进站研究人员科研项目(zbds202326);西藏大学培育计划项目(ZDQMJH20-09)

评论

Accesses

Citation

Detail

段落导航
相关文章

/