基于机器学习的文本罪恶感检测
我们引入了一种新的自然语言处理(NLP),称为犯罪检测的任务。 此任务的重点是检测文本中有罪。 我们认识到内疚是一种重要的情绪,以前从未在 NLP 中研究过。 我们的目标是提供更细粒度的分析。 我们创建 VIC 是为了解决缺乏适合犯罪检测的公开语料库的问题。 该数据集包含来自现有情绪检测数据集的 4,622 条文本,我们将其分为有罪和无罪类别进行二值化。 使用传统机器学习技术,性能最高的模型获得了 72% 的 F1 分数。 我们使用词袋和词频-逆文档频率特征。 我们的研究是理解文本中的内疚感的第一步,并为未来的研究开辟了可能性。
来源和详细信息:
https://www.nature.com/articles/s41598-023-38171-0

