更新於 2023/07/31閱讀時間約 24 分鐘

05 为文本分类

Hi, 我是茶桁。

在前一讲中,我们观察到大型模型的确表现出良好效果。在情感分析任务中,通过使用 OpenAI API 提供的 Embedding,我们得到的结果要比能在单个机器上运行的较小模型(如T5-base)要好得多。然而,我们之前所选择的问题确实有些过于简单。我们将5个不同的评分分成了正面、负面和中性,同时还排除了相对难以判断的"中性"评价,因此我们判断准确率的提高相对较容易实现。但是,如果我们想要准确预测具体的分数呢?这将是我们接下来需要探索的问题。

训练机器学习模型

一种最简单的方法是利用我们获得的文本 Embedding 向量。这次我们将不再直接使用向量之间的距离,而是采用传统的机器学习方法进行分类。这样做的原因在于,仅仅使用向量之间的距离无法最大化利用已标注好的分数信息。

付費訂閱
分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.