茶桁的沙龍

训练机器学习模型

付費限定

05 为文本分类

發佈於从零开始接触人工智能大模型

2023/07/31 更新2023/07/31 發佈閱讀 24 分鐘

Hi，我是茶桁。

在前一讲中，我们观察到大型模型的确表现出良好效果。在情感分析任务中，通过使用 OpenAI API 提供的 Embedding，我们得到的结果要比能在单个机器上运行的较小模型（如T5-base）要好得多。然而，我们之前所选择的问题确实有些过于简单。我们将5个不同的评分分成了正面、负面和中性，同时还排除了相对难以判断的"中性"评价，因此我们判断准确率的提高相对较容易实现。但是，如果我们想要准确预测具体的分数呢？这将是我们接下来需要探索的问题。

训练机器学习模型

一种最简单的方法是利用我们获得的文本 Embedding 向量。这次我们将不再直接使用向量之间的距离，而是采用传统的机器学习方法进行分类。这样做的原因在于，仅仅使用向量之间的距离无法最大化利用已标注好的分数信息。

以行動支持創作者！付費即可解鎖

本篇內容共 9922 字、0 則留言，僅發佈於从零开始接触人工智能大模型你目前無法檢視以下內容，可能因為尚未登入，或沒有該房間的查看權限。

茶桁的沙龍从零开始接触人工智能大模型

留言

留言分享你的想法！

茶桁的沙龍

9會員

62內容數

从基础开始，再到Python，然后是CV、BI、NLP等相关技术。从头到尾详细的教授一边人工智能。

茶桁的沙龍的其他內容

2023/07/31

21. 尝试制作你自己的数字人进行播报

Hi，大家好。我是茶桁。在之前的课程中，我们接触了AI进行文字回复，语音合成。那么将这两个组合在一起，我们基本就可以制作一个智能的语音聊天机器人了。看过电影《Her》的同学都应该清楚，AI因为用了女神斯嘉丽.约翰逊的配音，吸引到了不少的观众。不过，我们怎么能就满足于此呢，从文字到音频

2023/07/31

21. 尝试制作你自己的数字人进行播报

Hi，大家好。我是茶桁。在之前的课程中，我们接触了AI进行文字回复，语音合成。那么将这两个组合在一起，我们基本就可以制作一个智能的语音聊天机器人了。看过电影《Her》的同学都应该清楚，AI因为用了女神斯嘉丽.约翰逊的配音，吸引到了不少的观众。不过，我们怎么能就满足于此呢，从文字到音频

2023/07/31

20. 尝试让机器拥有声音

大家好，我是Hivan。好久不见了，今天我们来讨论下如何让机器拥有声音。回顾一下我们上一讲的内容，我们已经成功使用Whisper模型使得AI能够理解我们说的话。这为我们带来了很多应用，例如让AI代替我们收听播客并总结内容。然而，这只是单向的交流模式。现在，让我们探索更深入的可能性，让AI

2023/07/31

20. 尝试让机器拥有声音

大家好，我是Hivan。好久不见了，今天我们来讨论下如何让机器拥有声音。回顾一下我们上一讲的内容，我们已经成功使用Whisper模型使得AI能够理解我们说的话。这为我们带来了很多应用，例如让AI代替我们收听播客并总结内容。然而，这只是单向的交流模式。现在，让我们探索更深入的可能性，让AI

2023/07/31

19. 快速倾听和总结音频内容

Hi，大家好，我是茶桁。其实到第18章的时候，我们处理文本的内容就全部都结束了，从本节课开始，我们要开始学习如何处理音频和图像。我不知道有没有人和我一样的习性，就是比起视频和音频文件来说，还是跟喜欢看文本文件。这其中最主要的一个原因就是因为文本内容我们可以准确定位，而对于文本内容的接收速度还

2023/07/31

19. 快速倾听和总结音频内容

Hi，大家好，我是茶桁。其实到第18章的时候，我们处理文本的内容就全部都结束了，从本节课开始，我们要开始学习如何处理音频和图像。我不知道有没有人和我一样的习性，就是比起视频和音频文件来说，还是跟喜欢看文本文件。这其中最主要的一个原因就是因为文本内容我们可以准确定位，而对于文本内容的接收速度还

你可能也想看

閒水鴨的日常

【開箱】瀏海人必備神器！KOIZUMI mini瀏海梳，送走惱人條碼瀏海頭！

覺得黏在額頭上的"條碼瀏海"很阿雜嗎？日本熱銷的「KOIZUMI迷你瀏海梳」，不僅小巧便攜，更能快速加熱造型，無論是齊瀏海、空氣瀏海還是韓系碎蓋髮，都能輕鬆打理！瀏海順了，一整天心情就好了！

#KOIZUMI瀏海梳#瀏海神器#KOIZUMI

2025/11/07

閒水鴨的日常

【開箱】瀏海人必備神器！KOIZUMI mini瀏海梳，送走惱人條碼瀏海頭！

覺得黏在額頭上的"條碼瀏海"很阿雜嗎？日本熱銷的「KOIZUMI迷你瀏海梳」，不僅小巧便攜，更能快速加熱造型，無論是齊瀏海、空氣瀏海還是韓系碎蓋髮，都能輕鬆打理！瀏海順了，一整天心情就好了！

#KOIZUMI瀏海梳#瀏海神器#KOIZUMI

2025/11/07

可憐的社畜的沙龍

TMB登山好幫手推薦｜我的實測好物＋雙11蝦皮購物清單

走完朝聖之路和TMB後，我發現真正能撐住長時間健行的，不只是腳力，而是那些讓生活更舒服的小物。這篇整理了我在TMB實測後覺得超好用的三樣登山神器——防水襪、肥皂袋、速乾毛巾，每一樣都讓旅程更輕鬆！

#登山裝備推薦#TMB裝備清單#健行必備小物

2025/11/07

可憐的社畜的沙龍

TMB登山好幫手推薦｜我的實測好物＋雙11蝦皮購物清單

走完朝聖之路和TMB後，我發現真正能撐住長時間健行的，不只是腳力，而是那些讓生活更舒服的小物。這篇整理了我在TMB實測後覺得超好用的三樣登山神器——防水襪、肥皂袋、速乾毛巾，每一樣都讓旅程更輕鬆！

#登山裝備推薦#TMB裝備清單#健行必備小物

2025/11/07

無限智慧學院的沙龍

開啟一切可能性的鑰匙，8K Text Embedding Model

要檢查兩段長篇文字，內容是否雷同，長久以來困擾著大家，沒有好的嵌入模型，會耗費大量人力，需要對長篇文檔進行人工閱讀然後人工分類。本文除了展示如何能完美的解決這個痛點以外，也提供一些延伸應用思路，學習CP值很高。期待你能從本文取得許多新的應用思路與應用潛力！

#TextEmbedding#AI推薦系統#阿斯拉強化學習

2023/10/31

無限智慧學院的沙龍

開啟一切可能性的鑰匙，8K Text Embedding Model

要檢查兩段長篇文字，內容是否雷同，長久以來困擾著大家，沒有好的嵌入模型，會耗費大量人力，需要對長篇文檔進行人工閱讀然後人工分類。本文除了展示如何能完美的解決這個痛點以外，也提供一些延伸應用思路，學習CP值很高。期待你能從本文取得許多新的應用思路與應用潛力！

#TextEmbedding#AI推薦系統#阿斯拉強化學習

2023/10/31

茶桁的沙龍

18. 根据垂直需求微调模型

大家好，我是茶桁。最近事情太多，这一节课更新的有些晚了。首先我们先了解一下我们本节课讲要讲一些什么，我们之前介绍过 llama-index 和 LangChain，学习了将大语言模型和自己的知识库组合来解决问题的方法。这个方法中，我们不需要调整我们使用的模型，而是使用嵌入向量索引我们的数据，

#模型#OpenAI#ChatGPT

2023/07/31

茶桁的沙龍

18. 根据垂直需求微调模型

大家好，我是茶桁。最近事情太多，这一节课更新的有些晚了。首先我们先了解一下我们本节课讲要讲一些什么，我们之前介绍过 llama-index 和 LangChain，学习了将大语言模型和自己的知识库组合来解决问题的方法。这个方法中，我们不需要调整我们使用的模型，而是使用嵌入向量索引我们的数据，

#模型#OpenAI#ChatGPT

2023/07/31

茶桁的沙龍

11 用好开源模型节约成本

Hi，大家好，我是茶桁。直奔主题，我们来谈谈成本这件事。大家应该都知道，ChatGPT对免费用户是有5美元的API调用额度的，说是这么说，可是那是以前，现在新注册的小伙伴应该都发现自己的API Key根本无法调用API，原因是这个免费额度似乎已经失效了。而我可以直接说，在我从第一节到第10

#模型#GPU#OpenAI

2023/07/31

茶桁的沙龍

11 用好开源模型节约成本

Hi，大家好，我是茶桁。直奔主题，我们来谈谈成本这件事。大家应该都知道，ChatGPT对免费用户是有5美元的API调用额度的，说是这么说，可是那是以前，现在新注册的小伙伴应该都发现自己的API Key根本无法调用API，原因是这个免费额度似乎已经失效了。而我可以直接说，在我从第一节到第10

#模型#GPU#OpenAI

2023/07/31

茶桁的沙龍

09 使用Embedding实现语义检索

Hi，我是茶桁。过去的8讲，你已熟悉Embedding和Completion接口。Embedding适合用于机器学习中的分类、聚类等传统场景。Completion接口可以用作聊天机器人，也可以用于文案撰写、文本摘要、机器翻译等工作。然而，很多同学可能认为这与他们的日常工作无关。实际上，我们通

#OpenAI#智慧#人工智能

2023/07/31

茶桁的沙龍

09 使用Embedding实现语义检索

Hi，我是茶桁。过去的8讲，你已熟悉Embedding和Completion接口。Embedding适合用于机器学习中的分类、聚类等传统场景。Completion接口可以用作聊天机器人，也可以用于文案撰写、文本摘要、机器翻译等工作。然而，很多同学可能认为这与他们的日常工作无关。实际上，我们通

#OpenAI#智慧#人工智能

2023/07/31

茶桁的沙龍

08 改写和审核

Hi, 我是茶桁。我们已经介绍了 OpenAI 的主要接口。这是基础知识系列的最后一讲，我们将讨论 OpenAI GPT 系列模型的其他接口。你可能不会经常使用其中一些接口，但了解它们不会有任何坏处，说不定你会在某些需求中用到它们。在这篇文章中，我们将一起探讨 OpenAI 为文本改写和内容

#OpenAI#模型#ChatGPT

2023/07/31

茶桁的沙龍

08 改写和审核

Hi, 我是茶桁。我们已经介绍了 OpenAI 的主要接口。这是基础知识系列的最后一讲，我们将讨论 OpenAI GPT 系列模型的其他接口。你可能不会经常使用其中一些接口，但了解它们不会有任何坏处，说不定你会在某些需求中用到它们。在这篇文章中，我们将一起探讨 OpenAI 为文本改写和内容

#OpenAI#模型#ChatGPT

2023/07/31

茶桁的沙龍

07 AI帮你做总结

Hi，我是茶桁。在上一节中，我们介绍了如何使用最新的ChatGPT API，注册HuggingFace账户，并将我们的聊天机器人部署出去。在这个过程中，我们学习了实际的应用开发过程，使你对聊天机器人的开发有了充足的体验。在这一讲中，我们将探讨OpenAI的各种接口提供的能力，以更深入地了解这些

#人工智能#AI#大语言模型

2023/07/31

茶桁的沙龍

07 AI帮你做总结

Hi，我是茶桁。在上一节中，我们介绍了如何使用最新的ChatGPT API，注册HuggingFace账户，并将我们的聊天机器人部署出去。在这个过程中，我们学习了实际的应用开发过程，使你对聊天机器人的开发有了充足的体验。在这一讲中，我们将探讨OpenAI的各种接口提供的能力，以更深入地了解这些

#人工智能#AI#大语言模型

2023/07/31

茶桁的沙龍

06 快速建立一个AI应用

Hi，我是茶桁。在过去的两讲中，我们已经使用 OpenAI 提供的 Embedding 接口完成了文本分类的功能。现在，我们回到 Completion 接口，这一讲将带你更深入地了解该接口的使用。除此之外，我们还将快速搭建一个有界面的聊天机器人，这将让你更好地理解 Completion 接口的应

#ChatGPT#OpenAI#模型

2023/07/31

茶桁的沙龍

06 快速建立一个AI应用

Hi，我是茶桁。在过去的两讲中，我们已经使用 OpenAI 提供的 Embedding 接口完成了文本分类的功能。现在，我们回到 Completion 接口，这一讲将带你更深入地了解该接口的使用。除此之外，我们还将快速搭建一个有界面的聊天机器人，这将让你更好地理解 Completion 接口的应

#ChatGPT#OpenAI#模型

2023/07/31

茶桁的沙龍

05 为文本分类

Hi，我是茶桁。在前一讲中，我们观察到大型模型的确表现出良好效果。在情感分析任务中，通过使用 OpenAI API 提供的 Embedding，我们得到的结果要比能在单个机器上运行的较小模型（如T5-base）要好得多。然而，我们之前所选择的问题确实有些过于简单。我们将5个不同的评分分成了正面

2023/07/31

茶桁的沙龍

05 为文本分类

Hi，我是茶桁。在前一讲中，我们观察到大型模型的确表现出良好效果。在情感分析任务中，通过使用 OpenAI API 提供的 Embedding，我们得到的结果要比能在单个机器上运行的较小模型（如T5-base）要好得多。然而，我们之前所选择的问题确实有些过于简单。我们将5个不同的评分分成了正面

2023/07/31

茶桁的沙龍

04 GPT-3/4对比其他模型胜在哪？

大家好，我是茶桁。在前两节课中，我们一起体验了 OpenAI 提供的 GPT-3.5 系列模型的两个核心接口。一个是获取文本的 Embedding 向量，另一个是根据提示语生成补全的文本内容。通过这两种方法，我们可以在零样本或少样本的情况下进行情感分析任务。然而，你可能会有两个疑问。首先，Emb

#模型#OpenAI#情感

2023/07/31

茶桁的沙龍

04 GPT-3/4对比其他模型胜在哪？

大家好，我是茶桁。在前两节课中，我们一起体验了 OpenAI 提供的 GPT-3.5 系列模型的两个核心接口。一个是获取文本的 Embedding 向量，另一个是根据提示语生成补全的文本内容。通过这两种方法，我们可以在零样本或少样本的情况下进行情感分析任务。然而，你可能会有两个疑问。首先，Emb

#模型#OpenAI#情感

2023/07/31

Darren的沙龍

AI 憑什麼這麼強 (二)：未來兩個方向的改進，讓 AI 變更強大

正文1,724字，主要跟你分享未來 AI 變更強更效率的兩個層面──數據與模型框架。你會從實務者的觀點，知道數據跟 AI (或機器學習模型) 表現間的關係；了解 ChatGPT 為什麼有運算資源的困擾；同時，你也會看到目前最新改善 AI 運算速度的技術發表。

#數據#模型#ChatGPT

2023/06/12

Darren的沙龍

AI 憑什麼這麼強 (二)：未來兩個方向的改進，讓 AI 變更強大

正文1,724字，主要跟你分享未來 AI 變更強更效率的兩個層面──數據與模型框架。你會從實務者的觀點，知道數據跟 AI (或機器學習模型) 表現間的關係；了解 ChatGPT 為什麼有運算資源的困擾；同時，你也會看到目前最新改善 AI 運算速度的技術發表。

#數據#模型#ChatGPT

2023/06/12

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News