Skip to content

Commit

Permalink
fix parenthesis issue
Browse files Browse the repository at this point in the history
  • Loading branch information
john0isaac committed Nov 28, 2023
1 parent e1a5d6e commit fc40758
Show file tree
Hide file tree
Showing 12 changed files with 68 additions and 68 deletions.
2 changes: 1 addition & 1 deletion 00-course-setup/translations/cn/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -96,7 +96,7 @@ jupyterhub

重要提示:翻译此存储库中的文本时,请确保不使用机器翻译。 我们将通过社区验证翻译,因此请用您熟悉的语言进行翻译。

当您提交拉取请求时,CLA-bot 将自动确定您是否需要提供 CLA 并适当地描述 PR(例如标签、评论。 只需按照机器人提供的说明进行操作即可。 您只需使用我们的 CLA 在所有存储库中执行一次此操作。
当您提交拉取请求时,CLA-bot 将自动确定您是否需要提供 CLA 并适当地描述 PR(例如标签、评论) 。 只需按照机器人提供的说明进行操作即可。 您只需使用我们的 CLA 在所有存储库中执行一次此操作。

该项目采用了微软开源行为准则。 有关更多信息,请阅读行为准则常见问题解答,或联系 [电子邮件 opencode]([email protected]) 提出任何其他问题或意见。

Expand Down
10 changes: 5 additions & 5 deletions 01-introduction-to-genai/translations/cn/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -51,9 +51,9 @@

### 神经网络和现代虚拟助手的出现

近年来,硬件技术的发展能够处理更大量的数据和更复杂的计算,让人工智能领域的研究得以加速,从而导致了更先进的机器学习算法(称为神经网络或深度学习算法的发展。
近年来,硬件技术的发展能够处理更大量的数据和更复杂的计算,让人工智能领域的研究得以加速,从而导致了更先进的机器学习算法(称为神经网络或深度学习算法) 的发展。

神经网络(特别是循环神经网络 - RNN显着增强了自然语言处理领域的应用,能够以更有意义的方式表示文本含义,并重视句子中单词的上下文之间的联系。
神经网络(特别是循环神经网络 - RNN) 显着增强了自然语言处理领域的应用,能够以更有意义的方式表示文本含义,并重视句子中单词的上下文之间的联系。

这项技术为新世纪第一个十年诞生的虚拟助手提供了动力,它们非常精通解释人类语言、识别需求并执行满足需求的操作,例如使用预定义的脚本进行回答或使用第三方服务。

Expand All @@ -69,13 +69,13 @@

## LLMs 如何工作?

在下一章中,我们将探索不同类型的生成式 AI 模型,但现在让我们看看大型语言模型是如何工作的,重点是 OpenAI GPT(生成式预训练 Transformer模型。
在下一章中,我们将探索不同类型的生成式 AI 模型,但现在让我们看看大型语言模型是如何工作的,重点是 OpenAI GPT(生成式预训练 Transformer) 模型。

* **分词器,文本到数字**:大型语言模型接收文本作为输入并生成文本作为输出。 然而,作为统计模型,它们对数字的处理效果对比起文本序列的处理效果要好得多。 这就是为什么模型的每个输入在被核心模型使用之前都由分词器处理。 标记是一段文本——由可变数量的字符组成,因此标记器的主要任务是将输入分割成标记数组。 然后,每个令牌都映射有一个令牌索引,该索引是原始文本块的整数编码。

![Example of tokenization](../../images/tokenizer-example.png?WT.mc_id=academic-105485-koreyst)

* **预测输出标记**:给定 n 个标记作为输入(最大 n 因模型而异,模型能够预测一个标记作为输出。 然后,该标记会以扩展窗口模式合并到下一次迭代的输入中,从而获得一个(或多个句子作为答案,生成结果有更好的用户体验。 这解释了为什么如果您曾经使用过 ChatGPT,您可能会注意到有时它在生成结果时在句子中间出现停顿。
* **预测输出标记**:给定 n 个标记作为输入(最大 n 因模型而异) ,模型能够预测一个标记作为输出。 然后,该标记会以扩展窗口模式合并到下一次迭代的输入中,从而获得一个(或多个) 句子作为答案,生成结果有更好的用户体验。 这解释了为什么如果您曾经使用过 ChatGPT,您可能会注意到有时它在生成结果时在句子中间出现停顿。

* **选择过程,概率分布**:模型根据其在当前文本序列之后出现的概率来选择输出标记。 这是因为该模型预测了根据其训练计算出的所有可能的“下一个标记”的概率分布。 然而,并不总是从结果分布中选择概率最高的标记。 这种选择增加了一定程度的随机性,模型以非确定性方式运行——对于相同的输入,我们不会得到完全相同的输出。 添加这种程度的随机性是为了模拟人类创造性思维的过程,您可以使用称为温度的模型参数进行调整。

Expand Down Expand Up @@ -117,7 +117,7 @@

## 任务

你的任务是阅读更多关于生成式人工智能(https://en.wikipedia.org/wiki/Generative_artificial_intelligence的内容,并尝试找出一个你现在可以添加生成式人工智能但目前还没有的领域。 与用“旧式方法”做有什么不同,你能做一些你以前做不到的事情吗,或者生成的时候速度更快吗? 写一篇 300 字的摘要,描述您梦想的人工智能初创公司的样子,包括“问题”、“我将如何使用人工智能”、“影响”等标题,还可以选择做一份商业计划。
你的任务是阅读更多关于生成式人工智能(https://en.wikipedia.org/wiki/Generative_artificial_intelligence) 的内容,并尝试找出一个你现在可以添加生成式人工智能但目前还没有的领域。 与用“旧式方法”做有什么不同,你能做一些你以前做不到的事情吗,或者生成的时候速度更快吗? 写一篇 300 字的摘要,描述您梦想的人工智能初创公司的样子,包括“问题”、“我将如何使用人工智能”、“影响”等标题,还可以选择做一份商业计划。

如果您完成了此任务,您甚至可以准备好申请 Microsoft 的创业孵化器[Microsoft for Startups Founders Hub](https://www.microsoft.com/startups?WT.mc_id=academic-105485-koreyst),我们为您提供 Azure 和 OpenAIc redits 以及相关指导等等

Expand Down
28 changes: 14 additions & 14 deletions 02-exploring-and-comparing-different-llms/translations/cn/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -4,7 +4,7 @@

> *点击该图片看本章导学视频*
在上一章中,我们了解了生成式人工智能如何改变技术格局、LLMs 工作原理,以及企业(例如“Our startup”如何将它们应用到自己的应用场景中并得到发展! 在本章中,我们将比较和对比不同类型的大型语言模型以了解它们的优缺点。
在上一章中,我们了解了生成式人工智能如何改变技术格局、LLMs 工作原理,以及企业(例如“Our startup”) 如何将它们应用到自己的应用场景中并得到发展! 在本章中,我们将比较和对比不同类型的大型语言模型以了解它们的优缺点。

我们初创公司技术旅程的下一步是 LLMs 的前景并了解哪些适合我们的案例

Expand Down Expand Up @@ -32,7 +32,7 @@ LLM 模型有许多不同类型,您选择的模型取决于您的用途、您

根据您是否打算使用模型进行文本、音频、视频、图像生成等,您可能会选择不同类型的模型。

- **音频和语音识别**。 为此,Whisper 模型是一个不错的选择,因为它们是通常用于语音识别。 它经过不同音频数据的训练,可以执行多语言语音识别。 例如,您可以使用所有的模型,从价格便宜但功能强大的模型(如 Curry到更昂贵拥有高性能的达芬奇(Davinci模型。 详细了解 [ Whisper 类型模型](https://platform.openai.com/docs/models/whisper?WT.mc_id=academic-105485-koreyst)
- **音频和语音识别**。 为此,Whisper 模型是一个不错的选择,因为它们是通常用于语音识别。 它经过不同音频数据的训练,可以执行多语言语音识别。 例如,您可以使用所有的模型,从价格便宜但功能强大的模型(如 Curry) 到更昂贵拥有高性能的达芬奇(Davinci) 模型。 详细了解 [ Whisper 类型模型](https://platform.openai.com/docs/models/whisper?WT.mc_id=academic-105485-koreyst)

- **图像生成**。 对于图像生成,DALL-E 和 Midjourney 是两个最佳的选择。 DALL-E 由 Azure OpenAI 提供。 [在此处阅读有关 DALL-E 的更多信息](https://platform.openai.com/docs/models/dall-e?WT.mc_id=academic-105485-koreyst) 以及本课程的第九章。

Expand All @@ -53,7 +53,7 @@ LLM 模型有许多不同类型,您选择的模型取决于您的用途、您
图片来源:【基础模型和大语言模型基本指南| 巴巴尔·M·巴蒂 (Babar M Bhatti) | Medium
](https://thebabar.medium.com/essential-guide-to-foundation-models-and-large-language-models-27dab58f7404)

为了进一步阐明这种区别,我们以 ChatGPT 为例。 为了构建 ChatGPT 的第一个版本,名为 GPT-3.5 的模型作为基础模型。 这意味着 OpenAI 使用一些特定于聊天的数据来创建 GPT-3.5 的调整版本,专门用于在对话场景(例如聊天机器人中让其有更好的表现。
为了进一步阐明这种区别,我们以 ChatGPT 为例。 为了构建 ChatGPT 的第一个版本,名为 GPT-3.5 的模型作为基础模型。 这意味着 OpenAI 使用一些特定于聊天的数据来创建 GPT-3.5 的调整版本,专门用于在对话场景(例如聊天机器人) 中让其有更好的表现。

![基础模型](../../images/Multimodal.png?WT.mc_id=academic-105485-koreyst)

Expand All @@ -71,15 +71,15 @@ LLM 模型有许多不同类型,您选择的模型取决于您的用途、您

LLMs 还可以根据其产生的输出进行分类。

嵌入是一组可以将文本转换为数字形式的模型,称为嵌入,它是输入文本的数字表示。 嵌入使机器更容易理解单词或句子之间的关系,并且可以用作其他模型的输入,例如分类模型或对数值数据具有更好性能的聚类模型。 嵌入模型通常用于迁移学习,其中为有大量数据的代理任务构建模型,然后将模型权重(嵌入重新用于其他下游任务。 此类别的一个示例是 [OpenAI 嵌入](https://platform.openai.com/docs/models/embeddings?WT.mc_id=academic-105485-koreyst)
嵌入是一组可以将文本转换为数字形式的模型,称为嵌入,它是输入文本的数字表示。 嵌入使机器更容易理解单词或句子之间的关系,并且可以用作其他模型的输入,例如分类模型或对数值数据具有更好性能的聚类模型。 嵌入模型通常用于迁移学习,其中为有大量数据的代理任务构建模型,然后将模型权重(嵌入) 重新用于其他下游任务。 此类别的一个示例是 [OpenAI 嵌入](https://platform.openai.com/docs/models/embeddings?WT.mc_id=academic-105485-koreyst)

![嵌入](../../images/Embedding.png?WT.mc_id=academic-105485-koreyst)

图像生成模型主要是用来生成图像。 这些模型通常用于图像编辑、图像合成和图像翻译。 图像生成模型通常在大型图像数据集上进行训练,例如 [LAION-5B](https://laion.ai/blog/laion-5b/?WT.mc_id=academic-105485-koreyst),并且可用于生成新图像或编辑现有图像 修复、超分辨率和着色技术。 如 [DALL-E-3](https://openai.com/dall-e-3)[StableDiffusion](https://github.com/Stability-AI/StableDiffusion?WT.mc_id=academic-105485-koreyst)

![Image generation](../../images/Image.png?WT.mc_id=academic-105485-koreyst)

文本或代码生成模型主要是生成文本或代码。 这些模型通常用于文本摘要、翻译和问答。 文本生成模型通常在大型文本数据集上进行训练,例如 [BookCorpus](https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Zhu_Aligning_Books_and_ICCV_2015_paper.html),并且可用于生成新文本或回答问题。 代码生成模型,例如 [CodeParrot](https://huggingface.co/codeparrot?WT.mc_id=academic-105485-koreyst),通常在大型代码数据集(如 GitHub上进行训练,可用于生成新代码或修复现有代码中的错误。
文本或代码生成模型主要是生成文本或代码。 这些模型通常用于文本摘要、翻译和问答。 文本生成模型通常在大型文本数据集上进行训练,例如 [BookCorpus](https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Zhu_Aligning_Books_and_ICCV_2015_paper.html),并且可用于生成新文本或回答问题。 代码生成模型,例如 [CodeParrot](https://huggingface.co/codeparrot?WT.mc_id=academic-105485-koreyst),通常在大型代码数据集(如 GitHub) 上进行训练,可用于生成新代码或修复现有代码中的错误。

![Text and code generation](../../images/Text.png?WT.mc_id=academic-105485-koreyst)

Expand All @@ -106,9 +106,9 @@ LLMs 还可以根据其产生的输出进行分类。
## 如何使用不同的模型进行测试和迭代从而了解 Azure 上的运行性能

一旦我们的团队探索了当前的 LLMs 前景并为他们的场景确定了一些好的候选模型后,下一步就是根据他们的数据和工作负载行测试。 这是一个迭代过程,通过实验和量化来完成。
我们在前面的段落中提到的大多数模型(OpenAI 模型、Llama2 等开源模型和 Hugging Face transformers都可以在 [Azure 机器学习工作室](https://ml.azure.com/?WT.mc_id=academic-105485-koreyst) 中的目录中找到 [基础模型](https://learn.microsoft.com/azure/machine-learning/concept-foundation-models?WT.mc_id=academic-105485-koreyst)
我们在前面的段落中提到的大多数模型(OpenAI 模型、Llama2 等开源模型和 Hugging Face transformers) 都可以在 [Azure 机器学习工作室](https://ml.azure.com/?WT.mc_id=academic-105485-koreyst) 中的目录中找到 [基础模型](https://learn.microsoft.com/azure/machine-learning/concept-foundation-models?WT.mc_id=academic-105485-koreyst)

[Azure 机器学习](https://azure.microsoft.com/products/machine-learning/?WT.mc_id=academic-105485-koreyst) 是一项云服务,专为数据科学家和机器学习工程师设计,用于管理整个机器学习生命周期(训练、测试、部署和 MLOps 相关的工作 在一个平台上。 机器学习工作室为此服务提供图形用户界面,使用户能够:
[Azure 机器学习](https://azure.microsoft.com/products/machine-learning/?WT.mc_id=academic-105485-koreyst) 是一项云服务,专为数据科学家和机器学习工程师设计,用于管理整个机器学习生命周期(训练、测试、部署和 MLOps 相关的工作) 在一个平台上。 机器学习工作室为此服务提供图形用户界面,使用户能够:

- 在目录中查找感兴趣的基础模型,按任务、许可证或名称进行过滤。 还可以导入尚未包含在目录中的新模型。
- 查看模型名片(包括详细描述和代码示例,并通过提供示例提示来测试结果),使用示例推理小部件对其进行测试。
Expand All @@ -129,7 +129,7 @@ LLMs 还可以根据其产生的输出进行分类。

## 提升 LLM 的输出结果准确度

我们与 “Our startup” 团队一起探索了不同类型的 LLMs 和云平台(Azure 机器学习,使我们能够比较不同的模型,根据测试数据对其进行评估,提高性能并将其部署在推理端点上。
我们与 “Our startup” 团队一起探索了不同类型的 LLMs 和云平台(Azure 机器学习) ,使我们能够比较不同的模型,根据测试数据对其进行评估,提高性能并将其部署在推理端点上。

但是他们什么时候应该考虑微调模型而不是使用预先训练的模型呢? 是否有其他方法可以提高模型在特定工作负载上的性能?

Expand All @@ -151,24 +151,24 @@ LLMs 还可以根据其产生的输出进行分类。

预先训练的 LLMs 在广义自然语言任务上表现得非常好,甚至可以用简短的提示来调用它们,比如要完成的句子或问题——即所谓的“零样本”学习。

然而,用户越能通过详细的请求和示例(上下文来构建他们的查询,就会得到最准确、最接近用户期望的答案。 在这种情况下,如果提示仅包含一个示例,我们讨论“单样本”学习;如果提示包含多个示例,我们讨论“少样本学习”。
然而,用户越能通过详细的请求和示例(上下文) 来构建他们的查询,就会得到最准确、最接近用户期望的答案。 在这种情况下,如果提示仅包含一个示例,我们讨论“单样本”学习;如果提示包含多个示例,我们讨论“少样本学习”。

根据上下文进行快速工程设计是最具成本效益的启动方法。

### 检索增强生成 (RAG)

LLMs 有一个限制,即他们只能使用训练期间使用过的数据来生成答案。 这意味着他们对训练过程后发生的事情一无所知,并且无法访问非公开信息(例如公司数据
这可以通过 RAG 来克服,RAG 是一种考虑提示长度限制的技术,以文档块的形式使用外部数据来增强提示。 矢量数据库工具(例如 [Azure 向量搜索](https://learn.microsoft.com/azure/search/vector-search-overview?WT.mc_id=academic-105485-koreyst)支持此功能,可检索有用的信息来自各种预定义数据源的块并将它们添加到提示上下文中。
LLMs 有一个限制,即他们只能使用训练期间使用过的数据来生成答案。 这意味着他们对训练过程后发生的事情一无所知,并且无法访问非公开信息(例如公司数据)
这可以通过 RAG 来克服,RAG 是一种考虑提示长度限制的技术,以文档块的形式使用外部数据来增强提示。 矢量数据库工具(例如 [Azure 向量搜索](https://learn.microsoft.com/azure/search/vector-search-overview?WT.mc_id=academic-105485-koreyst)) 支持此功能,可检索有用的信息来自各种预定义数据源的块并将它们添加到提示上下文中。

当企业没有足够的数据、足够的时间或资源来微调 LLMs,但仍希望提高特定工作负载的性能并减少幻觉的风险(即对现实的神秘化或有害的风险时,此技术非常有用
当企业没有足够的数据、足够的时间或资源来微调 LLMs,但仍希望提高特定工作负载的性能并减少幻觉的风险(即对现实的神秘化或有害的风险) 时,此技术非常有用

### 微调模型

微调是一个利用迁移学习使模型“适应”下游任务或解决特定问题的过程。 与少样本学习和 RAG 不同,它会生成一个新模型,并更新权重和偏差。 它需要一组训练示例,其中包含单个输入(提示及其关联的输出(完成
微调是一个利用迁移学习使模型“适应”下游任务或解决特定问题的过程。 与少样本学习和 RAG 不同,它会生成一个新模型,并更新权重和偏差。 它需要一组训练示例,其中包含单个输入(提示) 及其关联的输出(完成)

如果出现以下情况,这将是首选方法:

- **使用微调模型**。 企业希望使用经过微调能力较差的模型(例如嵌入模型而不是高性能模型,从而获得更具成本效益和快速的解决方案。
- **使用微调模型**。 企业希望使用经过微调能力较差的模型(例如嵌入模型) 而不是高性能模型,从而获得更具成本效益和快速的解决方案。

- **考虑延迟**。 延迟对于特定用例很重要,因此不可能使用很长的提示,或者应该从模型中学习的示例数量不符合提示长度限制。

Expand Down
Loading

0 comments on commit fc40758

Please sign in to comment.