1、Chains的基本使用

1.1 Chain的基本概念

  • Chain:链,用于将多个组件(提示模板、LLM模型、记忆、工具等)连接起来,形成可复用的工作流,完成复杂的任务。
  • Chain的核心思想是通过组合不同的模块化单元,实现比单一组件更强大的功能。比如:
    • LLMPrompt Template(提示模板)结合
    • 将LLM输出解析器结合
    • 将LLM外部数据结合,例如用于问答
    • 将LLM长期记忆结合,例如用于聊天历史记录
    • 通过将第一个LLM的输出作为第二个LLM的输入,…将多个LLM按顺序结合在一起
Read more »

1、Model I/O介绍

  • Model I/O 模块是与语言模型(LLMs)进行交互的 核心组件 ,在整个框架中有着很重要的地位。 所谓的Model I/O,包括输入提示(Format)、调用模型(Predict)、输出解析(Parse)。分别对应着Prompt TemplateModelOutput Parser

  • 简单来说,就是输入、处理、输出这三个步骤。

  • 针对每个环节,LangChain都提供了模板和工具,可以快捷的调用各种语言模型的接口。

Read more »

1、介绍LangChain

1.1 什么是LangChain

  • LangChain是2022年10月,由哈佛大学的Harrison Chase(哈里森·蔡斯)发起研发的一个开源框架,用于开发由大语言模型(LLMs)驱动的应用程序。

    • 比如,搭建“智能体”(Agent)、问答系统(QA)、对话机器人、文档搜索系统等。
    • LangChain的发布比ChatGPT问世还要早一个月,他那时候是怎么发现大模型要火的?
    • 从这个启动日期也可以看出创始人的眼光,这比ChatGPT问世还要早一个月呢,他那时候是怎么发现大模型要火的?占了先机的它迅速获得广泛关注和支持!
Read more »

1、机器学习概述

  • 机器学习(Machine Learning, ML)主要研究计算机系统对于特定任务的性能,逐步进行改善的算法和统计模型。通过输入海量训练数据对模型进行训练,使模型掌握数据所蕴含的潜在规律,进而对新输入的数据进行准确的分类或预测。
  • 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸优化、算法复杂度理论等多门学科。
Read more »

1、Numpy

1.1 什么是numpy

  • numpy是Python中科学计算的基础包。它是一个Python库,提供多维数组对象、各种派生对象(例如掩码数组和矩阵)以及用于对数组进行快速操作的各种方法,包括数学、逻辑、形状操作、排序、选择、I/O 、离散傅里叶变换、基本线性代数、基本统计运算、随机模拟等等。
  • numpy的部分功能如下:
    • ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。
    • 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。
    • 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。
    • 线性代数、随机数生成以及傅里叶变换功能。
    • 用于集成由C、C++、Fortran等语言编写的代码的API。
Read more »

1、基础知识

1.1 注释

1.1.1 什么是注释

  • 注释是对代码的解释说明。
  • 注释是给程序员看的,在代码执行的时候不起任何作用,不影响程序的结构。

1.1.2 注释的作用

  • 提高代码的可读性。
  • 屏蔽掉暂时不需要的代码。
  • 可以定位程序中出错的位置。
Read more »

1、Explain查看执行计划

  • Spark3.0大版本发布,Spark SQL的优化占比将近50%。SparkSQL取代SparkCore,成为新一代的引擎内核,所有其他子框架如Mllib、Streaming和Graph,都可以共享Spark SQL的性能优化,都能从Spark社区对于SparkSQL的投入中受益。
  • 要优化Spark SQL应用时,一定是要了解SparkSQL执行计划的。发现SQL执行慢的根本原因,才能知道应该在哪儿进行优化,是调整SQL的编写方式、还是用Hint、还是调参,而不是把优化方案拿来试一遍。
Read more »

1、Spark SQL概述

1.1 什么是Spark SQL

  • Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用这些额外的信息来执行额外的优化。与Spark SQL交互的方式有多种,包括SQL和Dataset API。计算结果时,使用相同的执行引擎,与您用于表达计算的API/语言无关。
Read more »

1、RDD概述

1.1 什么是RDD

  • RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。

  • 代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。

  • RDD类比工厂生产。

Read more »

1、Spark概述

1.1 什么是Spark

  • 回顾:Hadoop主要解决,海量数据的存储和海量数据的分析计算
  • Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎
Read more »