MEDUSA 推理加速机制详解

MEDUSA 是一个针对大语言模型推理过程的加速框架,核心创新在于引入多个解码头(Multiple Decoding Heads),在一次解码步骤中同时生成多个候选输出,大幅降低推理时间。 Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads ...

Posted on 2025-01-03 ·  In NLP ·  3 min read

大模型创业前必须想清楚的问题

在开始大模型创业之前,首先应该想清楚下面五个问题,否则人无远虑,必有近忧。 自ChatGPT面世以来,有两种趋势主导着初创公司和初创投资的世界,可惜这两种趋势都是错误的。首先,有一大批初创公司计划使用大模型(ChatGPT或GPT4)为已知问题提供更好的解决方案。这就像说他们正在拿一些预先烘焙的蛋糕之一,再在上面加点糖,就能使其更美味。其次,这些初创公司正在烘烤大量这些蛋糕,投资者已经开始关注糖本身的差异化——他们现在强调位于大模型之上的技术层的深度。最近一些成功融资的案例大多在宣扬糖本身拥有不同颜色、口味或质地。 ...

Posted on 2023-12-21 ·  In NLP ·  5 min read

Phi-2: 小型语言模型的惊人威力

微软发布了Phi-2,这是一个拥有27亿参数的语言模型,展示了出色的推理和语言理解能力,在小于130亿参数的基础语言模型中表现出最先进的性能。在复杂的基准测试中,由于模型扩展和训练数据精选方面的创新,Phi-2能够匹敌或超越大约25倍更大的模型。 ...

Posted on 2023-12-14 ·  In NLP ·  4 min read

Textbooks Are All You Need 精要

微软最近提出了一个有趣的方法,即使用合成教科书来教授模型,而不是通常使用的大规模数据集。 论文原文:https://arxiv.org/abs/2306.11644 这篇论文介绍了一个名为Phi-1的模型,它完全是在一本定制的教科书上进行训练的。研究人员发现,对于某些任务,这种方法和使用大量数据进行训练的规模更大的模型一样有效。 ...

Posted on 2023-12-13 ·  In NLP ·  2 min read

检索增强生成(RAG)简介

检索增强生成(Retrieval-Augmented Generation,简称RAG)是一种新的自然语言处理(NLP)方法,它将预训练的参数化和非参数化记忆相结合,旨在提高知识密集型NLP任务的性能。本文将探讨RAG框架及其在NLP领域的潜在应用。 ...

Posted on 2023-12-06 ·  In NLP ·  3 min read