姚班斯隆奖马腾宇创业：大模型+顾问李飞飞

他们用了5年时间，收集了海量训练数据和预/后处理方法，最终打造出了这款SOTA的嵌入模型。

量子位

2023-11-01 14:04 微信公众号：量子位克雷西

+ 关注

清华姚班校友、斯坦福助理教授马腾宇，正式宣布大模型创业！

马腾宇透露，他带领团队打造了目前*的嵌入模型，比OpenAI的还要好。

此外，还会提供专注于某个领域或企业的定制化模型。

马腾宇将这个项目命名为Voyage，是针对RAG（检索增强生成）专门优化的嵌入模型。

根据Voyage官网显示，斯坦福人工智能实验室主任Christopher Manning、AI领域著名华人学者李飞飞等三名教授都担任了Voyage的学术顾问。

Voyage最重要的特点就是高检索精度，在HuggingFace提出的MTEB数据集上的评分超过了OpenAI，成为SOTA。

Voyage还与知名开源框架LangChain合作，同事提高了其聊天机器人的检索和回复质量。

对于嵌入模型，有人评价到与大语言模型相比“需要的算力、数据和行业经验都少的多”，似乎是个创业的好方向。

Voyage具体是什么样的产品，下面就来了解一下。

嵌入模型SOTA

在ChatPDF等RAG应用中，嵌入模型（Embedding Model）负责将文本向量化的环节。

嵌入模型与生成式模型有一定相似之处，但更加侧重于语义理解，通过神经网络（通常是Transformer）架构来对语义上下文进行捕获和压缩。

难度上，训练嵌入模型和生成式模型一样困难——训练高质量的嵌入模型需要在架构、数据、损失函数等许多方面进行反复实验。

Voyage团队介绍，他们选择创业的一个重要原因是认为业界对嵌入模型的重视程度远远不够。

他们用了5年时间，收集了海量训练数据和预/后处理方法，最终打造出了这款SOTA的嵌入模型。

测试成绩方面，Voyage在常用于测试嵌入模型的MTEB数据集中取得了SOTA的成绩，比OpenAI高了0.5个百分点。

在工业领域数据集上，Voyage相对OpenAI的优势就更加明显了。

不过Voyage的通告中也说，MTEB这个数据集因为应用过于广泛，有时会被拿来专门训练。

在承诺没有在MTEB上“作弊”的同时，Voyage还提出了9个“真实世界”数据集，内容涵盖了技术文档、新闻，甚至是餐馆评价等多个方面。

结果在这9个数据集上，Voyage全部取得了*成绩，其中还有几项取得了碾压式的结果。

技术上，Voyage使用了全新的自监督损失函数，以及涉及多个领域、针对RAG和搜索量身定做的训练数据。

同时，Voyage还采用了新的微调技术，无需人类标注就能完成。

使用方式上，可以通过API或者安装Python库来调用，窗口长度为4096token。

目前，Voyage推出了标准版和轻量版两个版本，未来还将推出XL规模以及代码和金融领域版本。

价格方面，标准版和轻量版都是每100万token0.4美元，新用户可以免费体验5000次输入（查询或文档）。

那么，Voyage的创始人兼CEO马腾宇是谁呢？

保送清华姚班，和陈丹琦同学

马腾宇现任斯坦福大学助理教授，研究方向包括机器学习、算法等多项内容。

2008年，马腾宇被保送进入清华姚班，和陈丹琦是同班同学。

马腾宇博士就读于普林斯顿大学，导师是理论计算机科学家、两届哥德尔奖得主Sanjeev Arora教授。

读博期间，马腾宇获得了理论计算机方向的西蒙斯奖等诸多奖项，被导师夸赞“比自己还聪明”。

博士毕业后，MIT、哈佛、斯坦福等*高校都给了他助理教授的Offer，马腾宇最终选择了斯坦福。

2021年，马腾宇获得了具有“诺奖风向标”之称的斯隆奖，成为继鬲融之后清华姚班又一名获此奖项的校友。

参考链接：https://blog.voyageai.com/2023/10/29/voyage-embeddings/

打开投资界APP 阅读全文

【本文由投资界合作伙伴微信公众号：量子位授权发布，本平台仅提供信息存储服务。】如有任何疑问题，请联系（editor@zero2ipo.com.cn）投资界处理。

Voyage 嵌入模型马腾宇 AI行业

AI数据总览

5776起
融资事件
1040.20亿元
融资总金额
2866家
企业
2062家
涉及机构
128起
上市事件
1.06万亿元
A股总市值

智美星辰智美星辰（海宁）科技有限公司
天使轮数千万人民币
2024-04-29
投资方： 紫金港资本

沐言智语北京沐言智语科技有限公司
Pre-A+轮 1.2亿人民币
2024-04-28
投资方： 高瓴资本

火眼消防火眼消防技术有限公司
A轮千万级人民币
2024-04-28
投资方： 相城金控 苏州高铁新城

爱诗科技北京爱诗科技有限公司
A+轮超亿人民币
2024-04-24
投资方： 蚂蚁集团

Perplexity AI Perplexity AI lnc.
B+轮 6300万美元
2024-04-24
投资方： 英伟达 贝索斯 Dylan Field 丹尼尔·格罗斯 Garry Tan

姚班斯隆奖马腾宇创业：大模型+顾问李飞飞

量子位

相关资讯

菲律宾数字支付巨头「Voyager」完成一轮估值超10亿美元融资

相关企业

AI数据总览

最新资讯

2023，一级市场最火是AI

线下母婴店，入局「大逃杀」

新世界地产前海再添新地标

热门TOP5热门机构|VC情报局