旗下微信矩阵:
首页 产业 ai 正文

让马斯克嫉妒的男人

1. 语音主导界面,软件将学习人类。延迟不低的Rabbit何以得到Khosla青睐,AI Agent会是下一个iPhone吗?
2024-03-12 14:22 · 微信公众号:适道 适道AI组

引言

最近,马斯克怒写46页诉状,将OpenAI及 Sam Altman 告上法庭,并要求OpenAI恢复开源状态。对此,OpenAI“*投资人”,被称为全球科技“投资*”的Vinod Khosla表示,马斯克是典型吃不到葡萄就说葡萄酸。

from clipboard

虽然Vinod Khosla有句名言:“一个方案有90%的机率失败不是问题,只要还有10%的机会获得100倍的收益”。

然而,他本人的投资眼光却可谓毒辣。1990年代,Khosla投资了瞻博网络,并建议其开发一种“互联网路由器,而不是当时更常见的普通路由器”。据《华尔街日报》报道,Kleiner Perkins对瞻博网络的300万美元投资为他带来了70亿美元的收益。

2019年,当OpenAI从一家非营利研究组织转变为“有盈利上限”公司,Khosla大胆地迈出了*步,其创立的投资机构Khosla Ventures在种子轮向OpenAI投出高达5000万美元。该金额是Khosla Ventures成立十五年来任何一笔投资规模的两倍。

至少从10年前开始,Khosla就坚信,AI将彻底改变世界。他认为:未来20年,AI有可能在80%的人类角色中承担80%的工作量,并创造巨大的经济价值。

上周,Khosla分享了自己对AI 交互与革命的最新洞察《How AI Will Change Our Relationship With Computers》(The Information)。这位科技“投资*”表示:“AI硬件” (AI hardware) 和“小工具”(gadgets)等术语更像是一种“误用”。不妨抛开“设备”的局限,讨论在人机交互变革的大背景下,将会发生哪些根本性变化?适道在不影响原意的情况下,对文章进行了简译和补充改写。

01、语音主导界面,软件将学习人类

*个根本性变化——低延迟语音将成为人机交互的主导界面。

想象一下,比起用手指戳半天屏幕,延迟在半秒内的语音显然更加便利。与此同时,“无声语音”技术也在迎面走来。当你在公共场合中,无需发出声音就能和设备进行互动,不干扰他人,也能保护隐私。

第二个根本性变化——软件将适应人类,而不是人类学习软件。

到目前为止,我们总是在自适应软件——学习APP的复杂设计,记住层次化的菜单,并以此与机器交互。未来,我们不再需要像学习使用 Uber 或SAP、Oracle 这样的复杂系统一样,去学习如何使用这些APP。

综上,新一代硬件将结合二者特征——实现语音互动、能够学习人类语言和人类本身。虽然处理某些视觉任务可能仍然需要屏幕,但核心交互将转向语音——无论是无声的还是有声的。

Khosla指出:前苹果首席设计官Jony Ive和Sam Altman讨论过一个AI硬件项目,甚至在ChatGPT出现之前,大家就预言会出现这种界面。虽然早期热度很快消退了,但他们的方向是正确的。问题出在,他们没有充分关注AI所带来的全新用户体验。

02、延迟不低的Rabbit何以得到Khosla青睐?

前段时间,初创公司Rabbit在CES 2024上发布了其手持式AI硬件产品——R1,售价199美元,上线5日就卖了5万台,近1000万美元。

和此前出圈的Ai Pin类似,Rabbit R1也采用紧凑小巧的设计,并标配了麦克风、摄像头,不需要连接手机,没有内置 App。不同的是,Ai Pin没有屏幕,选择“投影”显示,看起来更酷炫;Rabbit R1则是搭载了一块 2.88 英寸的触摸屏,更为稳妥。

Rabbit R1的定位为AI Agent,用户在不需要手机的情况下能够完成很多任务:叫车、放歌、订餐、订酒店,甚至在Midjourney 上生成图片。CEO吕骋(Jesse Lyu)在实测操作中,只需说一句“Play Feel Good Inc”,这首歌就能直接播放;对着屏幕中Discord论坛,问一句“大家都讨论什么”,Rabbit R1就可以对“看”到的内容进行总结。

Khosla本人正是Rabbit的早期投资人,投资金额高达千万美元。在文章中,Khosla给出了投资Rabbit的理由:“Rabbit是人机交互在强大AI世界中的早期尝试——设备通过自然语言,用语音与计算机(或称为“代理”)进行交流。”

Khosla举了个自己的例子,当他徒步时,会使用“Picture This”APP识别自己遇到的植物,但这个过程很麻烦:停下来,暂停有声读物,打开应用,拍照,等待答案加载,关闭应用,将手机放回口袋。有了新设备,Khosla只需将设备指向植物并问:“这是什么植物?”就会得到答案,然后继续听正在播放的有声读物。

不过,Khosla可能要“等上一阵”。外媒爆料,有拿到真机的网友发现,Rabbit R1会在收到问题后说一句“让我看看”,接着就是20秒的无事发生,这延迟显然不符合Khosla定义的“半秒内”。

但根据CEO吕骋在访谈中的回应:Rabbit OS并非像ChatGPT一样的大语言模型LLM,而是基于大动作模型(Large Action Model)开发。LAM能够使AI学会人类操作各种APP的方式,并通过与LLM结合,从而实现“用户发指令——AI执行”的效果。因此,Rabbit OS更像一个通用的APP控制器。

如果用户仅使用LAM涉及的功能。例如,播放一首歌;询问“橙子和橘子的区别”等任何不需要搜索最新信息的任务,Rabbit响应速度会非常快,几乎在0.5秒以内。但如果涉及使用OpenAI,例如搜索最新信息,速度就会变慢,一般在7——8秒,涉及视觉则会更慢。不过,吕骋表示,这已经是目前行业内最快的速度。

Khosla本人似乎对Rabbit的目前的“延迟”不太在意,他更在意的是“让AI代替人与APP交互”,并对Rabbit OS 基于LAM“跨APP工作”能力大为赞赏:这代表传统范式将完全颠覆,意味着最终我们不必与软件交互,因为AI 将替我们这样做。

但新的问题来了,Rabbit为何不以一种“APP”的形式出现在手机中?就像智商更高的Siri?

吕骋从创业者的角度给出了答案:首先,虽然Rabbit可以成为一款APP,但如果Rabbit只是个APP,就意味着苹果公司能接触到代码,无异于分享了公司的知识产权。其次,团队不得不同时为iOS和Android开发维护这款APP,这还需要大量的持续资金投入。最重要的是,当Rabbit会被放在和其他APP一样的平台上,会给自己带来了不安:如果明天出现了一个更好的应用怎么办?用户忠诚度几乎为零。

那么,如果Siri自己变成高智商呢,还需要Rabbit R1吗?吕骋表示:问题不在于技术,而在于商业模式,因为iPhone不可能一夜之间没有AppStore。而Rabbit R1可没有内置 App。

对于Rabbit R1的定位,吕骋给出了一个靠谱的描述:AI时代的iPod。

试想,在非智能手机时代,你会一个裤兜装手机,另一个裤兜装iPod。未来,或许会一个裤兜装iPhone,另一个裤兜装AI Agent。

但正如吕骋恐惧“下一个更好的应用”,如果下一款更快的AI Agent出现呢?毕竟,199美元的售价像是买了个付费的“AI app”。用户或许也可以花不高的价格买到下一款更好用的“AI app”,如此一来,建立在Rabbit R1上的拓展业务也将不再存在——“人们教Rabbit来做他们自己的事情,本质上是在创造Rabbit,而不是使用APP,当用户销售他们自己的Rabbit时,Rabbit OS将会从中抽成。”

03、AI Agent会是下一个iPhone吗?

结合文章,适道发现一个新角度——AI时代的社交媒体将走向何方。

吕骋表示:还有很多事情我宁愿去手机上查看,至少目前是这样。首先是重要的社交功能;另一部分是专业的群聊。

Khosla则指出:手机现在的设计是为了分散我们的注意力。如果我在徒步旅行时拿出手机,我会看到我的电子邮件、短信和其他通知;我会被拉到某个社交平台上,看到广告,甚至可能陷入一个兔子洞,无意冒犯。

而这些新设计,比如Rabbit旨在节省时间和减少干扰。你告诉它要做什么,它就只做那些,没有多余的。

Gartner最新预测,到2025年,50%消费者将“放弃或大幅限制与社交媒体的互动”。在 Gartner去年夏天的一项调查中,53%的消费者表示,社交媒体在前一年或过去五年中变得更糟。

有趣的是,根据传播学中的“媒介即讯息”,随着AI时代的到来,新一代AI Agent是否会摧毁iPhone所创造的社交媒体时代?“一个与真人分享的社交空间”是否将会终结?如果能,那么,人类当前由“社交媒体”承载的“娱乐时间”又将投向何方?这其中又将蕴含哪些新“钱景”?

【本文由投资界合作伙伴微信公众号:适道授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。

本文涉及