
0:000:00
「从模型驱动到垂直整合:Gaga-1 是第一个产物。」
https://pic4.fukit.cn/autoupload/n-L6s5C_cu5ZZHPwIYlQzY12_FRYNb81z6UPhMWD8iI/20251029/x7Fp/1280X910/1280X1280.PNG/webp
图注:飞书“智能会议纪要”功能为本次播客生成的概要图。
本期节目由飞书特别支持播出!欢迎大家尝试“智能会议纪要”(https://www.feishu.cn/product/ai-meeting-summary?hideHeader=1&utm_from=latetalk),功能,点击前文晚点转述链接,可申请 1 个月免费使用。
2024 年初,刚听说曹越开始新一次创业时,我就找他聊过一次。那时他有一个吸引科技报道者的标签:光年之外联创。
今年 10 月的这次正式访谈中,我有点儿理解了为什么王慧文在 2023 年初见了那么多研究者后,会选择曹越来做技术合伙人——曹越是少数在 ChatGPT 之前,预判到大模型热潮的中国研究者。2021 年,他拿下 ICCV 最佳论文后,离开了微软亚研院,加入了国内最早做大模型的机构,智源研究院。
让我稍感意外的是,曹越做研究员时,就格外关注组织与机制;2021 年,在看到 DALL-E 和 CLIP 后,他开始研究 OpenAI 是怎么协作的,这也是他加入智源的原因之一。
这期节目,曹越回顾了他在清华读本科时,如何看到深度学习,那篇 ICCV 最佳论文的诞生;他从研究员到创业者的转变;对 Sora 的观察,以及 Sand.ai 打造新一代模型 Gaga-1 的思考与实践。
通过学习 OpenAI 等全球顶尖公司,更重要的是通过自己的实践和反馈,曹越现在的认知是,要做一个垂直整合的“端到端”的组织,更好平衡模型进展与从需求出发,10 月中旬 Sand.ai 新发布的模型 Gaga-1 (https://gaga.art/zh/app) 就是垂直整合的产物。它聚焦解决人物表演问题,“人物不一致、表演假”,是许多试图使用 AI 的内容制作者之前最大的痛点。
https://pic4.fukit.cn/autoupload/n-L6s5C_cu5ZZHPwIYlQzY12_FRYNb81z6UPhMWD8iI/20251030/SWoh/2900X15...