猿来如此
Technology

猿来如此

作者: 张赫
最近更新: 3天前
这里没有高深的理论,只有和你一样关心科技和生活的普通人。每一期,我用最简单的语言聊聊新技术、行业故事,还有那些让人会心一笑的小发现。关注《猿来如此》,和我一起,慢慢变好。

Recent Episodes

万亿 Token 揭秘:除了写代码,原来大家都在用 AI 搞“角色扮演”?

万亿 Token 揭秘:除了写代码,原来大家都在用 AI 搞“角色扮演”?

本期播客来自 OpenRouter 和 a16z 的实证研究,基于对该平台超过 100 万亿个代币的大型语言模型(LLM)交互数据进行分析。研究指出,自从 o1 等推理模型发布以来,LLM 的使用范式已发生重大转变,向着多步骤、复杂化的代理式推理工作流程演进,体现在工具调用和更长的序列长度上。在应用类别方面,编程已成为最主要的专业工作负载,而创意角色扮演则在开源模型的使用量中占据了最大份额。报告观察到一个结构性的多模型生态系统,开源模型生态正在迅速扩张并变得多元化,尤其在亚洲地区和中国开发者的推动下。此外,对用户留存的分析揭示了“灰姑娘水晶鞋效应”,表明模型如果在发布之初完美契合高价值工作负载,就能获得持久稳定的用户群。这些发现共同突显出,模型能力、使用场景和成本与用量的复杂平衡关系决定了 LLM 在现实世界中的采纳路径。

3天前
17分钟
Ilya Sutskever 谈 AI 为何高分低能与终极智能形态

Ilya Sutskever 谈 AI 为何高分低能与终极智能形态

本期播客概述了关于人工智能现状与未来发展方向的深刻对话。讨论的核心在于当前 大型语言模型 (LLM) 在评估中的优异表现与其对经济影响的滞后之间存在的费解脱节,并认为随着数据的限制,单纯依靠 规模化 (scaling) 的时代正走向终结。对话重点强调需要重新回归 研究时代 (age of research),以解决模型在 泛化能力 (generalization) 和 样本效率 (sample efficiency) 方面的根本缺陷,这是目前 AI 与人类学习能力相比的不足之处。通过借鉴人类 情感 (emotions) 在进化中作为指导价值函数的作用,他们探讨了诸如 价值函数 (value functions) 和 强化学习 (RL) 等技术可能提高模型学习效率。最终,两位人士讨论了 超级智能 (superintelligence) 必然到来以及如何确保其 安全部署 (safe deployment) 的问题,呼吁所有领先公司应收敛于共同的 对齐策略 (alignment strategies),使 AI 关心所有有情生命。

3周前
16分钟
三百万美元的教训:Cortex 如何走向失败和重生

三百万美元的教训:Cortex 如何走向失败和重生

本期播客摘录自 YouTube 频道“Dan Koe”的视频“Kortex:300 万美元的错误”的文字记录,主要讨论了其初创公司在开发名为 Cortex 的“第二大脑”应用程序时所犯的错误。创作者和联合创始人解释了 Cortex 如何因 不适当的团队结构 和 构建自己的技术而非使用第三方解决方案 等原因导致开发速度放缓,最终使其无法跟上市场步伐。因此,他们秘密地 从零开始重建了应用程序并将其更名为 Eden,这个新产品专注于 为创作者提供强大的搜索和媒体处理能力,旨在通过学习过去的失误来加速迭代。该团队强调了 承担大风险的必要性,以及在创业过程中 承认和改正错误 是成功的关键。

3周前
20分钟
Yann LeCun 要干的 Advanced Machine Intelligence (AMI) 到底是个啥?

Yann LeCun 要干的 Advanced Machine Intelligence (AMI) 到底是个啥?

本期播客主要关注两个截然不同的领域:人工智能(AI)的发展及其伦理考量,以及公用事业中智能电网技术,特别是高级计量基础设施(AMI)的部署和益处。关于 AI,文本讨论了自主机器智能的架构,例如 Yann LeCun 提出的微分模块和分层联合嵌入预测架构(JEPA)模型,并探讨了通用人工智能(AGI)的定义和时间表,这在 AI 专家中存在争议。AI 伦理是一个重要主题,重点是 AI 偏见(如性别和政治偏见)、责任归属问题,以及监管工作的必要性(例如欧盟的《AI 法案》和美国的倡议),此外还讨论了赋予机器人**“电子人格”的伦理问题。在公用事业方面,美国能源部的报告详细介绍了 AMI 和客户系统从“智能电网投资赠款”(SGIG)计划中获得的成果,展示了该技术带来的运营效率、成本节约**(例如减少“上门服务”)和改进的客户服务,并强调了系统集成(如与计费和停电管理系统)的关键性。同时,另一些文件也提到 AMI 与高级配电管理系统(ADMS)结合的重要性,以应对日益复杂的电网挑战。

3周前
17分钟
谷歌 Gemini 3 Pro 技术革命三支柱解析

谷歌 Gemini 3 Pro 技术革命三支柱解析

本期播客概述了 Google Gemini 3 Pro 模型的发布及其技术能力,将其定位为公司迄今为止最智能的模型。资料重点介绍了该模型的 Sparse Mixture of Experts (MoE) 架构和高达 100 万令牌(Token)的巨大上下文窗口,这使其能够处理大规模、多模态的输入,包括文本、代码、图像、音频和视频。此外,文档详细介绍了 Gemini 3 Pro 卓越的 Agentic 工作流程 和 编码能力,例如通过命令行界面(CLI)进行复杂的跨工具调试,以及将手绘草图转换为功能代码。最后,资料还讨论了使用该模型时的 成本优化 策略(如上下文缓存和 thinking_level 参数)以及 严格的安全指南,以确保负责任的部署。

4周前
16分钟
告别四十小时工作制,像达尔文一样高效

告别四十小时工作制,像达尔文一样高效

本期播客是一段 YouTube 视频的摘录,视频作者 Dan Koe 讨论了 40 小时工作制的消亡,并认为其是一个“数学骗局”。作者主张短工作日,认为效率和产出质量比工作时长更为重要,并以查尔斯·达尔文为例,说明成功人士通过更少的身体劳动和更多的精神工作(思考、策划)来实现成就。视频旨在指导观众摆脱 9-5 工作的束缚,回归到自我导向的、充满活力和意义的“工匠式”工作中,这在技术进步的现代比以往任何时候都更容易实现。作者提供了实现这一目标的三个核心建议:认识到伟大工作不受时间限制、专注建立受众和产品,以及创造自己想看到的产品来解决问题。

4周前
16分钟
扎克伯格基金为何要卖铲子治愈所有疾病

扎克伯格基金为何要卖铲子治愈所有疾病

本期播客摘自 YouTube 频道 a16z 上关于“马克·扎克伯格与普莉希拉·陈:AI 将如何治愈所有疾病”视频的采访记录,其中马克·扎克伯格和普莉希拉·陈讨论了陈 - 扎克伯格倡议(CZI)的工作。他们的核心目标是加速基础科学研究的步伐,以在本世纪末治愈和预防所有疾病。实现这一雄心壮志的关键策略在于开发新型科学工具,尤其是利用人工智能(AI)构建虚拟细胞模型和标准化数据,来帮助科学家们进行更高效、高风险的实验。他们强调了跨学科合作以及建立开放资源(如 Cell by Gene)对于整个科学界的价值,并认为 AI 的进步将使得实现这一目标的时间表大大提前。

4周前
13分钟
Claude Skills 如何打破 AI 设计的平庸魔咒

Claude Skills 如何打破 AI 设计的平庸魔咒

本期播客摘自一篇来自 Claude 博客的文章,重点讨论了如何通过名为 Skills 的功能来显著提升大型语言模型(LLM)生成的网页前端设计的质量。文章指出,LLM 在默认情况下倾向于产生通用且“同质化”的设计(例如使用 Inter 字体和紫色渐变),这种现象被称为分布收敛。Skills 旨在通过允许开发者动态加载包含特定领域指导(如排版、动画和主题)的上下文文档,解决这一问题,从而在需要时提供详细的设计约束,同时又避免了在所有任务中都增加 永久性的上下文开销。此外,文章还展示了 Skills 如何帮助 Claude 利用现代工具(如 React 和 Tailwind CSS)构建更复杂、更具功能的 交互式代码成品,最终使 Claude 能够生成更具创意和品牌特色的用户界面。

4周前
27分钟
技术创作者的内容永动机:从“艺术灵感”到“工程系统”的进阶指南

技术创作者的内容永动机:从“艺术灵感”到“工程系统”的进阶指南

本期播客提供了一份面向 AI 与科技领域开发者的系统化“内容永动机”工程指南。这份框架将内容创作视为一个可优化的工程系统,旨在帮助创作者摆脱对“灵感”的依赖,实现高效、可持续的内容产出。系统核心包含五个模块:内容引擎(知识管理),建议开发者采用 Obsidian 和 Notion 混合系统搭建“第二大脑”;系统燃料(创意飞轮),通过主动监控行业趋势和被动收集观众反馈来确保创意源源不断;内容蓝图(策略),建议实施“混合常青”模型,将内容分为概念支柱、终极指南和趋势观点三个层级;AI 生产线(工作流),详述如何利用 Copilot、Descript 等工具将写作和视频制作效率提升十倍;最后是内容放大器,指导创作者将核心“中心内容”高效地复用到多个“辐射内容”中,实现影响力的最大化。

4周前
37分钟
逃离“开发者服务开发者”泡沫:8 次失败血泪史揭示独立开发者赚钱盲区

逃离“开发者服务开发者”泡沫:8 次失败血泪史揭示独立开发者赚钱盲区

本期播客摘录自 Reddit 上的 r/indiehackers 子版块,其中一个帖子和大量的评论讨论了 独立开发者 普遍面临的财务困境。核心观点是许多独立开发者(即独立创业者)陷入了一个“为彼此构建工具”的循环,例如制作登录页生成器或推文调度器,而不是解决 传统“无聊”行业中客户愿意付费的实际问题,例如水管工或牙医的需求。评论者普遍认为,真正的金钱在于解决缺乏技术知识的商业人士的痛点,并且强调了 进行市场验证、与实际客户沟通以及构建能带来直接财务效益的产品 的重要性。整个讨论揭示了独立黑客社区中存在的“构建公共化”陷阱,即过于关注社交媒体曝光而非实际的盈利能力。

5周前
26分钟
十分钟验证百万商机:AI 如何高效挖掘 Reddit 真实抱怨,提炼高密度创业洞察

十分钟验证百万商机:AI 如何高效挖掘 Reddit 真实抱怨,提炼高密度创业洞察

本期播客摘录自一篇 Reddit 帖子,主要讨论了一位独立开发者如何利用 Claude 等大型语言模型 (LLM) 来快速验证其 SaaS (软件即服务) 创意。作者分享了他通过提示 AI 抓取 Reddit 和 Quora 等平台上的真实用户痛点和抱怨,从而发现了“冷邮件个性化问题”这一市场缺口,并成功推出了名为 Introwarm 的产品,目前实现了 每月 2.3k 美元的经常性收入 (MRR)。随后的评论区包含了用户对这种 AI 驱动的市场研究方法 的积极反馈、对所使用的详细提示词的分享,以及关于 AI 模型准确性和 数据抓取局限性 的辩论。总的来说,该内容提供了一种 实用的、低成本的初创公司理念验证策略,强调从真实的用户投诉中寻找商业机会。

5周前
22分钟
Omnilingual ASR:支持 1600 多种语言的开源多语言语音识别系统

Omnilingual ASR:支持 1600 多种语言的开源多语言语音识别系统

本期播客概述了一项名为 Omnilingual ASR 的大型多语言自动语音识别(ASR)系统的开发及其功能,该系统旨在为全球 1,600 多种 语言提供支持,其中包括 500 多种 以前未得到任何 ASR 系统支持的语言。该系统采用了一种新型 编码器-解码器架构,通过将 自监督预训练扩展到 70 亿个参数,实现了对训练中未见语言的 零样本泛化 能力。通过结合现有公共资源和 社区合作采集 的新录音,该项目旨在解决资源匮乏语言的 ASR 覆盖问题,并以一系列开源模型的形式发布,以促进更具 包容性和社区驱动 的语音技术发展。此外,文章还详细介绍了 数据收集、质量保证 流程,并提供了针对 Whisper 和 USM 等现有模型的 性能比较 评估结果。

5周前
20分钟
Rust 和 JavaScript:完美的组合与坑

Rust 和 JavaScript:完美的组合与坑

本期播客摘录自 Jakob Meier 在“Rust Zürisee November 2024”上进行的演讲,主要围绕如何结合使用 Rust 和 JavaScript,特别是通过 WebAssembly (Wasm) 技术。Meier 介绍了他使用 Rust 进行核心逻辑处理和 JavaScript/Svelte 构建用户界面的应用程序架构。演讲的重点工具是 wasm-bindgen,它能自动生成必要的绑定代码,以简化 Rust 和 JavaScript 之间复杂的通信,特别是处理数据类型转换和对象生命周期管理。通过一个鼠标行为检测的演示项目,Meier 展示了在使用 wasm-bindgen 时可能遇到的常见陷阱和跨语言交互带来的独特调试挑战,例如处理所有权转移、指针归零错误、时间戳精度问题以及因 JavaScript 对象默认是引用的而导致的意外数据复制行为。

5周前
21分钟
Claude Agent Skills 深度解析与应用

Claude Agent Skills 深度解析与应用

本期播客对 Anthropic 推出的 Claude Agent Skills 技术的全面解析,将其描述为一种模块化能力,旨在将 Claude 从通用助手转变为特定领域的专家。核心机制在于 渐进式公开 (Progressive Disclosure) 架构,它通过三层动态加载知识(元数据、核心指令和资源脚本)来解决大型语言模型(LLM)面临的 上下文窗口饱和 问题,从而实现极高的 Token 效率。文章详细介绍了 Skill 的文件系统结构(例如包含核心指令 SKILL.md),强调其运行依赖于安全的 代码执行 环境以确保任务的确定性和可靠性。最后,来源探讨了 Skills 在软件开发中的变革性影响,包括标准化编码实践和实现复杂的 代理式 (agentic) 自动化工作流程,并将其与 OpenAI 的功能调用和 LangChain 等其他 AI 框架进行了对比。

2个月前
22分钟
货币的本质、演变与未来数字革命

货币的本质、演变与未来数字革命

本期播客阐述了关于货币的本质、演变及其在全球经济中的作用的全面分析。文章首先阐述了货币的四大经典职能(交换媒介、计价单位、价值储存、延期支付标准),并解释了它如何克服了原始的物物交换系统的低效性。随后,文本追溯了货币从具有内在价值的商品货币(如金属)到依赖政府法令的法定货币(如纸币)的历史演变,特别强调了1971年“尼克松冲击”后金本位制的终结。此外,该来源讨论了中央银行如何通过货币政策工具(如利率和公开市场操作)管理经济,同时也探讨了宽松货币政策对经济不平等的加剧作用。最后,文章分析了数字时代的革命,包括比特币等加密货币、稳定币以及各国正在探索的央行数字货币(CBDC),将其总结为一场关于信任和中心化控制的未来之争。

2个月前
32分钟
基于 MCP 的代码执行:构建更高效的智能体

基于 MCP 的代码执行:构建更高效的智能体

本期播客介绍了 Anthropic 关于通过使用 模型上下文协议 (MCP) 实现代码执行来构建更高效 AI 代理的工程解决方案。文章首先指出,尽管 MCP 是连接 AI 代理与外部系统的事实标准,但随着连接工具数量的增加,直接的工具调用会导致 工具定义和中间结果消耗过多的上下文令牌,从而降低效率并增加成本。为了解决这一问题,Anthropic 提倡将 MCP 服务器作为代码 API 呈现给代理,允许代理通过编写代码与 MCP 服务器交互,这种方法显著提高了上下文效率,实现了 按需加载工具定义 和 在执行环境中处理数据,从而节省了令牌使用并提升了隐私保护与状态管理能力。原文链接:https://www.anthropic.com/engineering/code-execution-with-mcp

2个月前
24分钟
一起来学 a16z 的《从 AI 伙伴到个人软件的未来展望》

一起来学 a16z 的《从 AI 伙伴到个人软件的未来展望》

本期播客摘录自YouTube频道“a16z”的播客,重点介绍了Wabby的创始人Eugenia Kuyda关于人工智能(AI)软件的未来的愿景。Kuyda认为,当前的AI界面(如聊天机器人)类似于早期的MS-DOS,并预测即将迎来一个**“Windows/Mac OS时刻”,届时软件将变得深度个性化**、灵活易变,并且能够由非技术用户快速创建,就像用户生成内容(UGC)平台(如YouTube)改变了媒体消费一样。她通过讨论Wabby平台如何允许用户创建满足个人、小众需求的临时“迷你应用”来支持这一观点,强调了超越文本提示界面的直观图形用户界面、共享和协作的重要性,以及AI将从孤立的应用程序转变为深度整合、具有记忆和上下文感知能力的操作系统。

2个月前
23分钟
大型语言模型中涌现的内省意识

大型语言模型中涌现的内省意识

本期播客摘自一篇来自 Anthropic 的研究论文摘要和节选,题为“大型语言模型中涌现的内省意识”。作者 Jack Lindsey 研究了大型语言模型(LLMs)是否能够对其内部状态进行内省,因为仅凭对话很难区分真正的内省与凭空捏造。研究人员通过概念注入(将已知概念的激活表示注入模型的激活层)来操纵模型的内部状态,然后观察这些操作如何影响模型的自我报告。结果表明,当前的 LLMs 确实拥有一定程度的功能性内省意识,能够在特定情况下识别被注入的概念、区分“思想”与文本输入,并利用对先前意图的记忆来判断其输出是否为自身所意图。然而,这种能力被发现是高度不可靠且依赖于具体情境的,尽管功能最强大的模型(Claude Opus 4 和 4.1)表现出最强的内省能力。总而言之,该研究为 LLMs 的内省能力提供了直接的证据,并探讨了相关机制、局限性以及对人工智能可靠性和可解释性的潜在影响。

2个月前
30分钟
Farcaster:协议悖论与资产驱动的未来

Farcaster:协议悖论与资产驱动的未来

本期播客对 Farcaster 这一去中心化社交协议进行了详尽的分析,探讨了其技术架构、战略转型和用户增长面临的挑战。Farcaster 采用一种 混合架构,将用户身份锚定在以太坊 L2 (Optimism) 上,而将高频社交数据存储在高性能的链下 P2P 网络 Snapchain 中。文档核心指出 Farcaster 正在经历一次战略转向,从最初的“去中心化社交”理想转变为由其杀手级功能 Frames (迷你应用) 和社区代币驱动的 “资产驱动”模式。尽管该协议得到了顶级风投的巨额融资且拥有先进的底层技术,但文档通过对比公开指标和 Power Badge (真实用户) 数量,揭示了其存在显著的“协议悖论”:即高性能的基础设施却被极低的真实用户留存率所困扰。

2个月前
32分钟
Farcaster 与 AI 代理:自主经济与去中心化社交

Farcaster 与 AI 代理:自主经济与去中心化社交

本期播客主要概述了去中心化社交协议 Farcaster 与自主 AI 代理(AI Agents)技术融合的趋势,并将其核心论点定位为 Farcaster是一个专为“机器公民”和人类共同设计的、具有原生经济活性的社会协议。报告首先剖析了 Farcaster “充分去中心化”的架构,强调其链上身份(FID)和开放数据层(Hubs)为 AI 代理提供了 Web2 平台无法比拟的抗审查和可扩展基础设施。随后,文章定义了自主 AI 代理如何从“工具”演变为拥有自己钱包的“经济行动者”,并详细阐述了 Mini Apps(Frames v2)作为人机协作界面以及 x402 支付协议作为机器对机器交易经济“毛细血管”的关键技术作用。最后,报告探讨了这种融合在信息策展、社区管理和原生经济活动中的应用实例,同时也提出了 AI 垃圾信息泛滥、安全风险(如提示注入)以及问责制等关键治理挑战,认为 Farcaster 的链上身份系统将成为未来 AI 代理声誉和治理的基础。

2个月前
42分钟
React 渐进式图像加载:架构与优化策略

React 渐进式图像加载:架构与优化策略

该指南全面概述了 React 应用中渐进式图像加载的架构和实现策略,将其细分为三个核心技术:延迟加载(控制何时加载)、低质量图像占位符 (LQIP)(控制加载期间显示什么)和渐进式渲染(控制如何编码图像文件)。文章首先分析了将这三种技术结合使用的必要性,以防止累计布局偏移 (CLS)并优化 LCP 等核心 Web 指标。随后,它详细比较了主流框架 Next.js 的 next/image(按需优化)和 Gatsby 的 gatsby-plugin-image(构建时优化)的实现细节和战略权衡。最后,指南提供了在纯 React 环境中手动实现加载逻辑的方法,包括使用浏览器原生延迟加载、Intersection Observer API,以及推荐使用 react-lazy-load-image-component 库来实现高质量的“模糊上升”占位符效果。

2个月前
42分钟
一起来学 Dan Koe 的《如果你害怕虚度二十岁,请看这个》

一起来学 Dan Koe 的《如果你害怕虚度二十岁,请看这个》

本期播客摘录自 YouTube 频道“Dan Koe”的一个视频,旨在向二十多岁的观众提供关于如何避免浪费时间的建议,但其理念也适用于其他年龄段的人。作者使用了一次在加油站看到的经历作为引子,强调了避免“默认路径”的重要性,这种路径通常导向平庸和无意义的生活。为了提供一个全面的视角,作者还分享了由人工智能根据苏格拉底、克里希那穆提和尼古拉·特斯拉的哲学思想所整理出来的建议,并融合了他自己对于在现代社会中取得成功的具体见解。作者提供了实用建议,包括将理想生活方式放在首位、开始创业,以及掌握如写作、系统思维和利用“杠杆”效应等关键技能,这些都是在当今世界中取得指数级增长和自主权的基础。

2个月前
24分钟