周六9点半
Technology

周六9点半

作者: 毅仔_wi2e
最近更新: 3个月前
周六9点半,算法工程师真人talk show。平日由ai提供推荐系统相关的论文结论和播报

Recent Episodes

牛市赚7万却如梦幻?AI革命下的投资新逻辑

牛市赚7万却如梦幻?AI革命下的投资新逻辑

🟢 Part 1 牛市中的投资百态00:01:01 牛市赚7万如处幻象?收益与真实感的拉锯00:02:26 股市如天气预报,「sense」决定成败00:04:48 涨3点就卖VS消息后多赚5点,时机选择的代价00:06:09 止损价设定:稳健致富的平衡艺术00:08:48 英伟达芯片的过山车行情:刺激与风险并存00:12:15 AI生产力飞升VS失业风险,科技的双刃剑🟢 Part 2 AI革命的多维影响00:14:04 特斯拉AI机器人:10万亿市值的野望00:16:12 AI成熟度悖论:体验提升≠生产力提高00:20:44 AI会产生意识干掉人类?科幻与现实的边界00:22:39 从精英工具到全民助手,AI的普及化进程00:24:31 AI定投策略:24个月收益率超预期的案例🟢 Part 3 投资教训与前瞻00:25:34 莫德纳投资:计算败给冲动,亏损90%00:27:38 短期看高VS长期GPU为王,阿里与字节的潜力00:29:24 广告效果衡量难题:个性化探索中

3个月前
29分钟
论文精读|DGenCTR如何通过生成范式超越传统模型

论文精读|DGenCTR如何通过生成范式超越传统模型

arxiv.org,created by ai播客标题: 解锁点击率预测新纪元:DGenCTR如何通过生成范式超越传统模型节目描述: 在本期节目中,我们将深入探讨一篇关于点击率(CTR)预测的突破性研究——DGenCTR。为什么传统的CTR模型会遇到性能瓶颈?现有的生成式推荐系统又为何不适用于CTR任务?DGenCTR如何巧妙地结合离散扩散模型和两阶段训练框架,不仅解决了这些难题,还在离线实验和在线A/B测试中取得了显著成效。如果您对推荐系统、深度学习或生成模型感兴趣,这期节目不容错过!Shownotes:一、引言:点击率预测的重要性与挑战• CTR预测的核心作用:作为推荐系统中的核心模块,CTR模型通过整合用户和目标商品信息,预测用户点击商品的概率,进而决定商品的最终排序。它也常用于CPC(每次点击成本)广告系统的定价。• 传统判别式CTR模型的局限性:◦ 性能瓶颈与天花板:依赖二元行为标签,模型容易过拟合少数高预测性特征,而非学习鲁棒且泛化性强的特征表示。◦ 捷径学习与表示崩溃:导致泛化性差、表示崩溃,无法受益于深度学习的“缩放法则”,简单增加模型规模也难以突破性能上限。• 现有生成式推荐模型的不足:◦ 主要关注序列生成:现有研究大多集中在顺序推荐,将其视为文本生成任务,通过自回归范式生成用户行为序列中的下一个商品。◦ 牺牲关键交叉特征:这种方法需要去除目标商品与用户之间的交叉信息,而这些信息对于CTR预测至关重要,去除后会导致性能显著下降。二、DGenCTR:为CTR预测量身定制的生成范式• 核心理念:样本级生成:◦ 不同于传统的商品生成,DGenCTR提出样本级生成范式,专注于生成单个样本内的特征,从而保留了传统CTR模型所需的所有特征信息。◦ 此范式能够扩展模型的预测空间,增强对样本分布的建模能力,并有助于探索CTR领域的缩放法则。• 为何选择离散扩散模型?:◦ CTR样本的输入特征具有排列不变性(改变顺序不影响预测结果),而用户行为序列则具有时间顺序。◦ 离散扩散方法在架构上具有根本优势,它能对所有特征进行等效处理,并利用全局关系进行去噪,从而尊重数据的排列不变性,增强模型捕捉样本整体结构的能力。• DGenCTR的两阶段训练框架:◦ 阶段一:基于扩散的生成式预训练 (Diffusion-Based Pretrain, DP)◦ 阶段二:CTR目标导向的监督微调 (CTR-Targeted Supervised Fine-Tuning, CSFT)三、DGenCTR 两阶段训练详解• 第一阶段:生成式预训练:◦ 目标:模拟扩散过程逐步恢复被破坏的特征,学习正样本和负样本的不同分布。这迫使模型学习更鲁棒、结构化的参数,克服传统二元分类目标的性能瓶颈。◦ 输入格式:模型输入同时包含特征集合F和行为标签y ({ 𝑓 1, ..., 𝑓 𝑁 , 𝑦}),确保预训练过程感知样本标签,使学习到的表示能够正向迁移到CTR任务。◦ 正向扩散过程:将干净数据样本逐渐(通过离散时间步)破坏为纯噪声状态。通过增量遮蔽(masking)输入特征值实现腐化,每个特征最终会过渡到一个特殊的吸收态([MASK] token)。◦ 逆向去噪过程:模型通过学习逆向转移率矩阵来去噪被破坏的样本。其核心是根据有噪声的输入预测原始、干净的特征,并通过重参数化简化学习目标,使得模型学习条件概率 𝑝0 (𝑥𝑘𝑡 |𝑿𝑈𝑀 𝑡 )。◦ 预训练目标函数:采用去噪得分熵损失,并通过采样Softmax解决高基数ID特征导致输出空间过大的计算难题。• 第二阶段:CTR目标导向的监督微调:◦ 目标对齐:由于预训练中的标签感知生成与最终的CTR目标一致,CTR预测任务可以视为预训练中去噪过程的特例。◦ 参数无损迁移:所有预训练的模型参数(包括底层特征表示)都可以直接、无损地转移到下游CTR任务。◦ 最大化知识利用:通过真实用户行为标签进行微调,最大化利用预训练阶段获得的有效信息,从而提高模型的预测精度,使其输出分数更接近真实数据分布。四、实验验证与成果• 广泛的离线实验:在Criteo、Avazu、Malware和工业数据集上进行评估。◦ 超越SOTA:DGenCTR在所有数据集上均显著优于现有最先进的判别式和生成式CTR模型。这表明判别式方法已达性能瓶颈,而直接应用自回归生成范式会导致性能显著下降。◦ 参数迁移研究:验证了完整迁移所有预训练参数的重要性。特别是,预训练好的评分网络不仅学习了静态特征表示,更学习了如何建模特征交互的功能逻辑,提供了强大的归纳偏置。◦ 消融研究:证实了每个模块(标签感知生成、扩散过程、为每个特征使用独立评分函数)对预测准确性的贡献。例如,缺乏标签感知建模会导致预训练与CTR任务之间分布不一致;去除扩散过程、采用Mask-BERT方法则因缺乏“全局到局部”生成过程而性能下降。◦ 参数分析:确定了训练周期和扩散步数的最佳配置,发现性能增益在一定阈值后饱和。◦ 缩放研究:DGenCTR展现出强大的可扩展性,增加HSTU模块数量可显著提升性能。研究发现CTR任务中的生成式预训练遵循缩放法则,这在CTR领域是此前未充分探索的现象。• 在线A/B测试:◦ 在某国际电商平台的在线广告系统进行了10天A/B测试。◦ 与基线判别式模型相比,DGenCTR实现了累积收入增加6.9%,CTR提升5.8%。◦ 部署友好:虽然训练计算量更大,但额外开销仅限于离线预训练阶段。在线推理时,微调后的网络架构与基线模型相同,不增加额外的推理延迟和时间/空间复杂度。五、总结与展望• DGenCTR成功设计了首个针对CTR任务的通用离散扩散生成范式,解决了传统模型的局限和现有生成模型的不足。• 通过精细化建模正负样本分布,学习鲁棒参数,并通过预训练和微调的无缝衔接,最大化地利用了生成模型的强大能力。• DGenCTR不仅在理论上带来了新的视角,其显著的实验成果和在线部署的成功也证明了其在实际应用中的巨大潜力

4个月前
9分钟
AI产品分享1|MyLens.ai听说最近很火

AI产品分享1|MyLens.ai听说最近很火

🎧 周六9点半:AI浪潮来袭,这些新工具你不能错过!哈喽,大家好,欢迎收听本周的周六9点半,我是你的主播毅仔。本周我们继续聚焦那些最新、最酷、最有趣的产品,尤其本期将深入探讨当前Product Hunt上最火热的趋势——AI正在“吞噬”一切!🚀 本周产品速览 DeskMinder²:让人上瘾的待办事项应用,与苹果日历无缝同步,提供沉浸式体验。 Fullpack:基于AI的智能打包清单创建工具,拍照即可生成各类打包清单。 Browse Anything:自动化网页数据采集工具,界面酷炫,能力不俗。 PageOn.ai:AI驱动的可视化工具,能将文本转化为精美PPT,但内容可能略显空洞。⭐ 重点推荐:MyLens.ai——AI可视化领域的佼佼者本期毅仔强烈推荐MyLens.ai,一款能将文本转化为多种可视化图表(云图、柱状图、看板等)的AI工具。 亮点:多样化可视化,能在展示同时进行逻辑梳理和提炼,帮助用户快速理解复杂信息。 优势:相较于同类产品,MyLens.ai在内容展示上更具内在逻辑和深度,是长期迭代打磨的成果。 试用:定价较高,但提供三次免费试用额度,强烈建议大家体验其强大功能。感谢收听本期的周六9点半!你对今天聊到的产品有什么看法吗?你觉得AI会如何改变你的工作?欢迎在评论区告诉我,或是@毅仔,我们下周再见!

6个月前
7分钟
从零构建大语言模型(第一章)

从零构建大语言模型(第一章)

从零构建大语言模型(第一章)欢迎收听“周六九点半”!本期节目,我们一起深入探讨了如何从零开始构建大语言模型。我们以《从零开始构建大语言模型》这本书的第一章为基础。节目的相关资料,包括本书的中文译本链接,都可以在节目下方找到。本期要点速览选择大模型学习路径:为何学习大模型: 嘉宾表示,大模型已无处不在,作为一名数学背景的从业者,希望能深入理解其底层逻辑,从而更好地使用和掌控 AI 产品,避免盲目使用。 书籍选择:《从零开始构建大语言模型》。这本书的亮点在于它从零开始教授如何构建 LMM,包括亲手实现 Self-Attention 机制和预训练过程。本书更侧重代码实践而非复杂的理论公式,适合希望通过动手实践理解 LMM 搭建过程的读者。大语言模型的基础构建:数据来源与质量: 大模型的训练数据主要来源于网络爬虫,其中 Wikipedia 被认为是高质量数据的来源。尽管 Wikipedia 数据量相对较小(约 500GB),但其人工审核确保了数据质量,而网络爬取的数据虽然量大,但质量参差不齐。 数据中的“噪音”: 嘉宾讨论了数据中存在大量噪音(如 Common Crawl)是否会影响模型性能的问题。实验表明,神经网络即使在 50% 的随机标签数据下,也能保持较高准确率,暗示高质量数据并非绝对必要,模型对噪音有一定容忍度。Transformer 架构的演变:Encoder 与 Decoder: 讨论了 Transformer 架构中的 Encoder(编码器)和 Decoder(解码器)在不同模型中的应用。 BERT 与 GPT 的区别:BERT: 采用 Encoder 架构,通过“完形填空”的方式预测被遮蔽的词语,训练方式是预训练一个通用模型再进行微调。 GPT: 仅采用 Decoder 架构,通过 Next Token Prediction(预测下一个词)的方式进行训练。嘉宾认为 GPT 的这种训练方式更直观地模仿了人类对话模式,也更容易实现通用智能。 早期实践与理解: 嘉宾分享了早期使用 Attention 机制的经验,发现其在序列较短时效果不佳,但在长序列任务中才能发挥优势。大模型的训练与微调:预训练(Pre-training): 大模型通过在海量数据集上进行无监督的 Next Token Prediction 任务来学习语言的通用模式,从而形成 Foundation Model(基础模型)。 微调(Fine-tuning):指令微调(Instruction Fine-tuning): 在基础模型之上,通过少量高质量、经过标注的数据集(例如 QA 数据)进行微调,使模型更好地遵循用户指令并产生特定领域的知识。 强化学习与人类偏好(RLHF): 模型通过学习人类反馈来调整输出,使其更符合人类偏好,从而提升通用智能。 LoRA (Low-Rank Adaptation): 一种高效的微调方法,通过在模型中添加小型适配器(adapter)来训练特定领域的数据,从而在不修改原模型主体的情况下实现领域定制化,节省资源。AI 编程工具的使用体验:Cursor 的进化: 嘉宾认为 Cursor 等 AI 编程工具已从最初的代码生成发展到能够自动纠错,具备了 Agent(智能体)的特性。对当前主流 AI 模型的评价:GPT-4: 代码能力强大,但缺乏自动化纠错能力。 Claude 3.7: 具备更强的 Agent 特性,能够自动纠错,整体表现更胜一筹。 Gemini: 在文科(长文本总结、指令遵循)表现顶尖,但在代码能力上仍有提升空间。 国产模型: DeepSeek 和千问等国产模型表现强劲,但整体涌现能力仍有待提升。Self-Attention 机制的理解:QKV 结构: Self-Attention 通过 Query(查询)、Key(键)和 Value(值)计算词语之间的相似度,从而分配注意力权重。 长序列优势: Self-Attention 在处理长序列时能发挥其优势,而在短序列中可能不如简单的全连接结构。 长文本的挑战: 在极长文本中,注意力分配会遇到瓶颈,模型可能出现“幻觉”,因为注意力资源有限,难以有效处理所有信息。有研究表明,模型可能更侧重于文本的开头和结尾。下期预告第二章我们将进入实战环节,深入探讨如何处理大模型训练数据,敬请期待!欢迎大家关注我们的节目,也欢迎大家下载并阅读本书的中文版本,链接在节目下方。dahttps://github.com/JyiHUO/LLM_Resources/blob/main/book-dual.pdf欢迎收听“周六九点半”!本期节目,我们一起深入探讨了如何从零开始构建大语言模型。我们以《从零开始构建大语言模型》这本书的第一章为基础。节目的相关资料,包括本书的中文译本链接,都可以在节目下方找到。本期要点速览 选择大模型学习路径:为何学习大模型: 嘉宾表示,大模型已无处不在,作为一名数学背景的从业者,希望能深入理解其底层逻辑,从而更好地使用和掌控 AI 产品,避免盲目使用。 书籍选择:《从零开始构建大语言模型》。这本书的亮点在于它从零开始教授如何构建 LMM,包括亲手实现 Self-Attention 机制和预训练过程。本书更侧重代码实践而非复杂的理论公式,适合希望通过动手实践理解 LMM 搭建过程的读者。 大语言模型的基础构建:数据来源与质量: 大模型的训练数据主要来源于网络爬虫,其中 Wikipedia 被认为是高质量数据的来源。尽管 Wikipedia 数据量相对较小(约 500GB),但其人工审核确保了数据质量,而网络爬取的数据虽然量大,但质量参差不齐。 数据中的“噪音”: 嘉宾讨论了数据中存在大量噪音(如 Common Crawl)是否会影响模型性能的问题。实验表明,神经网络即使在 50% 的随机标签数据下,也能保持较高准确率,暗示高质量数据并非绝对必要,模型对噪音有一定容忍度。 Transformer 架构的演变:Encoder 与 Decoder: 讨论了 Transformer 架构中的 Encoder(编码器)和 Decoder(解码器)在不同模型中的应用。 BERT 与 GPT 的区别:BERT: 采用 Encoder 架构,通过“完形填空”的方式预测被遮蔽的词语,训练方式是预训练一个通用模型再进行微调。 GPT: 仅采用 Decoder 架构,通过 Next Token Prediction(预测下一个词)的方式进行训练。嘉宾认为 GPT 的这种训练方式更直观地模仿了人类对话模式,也更容易实现通用智能。 早期实践与理解: 嘉宾分享了早期使用 Attention 机制的经验,发现其在序列较短时效果不佳,但在长序列任务中才能发挥优势。 大模型的训练与微调:预训练(Pre-training): 大模型通过在海量数据集上进行无监督的 Next Token Prediction 任务来学习语言的通用模式,从而形成 Foundation Model(基础模型)。 微调(Fine-tuning):指令微调(Instruction Fine-tuning): 在基础模型之上,通过少量高质量、经过标注的数据集(例如 QA 数据)进行微调,使模型更好地遵循用户指令并产生特定领域的知识。 强化学习与人类偏好(RLHF): 模型通过学习人类反馈来调整输出,使其更符合人类偏好,从而提升通用智能。 LoRA (Low-Rank Adaptation): 一种高效的微调方法,通过在模型中添加小型适配器(adapter)来训练特定领域的数据,从而在不修改原模型主体的情况下实现领域定制化,节省资源。 AI 编程工具的使用体验:Cursor 的进化: 嘉宾认为 Cursor 等 AI 编程工具已从最初的代码生成发展到能够自动纠错,具备了 Agent(智能体)的特性。 对当前主流 AI 模型的评价:GPT-4: 代码能力强大,但缺乏自动化纠错能力。 Claude 3.7: 具备更强的 Agent 特性,能够自动纠错,整体表现更胜一筹。 Gemini: 在文科(长文本总结、指令遵循)表现顶尖,但在代码能力上仍有提升空间。 国产模型: DeepSeek 和千问等国产模型表现强劲,但整体涌现能力仍有待提升。 Self-Attention 机制的理解:QKV 结构: Self-Attention 通过 Query(查询)、Key(键)和 Value(值)计算词语之间的相似度,从而分配注意力权重。 长序列优势: Self-Attention 在处理长序列时能发挥其优势,而在短序列中可能不如简单的全连接结构。 长文本的挑战: 在极长文本中,注意力分配会遇到瓶颈,模型可能出现“幻觉”,因为注意力资源有限,难以有效处理所有信息。有研究表明,模型可能更侧重于文本的开头和结尾。下期预告第二章我们将进入实战环节,深入探讨如何处理大模型训练数据,敬请期待!欢迎大家关注我们的节目,也欢迎大家下载并阅读本书的中文版本,链接在节目下方。大语言模型书籍双语版本:https://github.com/JyiHUO/LLM_Resources/blob/main/book-dual.pdf代码: https://github.com/rasbt/LLMs-from-scratch

7个月前
37分钟
大厂离职创业值得么?

大厂离职创业值得么?

本期简介:在本期节目中,算法工程师霍俊毅与王君凡轻松对谈,深入探讨了当下火热的 AI 创业浪潮。如果你对人工智能如何改变创业模式、最新的 AI 产品趋势或者创业路上的真实挑战感兴趣,这期节目不容错过!你将听到: 🤖 AI 创业风向转变: 从早期的单轮对话 AI (如 Character.AI) 为何难以留住用户,到如今像 Cursor、Perplexity 等能累积信息、更具“记忆”的智能体(Agent)模式如何成为新趋势?这背后关乎用户粘性和商业护城河的逻辑是什么? 💡 从趋势到实践: 听霍俊毅分享他如何将这些 AI 发展趋势融入自己的创业项目——构建一个个性化的知识图谱/智能体,以及这其中应用 RAG、向量数据库等技术的思考。 🛡️ 创业避坑指南: 真实经历分享!当你的创业项目遭遇黑客(SQL注入、端口扫描)时该如何应对?创业初期如何保障基础安全?以及寻找志同道合的团队伙伴有多难? 🚀 案例学习:朋友的增长秘籍: 深度剖析一个面试辅导创业项目,如何从零开始,通过精细的成本控制、精准的市场定位和巧妙的推广策略(小红书、抖音、SEO实战),在细分领域脱颖而出,成为头部玩家。收听本期,你将获得: 对 AI 技术驱动创业模式变革的一线洞察。 两位算法工程师关于技术选型、产品演进和创业挑战的深度思考。 关于安全防护、团队组建、成本控制和市场推广的宝贵实战经验与教训。快来收听,和霍俊毅、王君凡一起探索 AI 创业的机遇与挑战吧!这个简介突出了核心话题、关键讨论点以及听众能获得的价值,结构清晰,应该能很好地帮助听众决定是否收听。

8个月前
1小时12分钟