对话整数智能联创和前IDEA研究员：构建高质量数据集与智能数据工程平台 - AI Odyssey

端午快乐～很开心，这期又可以和大家聊聊硬核的 GenAI 技术内容。最近和 AI 创业者们交流最多的话题就是 AI 数据。因此，本期节目我们特别邀请了两位在 AI 数据领域颇有建树的嘉宾：杨子敖，Brandeis CS PhD Candidate；刘明皓，整数智能信息技术（杭州）有限责任公司的算法负责人。一起聊了一下他们多年来在这方面积累的经验和认知，深入讨论了如何为大模型训练和推理构建高质量的数据集，以及如何搭建智能数据工程平台。如果你对数据处理感兴趣，或者是一位充满好奇心的 AI 从业人员，我们希望通过这期节目为你带来关于 AI 和数据的新看法和启发。欢迎收听～嘉宾介绍：杨子敖 Brandeis CS PhD Candidate，曾在奇绩创坛和IDEA研究院工作过。目前的研究兴趣是Data centric ML，特别是基于influence function和Shapley value的Data Valuation。刘明皓，整数智能信息技术（杭州）有限责任公司算法负责人。中国人工智能产业发展联盟2022年突出贡献个人，《人工智能研发运营一体化（Model/MLOps）能力成熟度模型》核心参编专家，MAP-NEO Core Contributor。主播介绍：Leo Zhao: 硅谷大厂高级机器学习工程师，GenAI LLM发烧友Shownotes00:30 - 嘉宾自我介绍02:27 - 讨论 OpenAI 发布的 Scaling Laws 对模型性能的影响02:59 - 探讨评估模型性能的主要指标和方法03:48 - 模型性能衡量标准，介绍学术界常用的 Benchmark 和其他评估方法04:49 - 分享如何评估知识型模型的效果05:35 - 不同的 Scaling Laws 数据量的建议07:05 - 介绍高质量数据的定义及其处理方法08:57 - 讨论数据清洗过程中质量与多样性的平衡09:58 - 解释数据质量如何具体影响模型训...