
0:000:00
<p>在深圳,大模型掀起的AI硬件创业潮正席卷大厂、初创公司和一些中等规模的软件企业。</p><p>这些新玩家们相信,大模型带来了全新的人机交互体验,而一个完整的交互解决方案,一定是软、硬一体的。</p><p>刘轶就是其中的一位。在对谈中,他引用了一个巧妙比喻:大模型是水,本身无形,需要载体——这是他决定投身硬件产业的重要原因。</p><p>另一部分原因,则来自一个语音AI行业老兵的经验之谈。</p><p>刘轶的背景横跨学界、产业界。他是港科大首位智能语音语言领域的博士,国家重大人才计划特聘专家。在清华任教期间,他所在的国家实验室后来走出了炙手可热的大模型公司智谱。</p><p>2014年刘轶博士决定离开高校,在深圳创立了北科瑞声,为行业提供语音AI的系统与服务,并很快在医疗、政务、交通等领域找到了垂直细分市场的机会,但也仍然面临企服市场定制化程度高、软件付费意愿不强等问题。</p><p>十年后,带着在垂直领域积累下的行业优势,刘轶决定在大模型时代再次出发。手机之外,高度依赖语音交互、“受限显示”的口袋式硬件,被寄予厚望。</p><p>不过,如何在这样一个小小的终端上平衡性能、算力和功耗三者的关系,是摆在每个新玩家面前的共同挑战。刘轶认为,这也恰恰说明在端侧仍大有可为。</p><p>【本期课代表】</p><p>刘轶,北科瑞声创始人、董事长,国家重大人才计划特聘专家</p><p>【课代表观点】</p><p>01:05,语音AI技术的进展和局限</p><p>04:54,中文和阿拉伯语的识别理解,哪个更难?</p><p>06:30,更好的大模型一定出现在工业界</p><p>08:51,微调(SFT)不是每个人都该去做的</p><p>12:13,大模型是水,一定要有载体</p><p>14:06,做硬件就是一个权衡的过程</p><p>16:37,GPT-4o离产业化还有一段路</p><p>17:20,受限显示的小硬件是个趋势</p><p>【补充知识点】</p><p>ASR自动语音识别(Automatic Speech Recognition) 基于深度学习技术,将音频中的语音转成文字。可用于识别多种音频编码格式、多种场景和不同长短的语音。广泛应用于智能客服质检、会议访谈转写、游戏语音输入、课堂内容分析等场景。TTS语音合成(Text-To-Speech)是一种将文本信息转化为...