
0:000:00
<p><a href="https://arxiv.org/pdf/2406.20094">Scaling Synthetic Data Creation with 1,000,000,000 Personas</a></p><p><strong>Persona Hub</strong> 是一个包含 <strong>10亿个多样化角色(persona)</strong> 的集合,这些角色是从海量网络数据中自动整理出来的。这些角色约占世界总人口的13%。Persona Hub中的每个角色都被视为世界知识的分布式载体,与独特的知识、经验、兴趣、个性和职业相关联。从压缩的角度来看,Persona Hub(约10^10个token)可以被看作是将用于训练大型语言模型(LLM)的公共网络文本(约10^14个token)压缩成分布式载体的形式。</p><p>Persona Hub 通过引入一种新颖的<strong>角色驱动数据合成方法</strong>,彻底改变了LLM的合成数据创建。</p><p>以下是 Persona Hub 如何实现这一革命性变革的详细说明:</p><p>1. <strong>解决多样性和可扩展性挑战</strong>:</p><p>◦ 以往的合成数据创建方法,如“实例驱动”和“关键点驱动”,在扩展多样性方面面临挑战。实例驱动方法受限于种子语料库的规模,难以超越其多样性。关键点驱动方法则难以枚举所有不同粒度的关键点,除非仅限于狭窄领域。</p><p>◦ Persona Hub 的角色驱动方法克服了这些限制,通过将角色添加到数据合成提示中,引导LLM从相应视角创建独特的合成数据。由于几乎所有LLM用例都可以与特定角色关联,因此只要构建一个全面的角色集合,就可以大规模创建包罗万象的合成数据。Persona Hub 的10亿个角色可以充分利用LLM中封装的几乎所有视角,从而大规模地促进各种场景下多样化合成数据的创建。</p><p>2. <strong>Persona Hub 的构建方式</strong>:</p><p>◦ Persona Hub 采用两种可扩展的方法从海量网络数据中获取多样化角色:<strong>文本到角色(Text-to-Persona)</strong> 和 <strong>角色到角色(Persona-to-Persona)</strong>...