热点资讯
情色幽默 英伟达通知推出nemotron-cc:用于llm预测验的万亿级英语讲话数据集-品玩
发布日期:2025-01-14 18:08 点击次数:169
品玩1月14日讯,据英伟达官方音问情色幽默,英伟达近日通知推出Nemotron-CC,这是一种包含 6.3 万亿个token的 英语讲话Common Crawl数据集 ,用于预测验高度准确的大讲话模子 。
性爱图高质地预测验数据集是测验大讲话模子的要津之一,近期不少大模子军事基于包含 15 万亿个令牌的多数数据进行了测验。但关于这些 token 的构周详球知之甚少,Nemotron-CC 旨在处分这一问题,并使更世俗的社区简略测验高度准确的大模子。数据开头方面,Nemotron-CC 基于 Common Crawl 网站数据构建,并在经过严格的数据处理历程后,提真金不怕火而成高质地子集 Nemotron-CC-HQ。
英伟达示意,Nemotron-CC是一个洞开、大型、高质地的英语 Common Crawl 数据集,支持在短符号和长符号边界内预测验高度准确的 LLM。
情色幽默