4 月 16 日消息,中国电信已开源 120 亿参数 TeleChat-12B 星辰语义大模型,还表示将于年内开源千亿级参数大模型。
相较 1 月开源的 7B 版本,12 版版本在内容、性能和应用等方面整体效果提升 30%,其中多轮推理、安全问题等领域提升超 40%。
据介绍,TeleChat-12B 将 7B 版本 1.5T 训练数据提升至 3T,优化数据清洗、标注策略,持续构建专项任务 SFT (监督微调) 数据,优化数据构建规范,大大提升数据质量;同时,基于电信星辰大模型用户真实回流数据,优化奖励模型和强化学习模型,有效提升模型问答效果。
TeleChat-12B 在模型结构、训练数据、训练方法等方面进行了改进,在通用问答和知识类、代码类、数学类榜单上相比 TeleChat-7B 均有大幅提升。
在模型结构方面,使用小规模的模型尝试多种模型结构的组合选择最优结构。相比 TeleChat-7B 模型,TeleChat-12B 模型采用了词嵌入层与输出层解耦的结构,将词嵌入层和输出 lm head 层参数分开,有助于增强训练稳定性和收敛性。
在训练数据方面,收集了覆盖书籍、百科、新闻、政务、法律、医药、专利、论文、数学、代码等诸多方面的大量中英文数据;通过优化数据清洗策略大幅提升数据的文本干净度、观点无偏性、内容有效性、格式规范性。
在训练方法方面,使用科学数据配比学习与课程学习的方法,使用小参数模型在多种数据配比的数据上拟合,得到对各个数据集难度的先验估计;训练过程中每隔一段时间自动化评估当前模型在所有数据集上的 loss,以及在评测集上的生成效果,动态提升较难学习的数据集权重,保证模型在各个数据集上都有较佳的拟合效果。
中国电信表示,此次开源提供基础模型以及基于相应版本的对话模型、不仅支持传统的全量参数更新还支持 LoRA 等只更新部分参数的高效微调方法、支持 Deepspeed 微调、支持 int8、int4 量化和国产芯片训练推理,推动大模型国产化进程。
发布日期: 2024-05-15
发布日期: 2024-04-25
发布日期: 2024-05-29
发布日期: 2024-04-11
发布日期: 2024-10-17
发布日期: 2023-11-27
发布日期: 2024-10-23
发布日期: 2024-11-27
发布日期: 2024-12-20
发布日期: 2024-12-20
发布日期: 2024-12-20
发布日期: 2024-12-20
发布日期: 2024-12-20
寻找更多销售、技术和解决方案的信息?
广州绿测电子科技有限公司(简称:绿测科技)成立于2015年11月,是一家专注于耕耘测试与测量行业的技术开发公司。绿测科技以“工程师的测试管家”的理念向广大客户提供专业的管家服务。绿测科技的研发部及工厂设立于广州番禺区,随着公司业务的发展,先后在广西南宁、深圳、广州南沙、香港等地设立了机构。绿测科技经过深耕测试与测量领域多年,组建了一支经验丰富的团队,可为广大客户提供品质过硬的产品及测试技术服务等支持。
技术工程师
销售经理
020-22042442
广东公司:冯经理
020-2204 2442-9-822
广西公司:何经理
020-2204 2442-9-880