IT之家 9 月 28 日音问,“中国电信东谈主工智能究诘院”官方公众号今天晓示,中国电信东谈主工智能究诘院(IT之家注:下文称 TeleAI)告捷完成国内首个基于天下产化万卡集群教育的万亿参数大模子,并认真对外开源首个基于天下产化万卡集群和国产深度学习框架教育的千亿参数大模子 —— 星辰语义大模子 TeleChat2-115B。
官方默示,这项科研着力象征着国产大模子教育果真杀青天下产化替代,认真参加天下产自主转变、安全可控的新阶段。
TeleChat2-115B 基于中国电信自研的天翼云“息壤一体化智算就业平台”和东谈主工智能公司“星海 AI 平台”教育完成。据先容,其在保证教育精度的前提下诈欺多种优化技术晋升模子教育着力和踏实性,杀青了 GPU 同等算力狡计着力超 93% ,模子灵验教育时长占比超 98% 。
针对超大参数模子教育,TeleAI 袭取了多量小模子进行 Scaling,进而考证不同模子结构的灵验性。同期,在数据配譬如面,基于小模子实验松手反应,袭取纪念瞻望模子,得到较优数据配比。
在 Post-Training(后教育)方面,TeleAI 率先针对数学、代码和逻辑推理等试验合成了多量问答数据,用于 SFT(监督式微调)第一阶段模子教育。
其次,其袭取迭代式更新政策,使用模子对教导词数据进行指示复杂性晋升与各样性推行,通过模子合成和东谈主工标注晋升谜底质地,并诈欺拒却采样取得优质 SFT 数据及 RM(奖励模子)代表性数据,用于 SFT 教育和 DPO(偏好对皆)教育,以及模子效果迭代。
IT之家附开源地址
GitHub:
https://github.com/Tele-AI/TeleChat2
Gitee:
https://gitee.com/Tele-AI/tele-chat2
ModelScope:
https://modelscope.cn/models/TeleAI/TeleChat2-115B
Modelers:
https://modelers.cn/models/TeleAI/TeleChat2-115B