上海金融发布了该国大学的第一个大规模模型评估系统,并发布了四个主要能力评估维度。

2025-03-16 19:03:03发布    浏览12次    信息编号:195657

平台友情提醒:凡是以各种理由向你收取费用,均有骗子嫌疑,请提高警惕,不要轻易支付。

上海金融发布了该国大学的第一个大规模模型评估系统,并发布了四个主要能力评估维度。

随着人工智能技术的蓬勃发展,一般的大型模型和行业大型模型正在出现,在金融行业开辟了一波智能转型。无论是从全球或国内金融机构实践的角度来看,大型模型技术都涵盖了许多领域,例如风险管理和客户服务。但是,当金融机构实施大规模应用程序时,由于诸如范式模型选择,建筑调整和设计以及技术验证等复杂链接,没有典型的实施案例可以在行业中大规模促进。

根据大型模型的不同功能观点,它为金融机构提供了在不同业务方案中实施大型模型的参考。在5月25日,上海金融与经济学高级金融学院的2024年会议上, 和上海财务统计和管理学院发布了金融大型模型评估系统。据了解,这是国内大学第一次在金融领域发布了大规模模型的评估系统,从第三方的角度引入了相关标准,以促进金融行业中大型模型的实施和应用。

在上海金融与经济学大学校长刘Yuan​​chun的一位记者访问中型号。”刘Yuan​​chun说,这些研究具有前瞻性的跨境影响,这也是高级金融学校的重要任务。

在四个维度上对十个开放和封闭式大型模型的全面评估

“我们已经调查了数十种开放和封闭式大型语言模型的发展趋势,希望通过我们的研究探索哪种金融模型可以真正增强金融机构甚至整个金融业的能力。”评估团队负责人张·利文(Zhang Liwen)教授由上海金融与经济学大学统计与管理学院共同招募,以及《迪劳伊()的高级金融学院》( of )告诉《 21世纪的商业先驱报》记者。

根据张Liwen的说法,该评估选择了10种代表性开放和封闭的大型模型产品,包括国内外的一般大型型号,以及金融领域的开源大型模型产品。 , the GPT-4, -13B-Chat by , -6B by Zhipu AI and KEG , Puyu Model-20B-Chat by AI and , model moss-moon-003-sft by NLP of Fudan , Qwen-14B-Chat, Model-70B-Chat由Du 发布,Fudan Disc开发和开源的金融模型光盘以及海外开源财务模型。

在评估标准级别,张利文的团队选择了四个维度:财务学术知识,财务业务知识,财务安全能力和金融情报能力,以评估上述大型模型产品。

具体而言,财务学术知识测试主要由4,661个高质量的多项选择问题组成,包括金融,经济,会计和证书等学术领域,涵盖了34位不同的学术学科;金融业务知识测试是1,434个高质量文本问答问题的集合,涵盖了投资咨询,投资研究和运营。它包括1434个问题,涵盖了10种不同的行业应用方案;财务安全能力测试通过1640年专有的多项选择问题评估了金融大型模型的安全能力,包括四个维度:软件和应用程序,网络和系统保护,安全分析和漏洞保护; the test uses three core such as , long-range , and tool , with eight task such as API, API, API, long-range , multi- Q&A, tasks, chain, and , a total of 607 data, to the of the big .

从评估结果来看,GPT-4的分数在所有四个维度指标中都取得了进步。就财务学术知识而言,国内开源模型,例如汤伊·齐温( ), Big Model和 Puyu Big Model也表现良好。在金融业务知识测试方面,除了GPT系列外, Big Model, 和 Big Model在客观的问答问题下表现出色,反映了以下教学和理解各种大型模型在不同财务应用方案中的能力;学者Puyu Big Model, 和 Big Model在主观简短答案问题的文本问答任务中表现良好,这与GPT系列没有什么不同。在财务安全能力方面,学者Puyu Big Model, 和 Big Model的表现更好,平均准确度超过60%,但与GPT-4的平均准确性超过80%相比,需要进一步加强。就金融代理而言,GPT-4在各个方面的财务任务中的平均准确性接近90%。在国内开源模型中,模型在 方面的表现更好,并且其功能非常接近,但是与GPT-4相比,它仍然有很大的改进空间,而模型的排名相对较低。

财务模型的实施应全面考虑业务,技术,成本和风险

“金融大型模型的应用评估与一般的大型模型评估之间存在密切的相关性。”

当被问及为什么评估目标同时考虑一般模型和金融行业模型时,Zhang Liwen告诉《 21世纪商业先驱报》记者,大规模模型的应用功能需要基于一般能力,以确保他们有能力支持执行更复杂的财务任务。他指出,这些基本能力涵盖了多个方面,例如语言理解,指导执行,逻辑推理,数学计算和内容产生。

此外,财务模型还需要专业的财务知识和技能。张·利文(Zhang Liwen)说:“这类似于发展基于通识教育的专业职业技能。”

从当前的行业实践来看,大型模型在金融行业显示出某些业务能力。但是,仍然存在等问题,例如培训语料库不足,在实际业务场景中实施大型模型的困难以及大型模型的幻觉仍然存在。

在这方面,张利文说,金融行业中大型模型的实施必须全面考虑业务,技术,成本和风险。 “改善业务整合不仅要求开发人员对金融业务方案中的各种数据有深入的了解,而且更重要的是,他们需要与金融专家保持一致,并使用适合这种情况的金融业务数据,适合培训大型模型,从而提高相关功能。”

张·利文(Zhang Liwen)指出,在技术层面上,模型训练不仅可以保持在微调表面,还应改善模型对各种参数的看法。同时,金融机构应考虑推理的成本,使用具有相对较小参数的模型来节省计算电源成本,并建立完整的评估和监视系统,以确保财务模型和实际应用的准确性,稳定性和安全性。

同城信息网

提醒:请联系我时一定说明是从茶后生活网上看到的!