彭博:自然语言处理在金融科技领域越来越重要,拥有巨大的应用前景

时间:2023-04-02 03:33:22

  4月2日,全球最大的金融数据服务公司彭博,已经训练出了BloombergGPT,金融领域最大的自然语言模型(LLM)。

  有不少华尔街人在社交媒体上发问:这是要干掉金融分析师吗?其实,这也是彭博担心自己被ChatGPT干掉。

  彭博研究人员发布的模型论文称,这是一个500 亿参数的LLM,基于彭博丰富的金融数据源构建了一个3630 亿个训练标志(token)数据集,这可能是迄今为止最大的特定领域数据集,并且增加了来自通用数据集的 3450 亿个标志。

  研究人员在标准 LLM能力、开放金融能力和“预期用途”的内部能力上验证了 BloombergGPT。这一混合数据集训练产生的模型,在金融能力上的表现明显优于现有模型,而一般能力上又不输于通用 LLM 。

  训练采用了大模型BLOOM的架构,动用了512张40GB的A100GPU,在AWS训练了53天。除此之外,没有公开更多的参数。而研究人员在论文中称,也不打算公开。

  在做金融领域大模型方面,彭博有着得天独厚的禀赋,理应先吃螃蟹。作为一家金融数据和科技公司,40年来已经积累了海量的金融数据。专业、独有、可信的优质数据都是现成的,这是其最大的优势。下面是其数据集的构成。

  彭博认为,自然语言处理(NLP)在金融科技领域越来越重要,拥有巨大的应用前景。金融NLP已经用于市场情绪分析、命名实体识别(NER)、新闻分类、问答等。尽管还是要完成这些任务,但是金融领域复杂性、名词术语的专业性,让彭博认为有必要开发一个金融领域的AI计算系统。

  研究人员对这几项任务进行了测试:

  1,问答。ConvFinQA数据集是一个针对金融领域的问答数据集,包括从新闻文章中提取出的问题和答案,旨在测试模型对金融领域相关问题的理解和推理能力

  2,情绪分析。FiQA SA,用来测试英语金融新闻和社交媒体标题中的情感走向

  3,标题。对关于黄金商品领域的新闻标题进行分类

  4,情绪分析。金融短语库数据集(FPB)包括来自金融新闻的句子情绪分类任务。

  5,命名实体识别(NER),针对从提交给SEC的金融协议中收集金融数据,进行信用风险评估。

  测试结果对照其他模型如下:

  但研究人员似乎有意避开了与最强模型的对照,如GPT-4和PaLM。可以看出其最多可能达到 GPT-3 -3.5 之间的水平,在多语言多模态上可能差距明显。另外,如果GPT-4开放微调功能,BloombergGPT还有优势吗?

  彭博终端使用起来,有一套非常难记的查询代码,而BloombergGPT可以把自然语言转化成查询代码。还能为彭博社记者建议新闻标题,在财经新闻相关事实和知识查询的准确性方面,更是远胜其他大模型。

  BloombergGPT不仅是金融领域最大的模型,而且是特定领域的最大模型,从中可以看出领域模型和通用模型之争 。难怪BloombergGPT一再强调,如果我们一样大小,我金融功能无敌;如果通用模型比我大,我的通用功能也可以替代你。总之,用了BloombergGPT,就不必再用ChatGPT了。

上一篇:赣锋锂业回应底价定为25万元出货:并不存在该环节或讨论
下一篇:非农携两大央行决议重磅来袭,全球多个交易所有休市安排

1.绿竹网的原创文章,请转载时务必注明文章作者和"来源:绿竹网",不尊重原创的行为,绿竹网都将保留追究责任权益;

2.绿竹网遵循行业规范,任何转载的稿件都会明确标注作者和来源,对于未注明原作品不得转载的稿件,我方不承担相关责任;

3.绿竹网倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至14043 2669 6@QQ.com,我们将及时沟通与处理。

4.关于绿竹网的所有法律事宜,均由本网特聘法律顾问协助处理。

更多科技新闻 相关智库科技新闻阅读