您好,欢迎访问爱游戏app官方官方网站!
爱游戏app官方网站 爱游戏app官方

电缆桥架资讯

电缆桥架资讯

8x7B开源MoE击败Llama 2逼近GPT-4!欧版OpenAI震惊AI界22人公司半年估值20亿

时间: 2024-01-20 08:41:43    来源: 爱游戏app官方    作者: 爱游戏app官方网站    阅读数: 31 次

  前几日,一条MoE的磁力链接引爆AI圈。刚刚出炉的基准测试中,8*7B的小模型直接碾压了Llama 2 70B!网友直呼这是初创公司版的超级英雄故事,要赶超GPT-4只是时间问题了。有趣的是,创始人姓氏的首字母恰好组成了「L.L.M.」。

  87GB的种子,8x7B的MoE架构,看起来就像一款mini版「开源GPT-4」!

  6月,Mistral AI上线页PPT,获得欧洲历史上最大的种子轮融资。

  12月,类GPT-4架构的开源版本Mistral 8x7B发布。几天后,外媒金融时报公布Mistral AI最新一轮融资4.15亿美元,估值高达20亿美元,翻了8倍。

  可以看到,这8个70亿参数的小模型组合起来,直接在多个跑分上超过了多达700亿参数的Llama 2。

  英伟达高级研究科学家Jim Fan推测,Mistral可能已经在开发34Bx8E,甚至100B+x8E的模型了。而它们的性能,或许已达到了GPT-3.5/3.7的水平。

  这里粗略地介绍一下,所谓专家混合模型(MoE),就是把复杂的任务分割成一系列更小、更容易处理的子任务,每个子任务由一个特定领域的「专家」负责。

  1. 专家层:这些是专门训练的小型神经网络,每个网络都在其擅长的领域有着卓越的表现。

  2. 门控网络:这是MoE架构中的决策核心。它负责判断哪个专家最适合处理某个特定的输入数据。门控网络会计算输入数据与每个专家的兼容性得分,然后依据这些得分决定每个专家在处理任务中的作用。

  这些组件共同作用,确保适合的任务由合适的专家来处理。门控网络有效地将输入数据引导至最合适的专家,而专家们则专注于自己擅长的领域。这种合作性训练使得整体模型变得更多功能和强大。

  根据网友分析,Mistral 8x7B在每个token的推理过程中,只使用了2个专家。

  与GPT-4(网传版)相比,Mistral 8x7B具有类似的架构,但在规模上有所缩减:

  目前,已经有不少开源模型平台上线B,感兴趣的读者可以亲自试一试它的性能。

  无论是Mistral和Midjourney,显然已经破解了密码,接下来,要超越GPT-4只是问题。

  Raschka回答说,没错,但这仍旧能看作是一种健全性检测,因为指令微调经常会损害模型的知识,以及基于QA的性能。

  对于指令微调模型,添加MT-Bench和AlpacaEval等对话基准测试是有意义的。

  并且,Raschka也强调,自己只是假设Mistral MoE没有经过指令微调,现在急需一份paper。

  几个月前就有传言,说原始的Mistra 7B模型可能在基准数据集上进行了训练,那么这次的Mistral 8x7B是否也是如此?

  软件工程师Anton回答说,我们也并不能确定GPT-4没有在基准测试上训练。考虑到Mistral团队是前Llama的作者,想让他们能避免污染的问题。

  Raschka表示,非常希望研究界为这些LLM组织一场Kaggle竞赛,其中一定要有包含尚未使用数据的全新基准数据集。

  也有人讨论到,所以现在大模型的瓶颈究竟是什么?是数据,计算,还是一些神奇的Transformer微调?

  这些模型之间最大的区别,似乎只是数据集。OpenAI有人提到过,他们训练了大量的类GPT模型,与训练数据相比,架构更改对性能的影响不大。

  有人表示,对「7Bx8E=50B」的说法很感兴趣。是否是因为此处的「集成」是基于LoRa方法,从而节省了很多参数?

  (7x8=56,而6B对于LoRa方法来说节省得很少,主要是因为它可以重复使用预训练权重)

  有人已经期待,有望替代Transformer的全新Mamba架构能完成这项工作,这样Mistral-MoE就可以更快、更便宜地扩展。

  OpenAI科学家Karpathy的言语中,还暗戳戳嘲讽了一把谷歌Gemini的虚假视频演示。

  毕竟,比起提前剪辑好的视频demo,Mistral AI的宣传方式实在太朴素了。

  不过,对于Mitral MoE是第一个开源MoE大模型的说法,有人出来辟了谣。

  在Mistral放出这个开源的7B×8E的MoE之前,英伟达和谷歌也放出过其他完全开源的MoE。

  曾在英伟达实习的新加坡国立大学博士生Fuzhao Xue表示,他们的团队在4个月前也开源了一个80亿参数的MoE模型。

  由前Meta和谷歌研究人员创立,这家总部在巴黎的初创公司Mistral AI,仅凭6个月的时间逆袭成功。

  值得一提的是,Mistral AI已在最新一轮融资中筹集3.85亿欧元(约合4.15亿美元)。

  6个月前,该公司刚刚成立仅几周,员工仅6人,还未做出任何一个产品,却拿着7页的PPT斩获了1.13亿美元巨额融资。

  说来此公司的名头,可能并不像OpenAI名满天下,但是它的技术能够与ChatGPT相匹敌,算得上是OpenAI劲敌之一。

  Mistral AI坚信其技术以开源软件的形式共享,让任何人都能自由地复制、修改和再利用这些计算机代码。

  然而,在OpenAI、谷歌等竞争对手看来,开源会带来风险,原始技术可能被用于传播假信息和其他有害内容。

  Mistral AI背后开源理念的起源,离不开核心创始人,创办此公司的初心。

  人人皆知,Meta一直是推崇开源公司中的佼佼者。回顾2023年,这家科技巨头已经开源了诸多大模型,包括LLaMA 2、Code LLaMA等等。

  这不仅是姓名首字母简写,也恰好是团队正在开发的大语言模型(Large Language Model)的缩写。

  这场人工智能竞赛中,OpenAI、微软、谷歌等科技公司早已成为行业的佼佼者,并在LLM研发上上斥资数千亿美元。

  凭借充足的互联网数据养料,使得大模型能自主生成文本,从而回答问题、创作诗歌甚至写代码,让全球所有公司看到了这项技术的巨大潜力。

  因此OpenAI、谷歌在发布新AI系统前,都将花费数月时间,做好LLM的安全措施,防止这项技术散播虚假信息、仇恨言论及其他有害内容。

  Mistral AI的首席执行官Mensch表示,团队为LLM设计了一种更高效、更具成本效益的训练方法。而且模型的运行成本不到他们的一半。

  有人粗略估计,每月大约300万美元的Mistral 7B能够完全满足全球免费ChatGPT用户100%的使用量。

  他们对自家模型的既定目标,就是大幅击败ChatGPT-3.5,以及Bard。

  然而,很多AI研究者、科技公司高、还有风险投资家认为,真正赢得AI竞赛的将是——那些构建同样技术并免费提供给大众的公司,且不设任何安全限制。

  自互联网时代开启以来,欧洲鲜有在全球影响重大的科技公司,但在AI领域,Mistral AI让欧洲看到了取得进展的可能。

  去年12月,曾在OpenAI和DeepMind担任研究科学家创立了Perplexity AI,在最近完成了一轮7000万美元的融资,公司估值达到了5亿美元。

  我们坚信 AI 应该是开放源代码的。推动现代计算的许多主要技术都是开源的,包括计算机操作系统、编程语言和数据库。广泛分享人工智能底层代码是最安全的途径,因为这样做才能够有更多人参与审查这项技术,发现并解决潜在的缺陷。

  没有任何一个工程团队能发现所有问题。大型社区在构建更便宜、更快、更优、更安全的软件方面更有优势。

  创始人Mensch在采访中透露,公司目前还没有盈利,不过会在「年底前」发生改变。

  目前,Mistral AI已经研发了一个访问AI模型的新平台,以供第三方公司使用。