环球新动态：开源大模型新SOTA！支持免费商用，比LLaMA65B小但更强，基于1万亿token

首页 > 滚动 > > 内容

环球新动态：开源大模型新SOTA！支持免费商用，比LLaMA65B小但更强，基于1万亿token

发表时间：2023-05-29 17:08:31 来源：量子位

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

【资料图】

号称“史上最强的开源大语言模型”出现了。

它叫Falcon（猎鹰），参数400亿，在1万亿高质量token上进行了训练。

最终性能超越650亿的LLaMA，以及MPT、Redpajama等现有所有开源模型。

一举登顶HuggingFace OpenLLM全球榜单：

除了以上成绩，Falcon还可以只用到GPT-3 75%的训练预算，性能就显著超越GPT-3，且推理阶段的计算也只需GPT-3的1/5。

据悉，这只半路杀出来的“猎鹰”来自阿联酋阿布扎比技术创新研究所(TII)。

有意思的是，作为一个开源模型，TII在Falcon上推出了一个相当特别的授权许可证要求：

可以商业使用，但如果用它产生的收益超过了100万美元，就要被收取10%的授权费。

一时之间，争议满满。

史上最强开源LLM

据介绍，Falcon属于自回归解码器模型。

它使用自定义工具构建，包含一个独特的数据管道，该管道从公开网络中提取训练数据。

——Falcon宣称它“特别注重数据质量”，从公网上抓取内容构建好Falcon的初始预训练数据集后，再使用CommonCrawl转储，进行大量过滤（包括删除机器生成的文本和成人内容）并消除重复数据，最终得到一个由近5万亿个token组成的庞大预训练数据集。

为了扩大Falcon的能力，该数据集随后又加进了很多精选语料，包括研究论文和社交媒体对话等内容。

除了数据把关，作者还对Falcon的架构进行了优化以提升性能，但细节没有透露，相关论文将很快发布。

据悉，Falcon一共耗费两个月，在AWS的384个GPU上训练而成。

最终，Falcon一共包含4个版本：

Falcon-40B：在1万亿token上进行训练，并使用精选语料库进行了增强；主要接受英语、德语、西班牙语、法语的训练，不会中文。Falcon-40B-Instruct：在Baize上进行了微调，使用FlashAttention和多查询对推理架构进行了优化，是一个即用型聊天模型。Falcon-7B：参数70亿，在1.5万亿token上进行了训练，作为一个原始的预训练模型，还需要用户针对大多数用例进一步微调。Falcon-RW-7B：参数70亿，在3500亿token上进行训练，该模型旨在用作“研究神器”，单独研究各种在网络数据进行训练的影响。开源许可证引争议

Falcon作为开源模型，已公开源代码和模型权重，可供研究和商业使用。

这对业界来说是一个好消息，毕竟像Meta的羊驼家族都只能用于研究目的，且还得填表格申请才行，很是麻烦。

但Falcon还是引起了争议。

这主要是因为它那“超过100万美元的任何商业应用都要收10%的授权费”的许可证要求。

据悉，该许可证部分基于Apache License 2.0协议，该协议对商业应用友好，使用者修改代码只需满足相关需求即可将新作品作为开源或商业产品发布或销售。

有不少网友认为，既然Falcon宣称开源，还要收费，就违背了Apache License Version 2.0的宗旨，不属于真正的开源。

并有人称这是一种“有损Apache软件基金会来之不易的名誉”的做法。

有网友已经跑到TII的官方账号下“讨要说法”：

你自己能解释一下这是如何符合“开源”的定义吗？

目前，官方并没有回复。

你认为这种做法究竟算不算开源呢？

标签：

环球新动态：开源大模型新SOTA！支持免费商用，比LLaMA65B小但更强，基于1万亿token

环球新动态：开源大模型新SOTA！支持免费商用，比LLaMA65B小但更强，基于1万亿token

《合同行政监督管理办法》7月1日起施行

今日时讯：布轮特福德成赛季唯一双杀曼城球队 英超收官曼城0-1布伦特福德89分结束赛季小蜜蜂无缘欧战双杀蓝月

戚继光抗倭时日本是什么时代？戚继光抗倭发生在什么时候？

爆发！4月国产轿车销量榜：9款破万，逸动第4，帝豪、艾瑞泽5前10

真白菜价！64GB朗科存储卡跌至16.9元_每日速看

百吋巨屏市场迎来“洗牌”！海信电视E8征战618“高端局”

环球动态:《宝可梦》游戏27年累积发售4.5亿套！每17个人就有1个玩过宝可梦

2023年5月28日高效复合碱价格最新行情预测|今日热文

全球速看：安徽新增及更新公务用车原则上全部购置新能源汽车

“洋记者”探访中关村论坛展览：体验前沿科技_环球视点

《长月烬明》冥夜拯救澹台烬也是自救，般若浮生的前奏结尾别忽略

天天视点！江苏高职院校大全排名单 江苏十大公办高职院校

全球热推荐：百家讲坛易经全集在线观看（百家讲坛易经全集）

苏芮的奉献简谱_苏芮的奉献歌词？|世界最资讯

邓州：男子杀人潜逃25年终落网！ 当前热闻

宣恩县旅游业发展奖励办法（关于宣恩县旅游业发展奖励办法介绍）

【环球聚看点】女王的手术刀 有小说吗知乎_女王的手术刀 有小说吗

格鲁尔掉落_格鲁尔

对话LPL主持刘航：高压力、高竞争是电竞主持的标签

高考倒计时10天丨乘风破浪，眉山为你加油！

世界快消息！今日故园东望路漫漫双袖龙钟泪不干是什么诗

天天微资讯！牟鹏飞贡献神扑，黄政宇助攻刘彬彬破门，山东泰山1-0青岛海牛

今日快看!化疗会扩散癌细胞？这5类人，千万不要做化疗

天津鲜花预订（天津鲜花网）_环球热闻

歌手的和音是什么意思（歌手的和音是什么）|天天热闻

草木纹身贴怎么洗掉（纹身贴怎么洗掉） 全球观焦点

气温升高雨水不歇！未来一周多阵雨，体感略“乌苏”_全球快讯

环球观焦点：贵州日报拍了拍你，2023数博会特别报道请查收

学区开展“防溺水”安全教育系列 宣传活动 每日热议

知识智库 什么是员工关系

成品油价格持续飙升 近20家新能源车企上调售价

广西百色宣布解除“不进不出”管控措施

2月15日零时起 苏州市关闭15个高速公路入口

“95后”羌族货运员的春运：为中欧班列尽一份力

百科全书 什么是干电池

广西靖西市两地调整为中风险地区

苏州市多地调整为中风险地区

云南2月14日新增无症状感染者6例

实体书店为什么接二连三遭遇危机？生存之道在哪

小于号怎么写 小于号书写方法

一言不合放火烧家 任性女子被判刑

新疆阿克苏地区库车市发生3.4级地震 震源深度7千米

应急管理部：1月全国接报生产安全事故死亡超1100人

江苏省省长：苏州市要把疫情防控作为头等大事、第一要务

今日时讯：布轮特福德成赛季唯一双杀曼城球队英超收官曼城0-1布伦特福德89分结束赛季小蜜蜂无缘欧战双杀蓝月

天天视点！江苏高职院校大全排名单江苏十大公办高职院校

邓州：男子杀人潜逃25年终落网！当前热闻

【环球聚看点】女王的手术刀有小说吗知乎_女王的手术刀有小说吗

草木纹身贴怎么洗掉（纹身贴怎么洗掉）全球观焦点

学区开展“防溺水”安全教育系列宣传活动每日热议

知识智库什么是员工关系

成品油价格持续飙升近20家新能源车企上调售价

2月15日零时起苏州市关闭15个高速公路入口

百科全书什么是干电池

小于号怎么写小于号书写方法

一言不合放火烧家任性女子被判刑

新疆阿克苏地区库车市发生3.4级地震震源深度7千米