首 页 | 要 闻 | 电 商 | 互联网 | 业 界 | 家 电 | 智 能 | 汽 车 | 手 机 | 游 戏 | 动 漫 | 云计算
科 普 | 创 业 | 数 码 | 信息化 | 商 讯 | 产 经 | 商 业 | 财 经 | 移动化 | 大数据 | 中小企业
当前位置 > 主页 > 智能 >
3月初,Anthropic宣布推出Claude 3大模型系列
时间: 2024-04-01 09:54 来源:鹰瞻财经HawkInsight
【字号 】 【RSS订阅】 【打印】 【关闭

  众所周知,OpenAI旗下的GPT-4是现如今世界上最顶尖的大模型(LLM),但就在本周,有关测试表明,GPT-4“霸主”的地位已经被夺走了。

  这个超越GPT-4的大模型叫Claude 3。

  本周,人工智能初创企业Anthropic旗下的Claude 3 Opus在Chatbot Arena(一个测试和比较不同人工智能模型有效性的网站)的最新排名中,首次超越GPT-4,位列排行榜第一

  3月初,Anthropic宣布推出Claude 3大模型系列。该系列包括三个型号,按照性能从弱到强分别是Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。而在Chatbot Arena最新的排行榜上,Claude 3系列三个大模型均闯入TOP 10。

  此前,根据Anthropic介绍,其最智能的模型Claude 3 Opus在人工智能系统的大多数常见评估基准上都优于同行,包括本科水平专家知识(MMLU)、研究生水平专家推理(GPQA)、基础数学 (GSM8K) 等。官方称:“Claude 3 Opus在复杂任务上表现出接近人类水平的理解力和流畅性。”

  当时Anthropic就表示,在多项指标上,Claude 3已经展现出接近或者优于GPT-4或是Gemini 1.0的性能。此次第三方的测试结果再次佐证了Anthropic的这句话。

  Chatbot Arena于去年5月推出,由大型模型系统组织(Large Model Systems Organization,简称“LMYSY Org”)创建。LMYSY Org是由加州大学伯克利分校的学生和教师创立的开放研究组织。创建Chatbot Arena的目的是帮助人工智能研究人员和专业人士了解两个不同的人工智能LLM在接受相同提示的挑战时表现如何。

  Chatbot Arena是一个众包平台,这意味着任何人都可以在上面进行测试。在Chatbot Arena的聊天页面,包含了多达74种不同AI模型,包括Claude 3系列、OpenAI的GPT-4、谷歌的Gemini和META的Llama 2等等。

  当有用户进行测试时,系统会要求用户在底部的提示框中输入问题。然后会有两个匿名模型驱动的聊天机器人来回答用户的问题,这两个模型被简单地标记为模型A和模型B。

  在看完两个回答后,系统会要求用户进行评价。用户可以选择哪个更好,可以对它们进行同等评价,也可以表示两个都不喜欢。提交评分后,系统才会告诉用户刚才两个聊天机器人分别是由什么大模型来驱动的。

  LMYSY Org会统计网站用户提交的投票,再将总数汇总到排行榜上,显示每个LLM的表现。据了解,自推出以来,已有超过40万名用户成为Chatbot Arena的裁判,最新一轮排名又吸引了7万名用户加入。

  根据最新排行榜,Claude 3 Opus共获得33,250票,第二名GPT-4-1106-preview获得54,141票。但获得的评价多,不意味着更强。为了对LLM进行评级,排行榜采用的是Elo 排名系统,这是国际象棋等游戏中常用的一种方法,衡量玩家在某些比赛中与其他玩家相比的相对实力。在使用Elo 排名系统后,Claude 3 Opus在“模型强度的置信区间”上以总分1,253在最新的排名中斩获第一,险胜GPT-4-1106-preview的1,251分

  其中,在“对所有其他模型的平均胜率(假设抽样均匀且无平局)”一项上,Claude 3 Opus是唯一一个胜率过0.7的

  在最新排名中,进入TOP 10的其他LLM包括谷歌的Gemini Pro、Mistral-large-2402和Qwen1.5-72B-Chat等。

  随着GPT-4痛失第一的宝座,Claude 3系列模型均进入前10名,再加上Claude 3系列中最弱Claude 3 Haiku击败 GPT-4 0613,Anthropic随即在整个AI圈引起了轰动。

  软件开发者Nick Dobos在社交媒体上发文直言道:“国王已死。安息吧,GPT-4。”他表示,Claude 3 Haiku击败 GPT-4 0613是“疯狂的”,因为“它是如此便宜和快速”

  就连LMYSY Org官方也发文称:“Claude-3 Haiku给所有人留下了深刻的印象,甚至根据我们的用户偏好达到了 GPT-4级别!其速度、功能和上下文长度目前在市场上是无与伦比的。

【北广科技讯-www.bgkjx.com
    3月初,Anthropic,宣布,推出,Claude,大模型
    分享组件,请点击:
    推荐新闻:
    ·苹果 Vision Pro 头显单绑带戴 20 分钟“感到疼痛”、沉浸体验优秀
    ·Instagram被曝将引入AI聊天机器人 拥有30种人物性格
    ·盖茨提ChatGPT三大用途:充当辅导老师、医疗顾问和写诗
    ·三星可穿戴式机器人将于年底上市 可提高用户步行速度
    ·华为入局网约车 已在北京、深圳与南京测试“Petal出行”应用
    ·三星拟未来三年在半导体和人工智能等领域投2050亿美元
    ·三星无限期延长LCD面板生产 此前曾拟年底停产
    ·百度创造自动驾驶“中国速度” 将设全球实验室
    新闻要闻>>
    ·华为Mate70系列将于9月份正式发布,并
    ·讣告一出,浙商震动
    ·马斯克的X公司P2P支付服务,离“万能
    ·国务院任命陆磊为中国人民银行副行长
    ·视频透露出的紧张与压抑
    ·深入研究可持续、有效益的运营机制,
    ·新增内设机构有何职能?理财、信托公
    ·“新中式”的冰与火,加盟商的笑与泪
    ·周鸿祎:垂直大模型深度定制将成挑战
    ·韩国股市将于9月28日至10月3日休市
    热点财经 >>
    ·“AI手机 全面布局”
    ·Facebook母公司Meta 市值持续上涨
    ·NVIDIA依然没有放弃中国市场
    ·7600万美元,购买了一个占地164.7万平方
    ·浙江省标准化研究院牵头制定的《数据
    ·柯伊伯计划将全面推进
    ·(ITC)发布裁定停止向美国进口部分苹
    ·高通的命运与智能手机行业息息相关
    ·Windows Insider 计划 9 周年:微软发布新
    ·森海塞尔推出全新电视语音增强耳机
    科技生活>> ;
    ·欧美央行步调趋同,金价维持偏强运行
    ·9个煤矿同时挂牌,卖家背景和项目名
    ·金磊持有长春高新3464.57万股股份
    ·太盟投资集团(PAG)与大连万达商管集
    ·过去贵到飞起的合资车,现在呢?
    ·央行发布了2023年第三季度中国货币政
    ·科创100指数兼顾中小盘风格
    ·科技赛道依然是多家公募重点布局的方
    ·美国9月职位空缺意外连续第二个月攀
    ·小鹏汽车1024干货满满