最近、SuperCLUEは10月の最新の中国大型モデルリストを発表しました。 GPT4 は引き続きリストを支配し、1 位にランクされました。 Vivoが自社開発した大型モデルvivoLMは70.74点で4位となり、国産大型モデルの中では1位となった。 vivoLM に続いて、Dark Side of the Moon の Moonshot、Baidu の Wenxin Yiyan 4.0、SenseTime の SenseChat 3.0 が続きます。 SuperCLUE は主に、専門知識とスキル、言語理解と生成、AI エージェント、セキュリティという 4 つの主要な能力次元における数百のタスクを含む、中国語能力における大規模モデルのパフォーマンスを検査します。 今回の評価では、国内外の代表的な汎用大規模言語モデル20個を選定しました。 9月と比較すると、Dark Side of the MoonのMoonshot、BaiduのWenxin Yiyan 4.0、iFlytekのSpark V3.0、vivoのvivoLM、Alibaba CloudのQwen-14Bが追加されました。 このテストの評価データセットは、606 個の複数ラウンドの短答式質問と 3,148 個の客観的な多肢選択式質問を含む 3,754 個の新しいテスト質問で構成されています。最終的に、総合ランキングを含む5つの主要ランキングが選出されました。 評価結果によると、国内一流の大型モデル構造は基本的に形成された。中国の上位数社の大規模モデルはすでに GPT3.5 に非常に近いですが、GPT4 にはまだ遠いです。 GPT4 をベンチマークしたり、競合したりする兆候はありません。 SuperCLUEはまた、今年の第4四半期にGPT3.5をあらゆる面で上回る汎用大型モデルが登場すると考えていますが、GPT4をいかに上回るかが、中国のすべてのモデル研究開発機関が直面する新たな課題となるでしょう。 ジクアイテクノロジー |
<<: カナリス:東南アジアのスマートフォン市場は2024年第3四半期に2,500万台に達し、前年比15%増となる見込み
>>: 「サイレント低酸素症」が画面いっぱいに!血中酸素濃度計や酸素濃縮器を購入する必要はありますか?スマートウォッチは「代替品」になり得るか?
ネットワーク技術の急速な発展に伴い、スイッチとルーターは現代のネットワーク ネットワーキングに欠かせ...
休暇の延長に伴い、ますます多くの映画やテレビドラマが上映されるようになる。最近、リン・ユン、ソン・ウ...
人民日報オンライン、北京、6月10日(記者:崔元元) 10日、国家衛生健康委員会はわが国における自発...
ダイエット中の女性の友人の多くは、時間通りに食事をせず、お腹を満たすためにリンゴだけを食べていること...
ブラッドオレンジは、ビタミンを最大限に摂取するために皮をむいてそのまま食べるのがよいでしょう。ジャム...
太極拳は伝統的な哲学の影響を受けており、哲学的で弁証法的な思考に満ちています。哲学的な観点から見ると...
新型コロナウイルスに感染したら再感染するのでしょうか?再感染する可能性が高いのはどのグループの人たち...
現代社会において、コンピュータは私たちの生活に欠かせないものとなっています。作業効率が向上し、コンピ...
二十四節気の「立秋」は過ぎ、夏が去り涼しくなり秋の始まりを意味しますが、秋の気候が到来したことを意味...
消毒剤には多くの種類があることは誰もが知っていますが、ブルームーン 84 消毒剤は非常に一般的な消毒...
ドリアンは純粋な熱帯作物であり、その季節的特徴は、ドリアンが生育する地域の毎日の平均気温が 22°C...
少し前に、24歳の若者が夜更かしを長時間続けたために死亡したという話が話題になった。夜更かしに関して...
数日前、43歳のホー・キヨンさんはTVBの番組「よく寝て、よく起きる」のインタビューに出演し、早く寝...
スーパー ヅガン - 90年代のギャグアニメの傑作 1992年から1993年にかけて放送された「スー...
『パンツ コインちゃん』:子供から大人まで楽しめるアニメの魅力 1. 作品概要 『パンツ コインちゃ...