最近、SuperCLUEは10月の最新の中国大型モデルリストを発表しました。 GPT4 は引き続きリストを支配し、1 位にランクされました。 Vivoが自社開発した大型モデルvivoLMは70.74点で4位となり、国産大型モデルの中では1位となった。 vivoLM に続いて、Dark Side of the Moon の Moonshot、Baidu の Wenxin Yiyan 4.0、SenseTime の SenseChat 3.0 が続きます。 SuperCLUE は主に、専門知識とスキル、言語理解と生成、AI エージェント、セキュリティという 4 つの主要な能力次元における数百のタスクを含む、中国語能力における大規模モデルのパフォーマンスを検査します。 今回の評価では、国内外の代表的な汎用大規模言語モデル20個を選定しました。 9月と比較すると、Dark Side of the MoonのMoonshot、BaiduのWenxin Yiyan 4.0、iFlytekのSpark V3.0、vivoのvivoLM、Alibaba CloudのQwen-14Bが追加されました。 このテストの評価データセットは、606 個の複数ラウンドの短答式質問と 3,148 個の客観的な多肢選択式質問を含む 3,754 個の新しいテスト質問で構成されています。最終的に、総合ランキングを含む5つの主要ランキングが選出されました。 評価結果によると、国内一流の大型モデル構造は基本的に形成された。中国の上位数社の大規模モデルはすでに GPT3.5 に非常に近いですが、GPT4 にはまだ遠いです。 GPT4 をベンチマークしたり、競合したりする兆候はありません。 SuperCLUEはまた、今年の第4四半期にGPT3.5をあらゆる面で上回る汎用大型モデルが登場すると考えていますが、GPT4をいかに上回るかが、中国のすべてのモデル研究開発機関が直面する新たな課題となるでしょう。 ジクアイテクノロジー |
<<: カナリス:東南アジアのスマートフォン市場は2024年第3四半期に2,500万台に達し、前年比15%増となる見込み
>>: 「サイレント低酸素症」が画面いっぱいに!血中酸素濃度計や酸素濃縮器を購入する必要はありますか?スマートウォッチは「代替品」になり得るか?
ComScore が発表したオンラインおよびモバイル バンキングに関するレポートによると、ソーシャル...
多くの白内障患者は手術前に「白内障手術を受ける際に何に注意すればよいのか?」という疑問を抱きます。白...
トイレに関しては、多くの人が少し嫌悪感を抱いていると思いますが、トイレは使わなければならないものです...
スマートフォンの普及に伴い、携帯電話のセキュリティを保護するためにさまざまなパスワードを設定すること...
保存卵の主な原料はアヒルの卵です。新鮮で滑らか、そしてわずかに塩味があり、色、香り、味が独特です。美...
Apple のラップトップでは、時間の経過とともにシステム上の問題が発生したり、動作が遅くなったりす...
新型コロナウイルスの影響により、多くの場所で仕事がある程度影響を受けており、特に流行がより深刻な地域...
戦国BASARA弐 - センコクバサラ ツー - の全方位的評測と推薦 ■作品概要 「戦国BASAR...
Win10 システムは最新の Windows オペレーティング システムであり、その安定性と使いやす...
セルロースから作られた製品は、プラスチック、電気工学、科学研究機器にも広く使用されています。食品に含...
30代の若い男性が高血圧の問題について華子さんに相談していた。彼は血圧が不安定で、さまざまな降圧剤を...
リンパ腫はリンパ組織から発生する悪性腫瘍です。小児リンパ腫は、非ホジキンリンパ腫とホジキンリンパ腫の...
ケケトゥオハイは豊かな自然景観を有し、国内外から多くの観光客が訪れます。克克托海の周辺地域は鉱物資源...
毎年旧暦の5月初めになると、中国の各家庭ではもち米を浸し、竹の葉を洗い、団子を作ります。この習慣は中...
ピアノを見たことがある人は多いと思います。実際に見たことがなくても、テレビでは必ず見たことがあるはず...