【AI】「現在のLLMに真の推論は困難」──Appleの研究者らが論文発表 [香味焙煎★]

1: 2024/10/13(日) 08:17:42.36 ID:HAk7W1zD9.net

　米AppleのAI研究者らは10月7日（現地時間）、「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」（LLMにおける数学的推論の限界を理解する）という論文を発表した。

　この論文は、LLM（大規模言語モデル）が、本当に人間のように論理的に考えて問題を解けるのか、という疑問を検証している。結論としては、LLMは今のところ、表面的なパターンを真似て答えを出しているだけで、真の推論能力は持っていないと主張している。

　研究者らは、これらの問題点を検証するために、「GSM-Symbolic」という新しいテスト方法を開発した。これは、LLMの数学的推論能力を評価するためのベンチマークデータセット「GSM8K」を改良し、問題の表現や数字を柔軟に変えられるようにしたもの。また、「GSM-NoOp」という、無関係な情報を含んだ問題集も作成し、LLMの推論能力を評価した。

　実験の結果、OpenAIのGPT-4oやo1-previewなどのLLMは、他のLLMと比べて高い性能を示したが、それでもGSM-NoOpのような引っ掛け問題には弱く、真の推論能力を獲得するにはまだ課題があるとしている。

　論文では、実験で明らかになった「弱点」を挙げている。

（続きは↓でお読みください）

ITmedia
2024年10月13日 08時00分
https://www.itmedia.co.jp/news/articles/2410/13/news070.html

2: 2024/10/13(日) 08:18:35.23 ID:9YXBFq8z0.net

まぁそうだわな

6: 2024/10/13(日) 08:19:53.45 ID:MZ86x3BN0.net

AppleはAI開発で完全に後塵を排してるからなあ

8: 2024/10/13(日) 08:20:24.91 ID:Ec1N9him0.net

AIとか言ったってビッグデータを材料に最適解探す参照型でしかないしな

9: 2024/10/13(日) 08:20:31.92 ID:wYGwtOzn0.net

人間にもない

11: 2024/10/13(日) 08:22:34.45 ID:QvxGOZYT0.net

ダメ出しされるとすぐ答えを改めるもんなw
いや正しい答えは正しいのよ

13: 2024/10/13(日) 08:22:58.50 ID:XeIvUHPF0.net

>>9
ほんとそれ

14: 2024/10/13(日) 08:23:20.00 ID:wYGwtOzn0.net

>>8
人間なんかそれすらしてない
データすらない

15: 2024/10/13(日) 08:23:29.67 ID:V4Yu8QQ70.net

創った人すらAIがどうやって答えを導き出しているのか分からないらしいね

16: 2024/10/13(日) 08:24:37.50 ID:7bW7ZX9O0.net

AIで負けた企業の言い訳でした🤔

17: 2024/10/13(日) 08:25:07.33 ID:kvGFd3HN0.net

人間だって他人のモノマネばっかりやんけ(´・ω・｀)

18: 2024/10/13(日) 08:25:32.56 ID:Q5vW/OyV0.net

人間の脳と同じように学習させてるならそうやろなとしか

21: 2024/10/13(日) 08:26:11.92 ID:/94w8OCn0.net

そりゃ「考えて」るわけじゃないからな

22: 2024/10/13(日) 08:26:46.94 ID:KJU4XGIn0.net

でもまあサルにどれだけ学習させてもサルだし限界は見えてきたっぽい感はあるな

28: 2024/10/13(日) 08:31:00.05 ID:GewkzsQH0.net

引っかけ問題に対応する思考を学べばo1以降のLLMならいける気がするがな
そういう思考過程を学習させたのが次のOrionじゃないの？

29: 2024/10/13(日) 08:31:12.64 ID:GvSRnW+X0.net

引っ掛け問題なんて大半の人間だって間違えるやん。
まあ、いずれにしてもllmがまともな仕事に使えるまでにはまだ何年かはかかるだろ

30: 2024/10/13(日) 08:31:14.26 ID:x1ebCPDX0.net

>>15
わからんから知能なのであって、
わかるならただのロジックだからね

33: 2024/10/13(日) 08:32:59.77 ID:TvzHSB2Y0.net

>>29
ほとんどの人はもう使ってるし、今使えてない人はたぶん今後も無理だと思う

36: 2024/10/13(日) 08:35:30.17 ID:x1ebCPDX0.net

>>33
人の使い方がわからない奴はAIの使い方もわからないらしいな
AIは無能とか使えねーって言ってる奴は出世させたら駄目な人間

39: 2024/10/13(日) 08:35:39.88 ID:OYNexLVC0.net

むしろ確率的に次に続く文章を予測しているだけで、よくここまで来たな

42: 2024/10/13(日) 08:36:45.07 ID:YLBewG610.net

今のやり方ってなんか力技って感じがするしな

43: 2024/10/13(日) 08:36:46.52 ID:y1wMjtTg0.net

結局、推論ができるなら未来予測ができるはず
結果が出る未来予測を避けてんだから、そりゃ出来てないだろ

45: 2024/10/13(日) 08:37:15.18 ID:u06AsdIz0.net

逆に言って、真の推論て何？

46: 2024/10/13(日) 08:37:48.22 ID:2CeHew5C0.net

真の推論なんて殆どの人間もできてないと思う

47: 2024/10/13(日) 08:37:56.02 ID:dtnj3eKj0.net

>>8
そんなでも碁とか将棋じゃ人間勝てなくなってるけどな

51: 2024/10/13(日) 08:39:20.77 ID:8QlzeAC50.net

>>46
実際人間すらまともにできてないことにダメ出ししてるようにしか見えないね
人間だって一人一人ではできないから集合知で判断してるわけで

87: 2024/10/13(日) 08:51:02.74 ID:KgUUdJxY0.net

プライベートではかなり活用してるけど
仕事では一切使えないっすわ
メール文作成ぐらいしか活用できねぇ

92: 2024/10/13(日) 08:53:09.13 ID:jABbKKld0.net

アイデア出しには役立つから使ってるけど、
正解を求めてこれ使うやつはアホだとしか思わない

96: 2024/10/13(日) 08:54:11.36 ID:Hdqbupdb0.net

分からんことを認めず捏造するのやめろ

98: 2024/10/13(日) 08:55:04.36 ID:Shfxomg30.net

つまりまだサルマネ段階ですね。　だから”人工的な知能”みたいなものだろう

99: 2024/10/13(日) 08:55:58.21 ID:JVb6D1GD0.net

>>92
マインドマップと生成AIの相性の良さは凄いよね
質問形式よりこっちの方が有用だと思った

102: 2024/10/13(日) 08:58:19.21 ID:wwGGjzDe0.net

>>92
間違ってても良いから自由に考えてくれって伝えてあげると楽しそうにブレインストーミングやってくれるな

103: 2024/10/13(日) 08:58:21.03 ID:+FXJy2i20.net

チャットGPT使ってみればすぐわかるよ
こんなもん何の役にもたたねぇ　ってｗ

106: 2024/10/13(日) 09:00:30.03 ID:NSRGPEux0.net

ChatGPTみたいなもんが本当に生まれるなんて思いもしなかったよ
今やAI懐疑論者はほぼ絶滅した

115: 2024/10/13(日) 09:05:39.62 ID:8UsH3XIt0.net

>>36
俺もそう思う……
能力が低く段取りもヘタクソでたいしたことをしていないヤツほどＡＩをろくに理解もせず否定する。
あと、自分の仕事が奪われる恐れのあるヤツも否定するｗ

そういうヤツとはまともに会話にならないｗ

118: 2024/10/13(日) 09:07:33.16 ID:8UsH3XIt0.net

>>103
その程度の使い方しかしないからだろ。

119: 2024/10/13(日) 09:08:08.86 ID:8QlzeAC50.net

>>36
具体的に分かりやすい指示できずにパワハラ指示だけなやつとかを洗い出す判定ツールとしてはいいかもね

457: 2024/10/13(日) 12:38:38.05 ID:2XX6WYmM0.net

>>47
あれは過去の棋譜全記憶だからズルだよ

495: 2024/10/13(日) 13:12:58.45 ID:RgmUoZZJ0.net

>>18
人間の脳と同じように学習させていない。
もちろん今後はそういうタイプが主流になる可能性もあるので否定はしないが

515: 2024/10/13(日) 13:23:14.21 ID:fyLNJ31X0.net

>>47
それがパターン化した物まねだ

[ad_fluct4][記事中固定リンク4]

599: 2024/10/13(日) 14:16:02.68 ID:+9vwfqEA0.net

>>9
人間の行動もパターン学習の賜物だよな

634: 2024/10/13(日) 14:36:43.16 ID:B9i6CInh0.net

>>6
論文は正しいんだろうけど「それがどうした」ってことだろう
便利に使えることには変わりない
Appleも取り込まざるを得なくなるよ

1000: 2024/10/13(日) 17:58:51.42 ID:J0LEcU5E0.net

>>14
人間も参照して推論する場合もあるけど思考実験もできるよな。
これはAIにはできないんじゃないかな。
こうやったらこうなるから、ここをこう変えたらこうなる？
みたいな

転載元:http://2ch.sc/test/read.cgi/newsplus/1728775062

なんでドラクエって「魔法防御」作らねーの？

2026/2/19

三國志ライクの国盗りシミュレーションゲームが三國志しかない理由

2026/2/20

【悲報】松友人志、たった4回のツイートで人生の全てを失うwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww

2024/1/14

すまん飲み会の帰りなんだけど

2023/6/24

新人タクシードライバーワイ(27)、今月の給料70万とかになりそう

2025/12/28

スーツ着ない仕事ｗｗｗｗｗｗｗｗｗｗ

2024/7/20

【ゲーム】リマスター版「FFタクティクス」のPC版が好スタート　ボイスの追加や便利機能が評価 [ネギうどん★]

2025/10/5

【自動車】5ドアの新型ジムニー、発表から5日で受注停止　計画の3倍超の注文 [牛乳トースト★]

2025/2/27