1: 2024/10/13(日) 08:17:42.36 ID:HAk7W1zD9.net
米AppleのAI研究者らは10月7日(現地時間)、「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」(LLMにおける数学的推論の限界を理解する)という論文を発表した。
この論文は、LLM(大規模言語モデル)が、本当に人間のように論理的に考えて問題を解けるのか、という疑問を検証している。結論としては、LLMは今のところ、表面的なパターンを真似て答えを出しているだけで、真の推論能力は持っていないと主張している。
研究者らは、これらの問題点を検証するために、「GSM-Symbolic」という新しいテスト方法を開発した。これは、LLMの数学的推論能力を評価するためのベンチマークデータセット「GSM8K」を改良し、問題の表現や数字を柔軟に変えられるようにしたもの。また、「GSM-NoOp」という、無関係な情報を含んだ問題集も作成し、LLMの推論能力を評価した。
実験の結果、OpenAIのGPT-4oやo1-previewなどのLLMは、他のLLMと比べて高い性能を示したが、それでもGSM-NoOpのような引っ掛け問題には弱く、真の推論能力を獲得するにはまだ課題があるとしている。
論文では、実験で明らかになった「弱点」を挙げている。
(続きは↓でお読みください)
ITmedia
2024年10月13日 08時00分
https://www.itmedia.co.jp/news/articles/2410/13/news070.html
この論文は、LLM(大規模言語モデル)が、本当に人間のように論理的に考えて問題を解けるのか、という疑問を検証している。結論としては、LLMは今のところ、表面的なパターンを真似て答えを出しているだけで、真の推論能力は持っていないと主張している。
研究者らは、これらの問題点を検証するために、「GSM-Symbolic」という新しいテスト方法を開発した。これは、LLMの数学的推論能力を評価するためのベンチマークデータセット「GSM8K」を改良し、問題の表現や数字を柔軟に変えられるようにしたもの。また、「GSM-NoOp」という、無関係な情報を含んだ問題集も作成し、LLMの推論能力を評価した。
実験の結果、OpenAIのGPT-4oやo1-previewなどのLLMは、他のLLMと比べて高い性能を示したが、それでもGSM-NoOpのような引っ掛け問題には弱く、真の推論能力を獲得するにはまだ課題があるとしている。
論文では、実験で明らかになった「弱点」を挙げている。
(続きは↓でお読みください)
ITmedia
2024年10月13日 08時00分
https://www.itmedia.co.jp/news/articles/2410/13/news070.html
2: 2024/10/13(日) 08:18:35.23 ID:9YXBFq8z0.net
まぁそうだわな
6: 2024/10/13(日) 08:19:53.45 ID:MZ86x3BN0.net
AppleはAI開発で完全に後塵を排してるからなあ
8: 2024/10/13(日) 08:20:24.91 ID:Ec1N9him0.net
AIとか言ったってビッグデータを材料に最適解探す参照型でしかないしな
9: 2024/10/13(日) 08:20:31.92 ID:wYGwtOzn0.net
人間にもない
11: 2024/10/13(日) 08:22:34.45 ID:QvxGOZYT0.net
ダメ出しされるとすぐ答えを改めるもんなw
いや正しい答えは正しいのよ
いや正しい答えは正しいのよ
13: 2024/10/13(日) 08:22:58.50 ID:XeIvUHPF0.net
>>9
ほんとそれ
ほんとそれ
14: 2024/10/13(日) 08:23:20.00 ID:wYGwtOzn0.net
>>8
人間なんかそれすらしてない
データすらない
人間なんかそれすらしてない
データすらない
15: 2024/10/13(日) 08:23:29.67 ID:V4Yu8QQ70.net
創った人すらAIがどうやって答えを導き出しているのか分からないらしいね
16: 2024/10/13(日) 08:24:37.50 ID:7bW7ZX9O0.net
AIで負けた企業の言い訳でした🤔
17: 2024/10/13(日) 08:25:07.33 ID:kvGFd3HN0.net
人間だって他人のモノマネばっかりやんけ(´・ω・`)
18: 2024/10/13(日) 08:25:32.56 ID:Q5vW/OyV0.net
人間の脳と同じように学習させてるならそうやろなとしか
21: 2024/10/13(日) 08:26:11.92 ID:/94w8OCn0.net
そりゃ「考えて」るわけじゃないからな
22: 2024/10/13(日) 08:26:46.94 ID:KJU4XGIn0.net
でもまあサルにどれだけ学習させてもサルだし限界は見えてきたっぽい感はあるな
28: 2024/10/13(日) 08:31:00.05 ID:GewkzsQH0.net
引っかけ問題に対応する思考を学べばo1以降のLLMならいける気がするがな
そういう思考過程を学習させたのが次のOrionじゃないの?
そういう思考過程を学習させたのが次のOrionじゃないの?
29: 2024/10/13(日) 08:31:12.64 ID:GvSRnW+X0.net
引っ掛け問題なんて大半の人間だって間違えるやん。
まあ、いずれにしてもllmがまともな仕事に使えるまでにはまだ何年かはかかるだろ
まあ、いずれにしてもllmがまともな仕事に使えるまでにはまだ何年かはかかるだろ
30: 2024/10/13(日) 08:31:14.26 ID:x1ebCPDX0.net
>>15
わからんから知能なのであって、
わかるならただのロジックだからね
わからんから知能なのであって、
わかるならただのロジックだからね
33: 2024/10/13(日) 08:32:59.77 ID:TvzHSB2Y0.net
>>29
ほとんどの人はもう使ってるし、今使えてない人はたぶん今後も無理だと思う
ほとんどの人はもう使ってるし、今使えてない人はたぶん今後も無理だと思う
36: 2024/10/13(日) 08:35:30.17 ID:x1ebCPDX0.net
>>33
人の使い方がわからない奴はAIの使い方もわからないらしいな
AIは無能とか使えねーって言ってる奴は出世させたら駄目な人間
人の使い方がわからない奴はAIの使い方もわからないらしいな
AIは無能とか使えねーって言ってる奴は出世させたら駄目な人間
39: 2024/10/13(日) 08:35:39.88 ID:OYNexLVC0.net
むしろ確率的に次に続く文章を予測しているだけで、よくここまで来たな
42: 2024/10/13(日) 08:36:45.07 ID:YLBewG610.net
今のやり方ってなんか力技って感じがするしな
43: 2024/10/13(日) 08:36:46.52 ID:y1wMjtTg0.net
結局、推論ができるなら未来予測ができるはず
結果が出る未来予測を避けてんだから、そりゃ出来てないだろ
結果が出る未来予測を避けてんだから、そりゃ出来てないだろ
45: 2024/10/13(日) 08:37:15.18 ID:u06AsdIz0.net
逆に言って、真の推論て何?
46: 2024/10/13(日) 08:37:48.22 ID:2CeHew5C0.net
真の推論なんて殆どの人間もできてないと思う
47: 2024/10/13(日) 08:37:56.02 ID:dtnj3eKj0.net
>>8
そんなでも碁とか将棋じゃ人間勝てなくなってるけどな
そんなでも碁とか将棋じゃ人間勝てなくなってるけどな
51: 2024/10/13(日) 08:39:20.77 ID:8QlzeAC50.net
>>46
実際人間すらまともにできてないことにダメ出ししてるようにしか見えないね
人間だって一人一人ではできないから集合知で判断してるわけで
実際人間すらまともにできてないことにダメ出ししてるようにしか見えないね
人間だって一人一人ではできないから集合知で判断してるわけで
87: 2024/10/13(日) 08:51:02.74 ID:KgUUdJxY0.net
プライベートではかなり活用してるけど
仕事では一切使えないっすわ
メール文作成ぐらいしか活用できねぇ
仕事では一切使えないっすわ
メール文作成ぐらいしか活用できねぇ
92: 2024/10/13(日) 08:53:09.13 ID:jABbKKld0.net
アイデア出しには役立つから使ってるけど、
正解を求めてこれ使うやつはアホだとしか思わない
正解を求めてこれ使うやつはアホだとしか思わない
96: 2024/10/13(日) 08:54:11.36 ID:Hdqbupdb0.net
分からんことを認めず捏造するのやめろ
98: 2024/10/13(日) 08:55:04.36 ID:Shfxomg30.net
つまりまだサルマネ段階ですね。 だから”人工的な知能”みたいなものだろう
99: 2024/10/13(日) 08:55:58.21 ID:JVb6D1GD0.net
>>92
マインドマップと生成AIの相性の良さは凄いよね
質問形式よりこっちの方が有用だと思った
マインドマップと生成AIの相性の良さは凄いよね
質問形式よりこっちの方が有用だと思った
102: 2024/10/13(日) 08:58:19.21 ID:wwGGjzDe0.net
>>92
間違ってても良いから自由に考えてくれって伝えてあげると楽しそうにブレインストーミングやってくれるな
間違ってても良いから自由に考えてくれって伝えてあげると楽しそうにブレインストーミングやってくれるな
103: 2024/10/13(日) 08:58:21.03 ID:+FXJy2i20.net
チャットGPT使ってみればすぐわかるよ
こんなもん何の役にもたたねぇ ってw
こんなもん何の役にもたたねぇ ってw
106: 2024/10/13(日) 09:00:30.03 ID:NSRGPEux0.net
ChatGPTみたいなもんが本当に生まれるなんて思いもしなかったよ
今やAI懐疑論者はほぼ絶滅した
今やAI懐疑論者はほぼ絶滅した
115: 2024/10/13(日) 09:05:39.62 ID:8UsH3XIt0.net
>>36
俺もそう思う……
能力が低く段取りもヘタクソでたいしたことをしていないヤツほどAIをろくに理解もせず否定する。
あと、自分の仕事が奪われる恐れのあるヤツも否定するw
そういうヤツとはまともに会話にならないw
俺もそう思う……
能力が低く段取りもヘタクソでたいしたことをしていないヤツほどAIをろくに理解もせず否定する。
あと、自分の仕事が奪われる恐れのあるヤツも否定するw
そういうヤツとはまともに会話にならないw
118: 2024/10/13(日) 09:07:33.16 ID:8UsH3XIt0.net
>>103
その程度の使い方しかしないからだろ。
その程度の使い方しかしないからだろ。
119: 2024/10/13(日) 09:08:08.86 ID:8QlzeAC50.net
>>36
具体的に分かりやすい指示できずにパワハラ指示だけなやつとかを洗い出す判定ツールとしてはいいかもね
具体的に分かりやすい指示できずにパワハラ指示だけなやつとかを洗い出す判定ツールとしてはいいかもね
457: 2024/10/13(日) 12:38:38.05 ID:2XX6WYmM0.net
>>47
あれは過去の棋譜全記憶だからズルだよ
あれは過去の棋譜全記憶だからズルだよ
495: 2024/10/13(日) 13:12:58.45 ID:RgmUoZZJ0.net
>>18
人間の脳と同じように学習させていない。
もちろん今後はそういうタイプが主流になる可能性もあるので否定はしないが
人間の脳と同じように学習させていない。
もちろん今後はそういうタイプが主流になる可能性もあるので否定はしないが
515: 2024/10/13(日) 13:23:14.21 ID:fyLNJ31X0.net
>>47
それがパターン化した物まねだ
それがパターン化した物まねだ
[ad_fluct4][記事中固定リンク4]
599: 2024/10/13(日) 14:16:02.68 ID:+9vwfqEA0.net
>>9
人間の行動もパターン学習の賜物だよな
人間の行動もパターン学習の賜物だよな
634: 2024/10/13(日) 14:36:43.16 ID:B9i6CInh0.net
>>6
論文は正しいんだろうけど 「それがどうした」ってことだろう
便利に使えることには変わりない
Appleも取り込まざるを得なくなるよ
論文は正しいんだろうけど 「それがどうした」ってことだろう
便利に使えることには変わりない
Appleも取り込まざるを得なくなるよ
1000: 2024/10/13(日) 17:58:51.42 ID:J0LEcU5E0.net
>>14
人間も参照して推論する場合もあるけど思考実験もできるよな。
これはAIにはできないんじゃないかな。
こうやったらこうなるから、ここをこう変えたらこうなる?
みたいな
人間も参照して推論する場合もあるけど思考実験もできるよな。
これはAIにはできないんじゃないかな。
こうやったらこうなるから、ここをこう変えたらこうなる?
みたいな