高橋一行
このシリーズの最終回である。今まで身体というテーマで書き散らしてきたのだが、それらをまとめて本にしたいと考えている。アドバイスを賜れば幸いである。
すでにメタバースの身体論を書いている(注1)。その際にロボットの身体にも言及しているのだが、今回あらためてロボットの身体の特徴について書きたいと思う。というのも、Chat GPTという身体を持たない人工知能が急速に普及しているので、それとロボットはどう異なるのか、確認したいと思ったからである。
一体、Chat GPTがその性能を急速に進化させたことと、広範囲に普及したということと、そのふたつの点で、2023年は特筆すべき年であると思う。その成功の秘密は大規模言語モデルと言われる、人工知能の持つ独特な言語の習得方法にある。そのことを理解するために、もうひとつの人工知能であるロボットのそれと比較したい。
さらにこのシリーズで私がこだわってきたのは、当然のことながら人の身体と言語の関係である。つまりまずはあらためて人の身体と言語の関係を考え直し、そして身体を持たずに大規模言語モデルと呼ばれる言語習得法だけで目覚ましい進化を遂げたChatGPTの特異性を解明し、その上で、人と同じように身体を持つロボットの身体と言語の関係を考察したいと思うのである。
まず2023年のベストセラーになった、今井むつみ・秋田喜美『言語の本質』を使って、人の身体と言語の関係を問う。
まず記号接地問題ということから考えたい。それは言葉というものは、まずは対象についての身体的な経験を持たなければならないということである。これはハルナッドという研究者が提唱した(Harnad)。言葉というのは、様々な単語が関係性を持ち、組み合わさって、大きなシステムとなったものだけれども、子どもがどのようにそのシステムを学んでいくのかということを考えたとき、子どもにとって最初の言葉の一群は身体と繋がっているはずだと考えるのである。例えばリンゴという単語は様々な文脈の中で意味付けされるのだが、まずは見て、手にとって、食べてみるという経験と接続しているということである。
ここでオノマトペ、つまり人や動物の声や物音を模した擬音語が持ち出される。それは接地問題を解く鍵となる。「感覚イメージを写し取る、特徴的な形式を持ち、新たに創り出せる語」というのが、その定義である(今井・秋田 p.18)。一般に言語の形式と意味の間には恣意性がある。例えば犬そのものとイヌまたはdogという単語の発音や表記は直接的には繋がらない。犬のことをイヌまたはdogと呼ぶのは、歴史の中で自ずとそう定まったものだからである。しかしその恣意性の例外としてオノマトペがある。犬の鳴き声は、ワンワン、パウワウ、ガウガウなど諸国で異なるが、しかしどこも良く似ている。ただ世界中で完全に一致する訳ではなく、そこに恣意性がある。
次の問題はこのオノマトペがどの程度使われるかということだ。まず言えるのは、親は大人と話すときよりも、子どもと話す方がオノマトペを使う頻度が高い。
また実験結果から、乳幼児は音と対象の対応付けを自然に行っていることが示されている。つまりまだ彼らは持っている語彙が少ないのだけれども、オノマトペを使って話し掛けると、理解しやすいのである。これが接地問題を解く第一歩になる。
すると言語はまず身体を経て得られる感覚、知覚、運動、感情などの情報に由来する意味を持っているということになる。同時に言葉は身体を離れて独自の意味を持つ。この二面性が重要である(同 p.123)。オノマトペは非言語と言語の音処理を繋ぐ言葉であり、身体性を強く持つ(同 p.130)。発達の最初の段階で、乳幼児はモノやコトには名前があると認識するのである。
ここでアイコンという言葉を使う。アイコンとは例えば絵文字のように、表すものとあらわされるものが似ている記号である。オノマトペにはアイコン性がある。しかしこのオノマトペにも段階があり、簡単に言えば単純なものから複雑なものへ、具体的なものから抽象的なものへと進化する。そのことで次第にアイコン性が薄まっていく。乳幼児は言葉を学ぶ過程で、自分自身を母語の体系に溶け込ませていく。最初のアイコン性から、言語の恣意的な体系に入り、抽象的な概念を獲得する。このように学習の過程が進む。
ここからさらに複雑化する。キーワードは、ブートストラッピング・サイクルである。それは既存の知識を元に推論をして知識を更新し、そうして増えた知識が新たな既存の知識となって、推論を重ね、知識を一層増やしていくという仕組みである。こうして質的にも量的にも知識は増え、節目々々でその学習を大きく加速させていく。学習はこのように自律的に成長し続けるのである。
この推論は、ひとつは帰納推理であり、もうひとつはC. パースの仮説形成推論(abduction)であると著者は言う。前者は観察したサンプルからある事象について一般化するものであり、後者は観察し得ないものを、仮説を設けて推論していくというものである。それは飛躍を含み、時に大胆な仮説となって、様々な現象を説明し得るのである。知識が新たな知識を生み、洞察が知識創造を加速する、先のブーストラッピング・サイクルは、このアブダクション推理と帰納推理の混合による。
また著者たちは認知科学の研究の三つの流れについて、次のように説明している(同 p.186ff.)。ひとつは人間の知識を分類してデータベースを構築するもので、しかしこの人工知能は、人と違って身体に接地していないために、問題解決の能力はなかった。つまり機械に人間の真似をさせたのだが、うまく行かなかったのである。それから第二のものは、ロボット研究で、コンピューターに身体の能力である感覚を持たせて、環境と相互作用させるものである。ただここでもまだ言語を獲得するまでには至っていないと今井・秋田は言う。第三が、身体と外界の相互作用という観点をまったく持たず、ニューラルネットワークモデルで、深層学習のアルゴリズムを使う。これが現在では主流で、接地せずに大量の知識を蓄えている。
本稿で私が取り挙げたいテーマは、この第二のものであり、これは以下、谷口忠大を使って補正する必要がある(谷口2014、2020)。つまり谷口によれば、すでにロボットは、今井・秋田の言うのとは違って、相当程度に言語を獲得している。以下私はそのことを詳述したい。しかしその前に、岡野原大輔を使って、第三の流れの大規模言語モデルをまとめる(岡野原)。それは最初から身体を持たないものとして開発されている。
このモデルは1990年代後半から発達したものである。シャノンの情報理論に基づいて、情報から意味をなくし、その事象が起こるであろう確率のみから情報量を定義する。起こる確率が低い事象の情報量は高く、容易に起こり得ると考えられるものの情報量は低い。
この情報概念を言語に適用する。ここで確率の連鎖率という考え方を使う。つまりこれまで出現した単語列から次の単語が出現する確率をすべての単語について求めていく。このように文に対して確率を割り当てることができるモデルを言語モデルと呼ぶ。
この予測確率はデータを使って学習を進める。データは蓄積され、それによってまず、複数の文の候補の中で、どれが一番もっともらしいかを比較することができる。さらに新しい文を、この確率分布に従って生成させることもできるようになる。割り当てられたいくつかの単語をどう組み合わせるのか、確率分布だけで判断していく。確率分布とは、次に何の単語が出てくるのか、その観測値の確率を数学的に表現したものである。すると次に出てくる単語を確率分布によってモデル化するということになり、それは次の単語を予測するということに他ならない。こうして意味を持っている訳ではないのに、あたかも意味を持っているかのような、もっともらしい文ができる。
さらに機械は自己学習をする。世に溢れている夥しい文書を自ら学習する。そのことによって、基本的な文法を習得するだけでなく、文全体が理解できるようになる。
さらに機械学習によって、今まで見たことのないデータに対しても予測をすることができるようになる。これを汎化と言う。この汎化能力を機械が獲得すると、あとは自らどんどん情報を処理し、文を正確に理解し、新しい文を作る。
身体がないのにどうやって意味を持たせるのかということが問題になるのだが、しかし発想を変えて、最初から意味を持たせる必要はないと考える。確率だけで良い。そのように考えて先に進み、結果として、このあとに説明するが、意味を持つことに成功したのである。
そうすると、人の言語と人工知能との違いを接地と身体性の有無に求めるのは不十分だということになる。今井・秋田によれば、人の言語は接地した上で、あとは仮説形成推論によって先に進む。一方、人工知能は、言語モデル、つまり単語列から次に出現する単語の出現確率を掛け合わせて文全体が出現する確率を求めるという手法で組み立てられている。そこにおいて接地は要らない。だから接地の有無や身体性は確かにこの両者を隔てているが、しかしそれが問題なのではなく、そもそも言語の組み立て方が異なるというべきであるということになる。
どうしてこういうことを言うのかと言えば、ここでロボットが出てきて、それはChat GPTのような人工知能と基本的に同じ確率論的な手法を使い、しかし一方で、人と同じく身体を持っているからである。ここが本題である。
まず今言ったように、ロボットもChat GPTの大規模言語モデルと同じく、確率論的な手法を使う。しかしロボットには人間の感覚器と運動器に相当するものがある。それがセンサ・モータ系で、これが実世界と計算処理の世界を繋ぐのである。先に述べたように、Chat GPTは、言語をどう生成させるかという問題で、確率分布に従って新しく文章を生成する。ロボットの場合は次のようなことを考える。
ロボットはまず自ら移動して、物体を手に取って、握ったり離したりしながら触角の情報を獲得する。それからその物体を振る際に発せられる音を聴覚情報として取得する。またその物体をテーブルの上に置き、様々な方向からの視覚情報を取得する。このように多感覚情報を入手して、すでに与えられている物体についての情報と照らし合わせ、そのモノが、例えばコップであるとか、リンゴであると判断する。ひとつの感覚から得られる情報では、いくつかの可能性が出てきて、すぐには絞り込めなくても、たくさんの情報を集めることで、確率論的に絞り込んでいくのである。そのようにして、物体の特定ができる。
また次に、ロボットが今キッチンにいるということをロボットはどう知るのかということを考える。まずロボットは場所の特定から始める。家の中で、このあたりがキッチンであると、これは境界があいまいなまま、しかし候補が絞り込まれる。あとは人の場合と同じく、つまり台所用品などのキッチンと縁の深いものを視覚で確認し、料理の匂いや野菜を切る音などマルチモーダルな情報をロボットが入手して、自己位置を確率論的に確定していく。確率論はこういう風に使われる。ロボットは自ら獲得するマルチモーダル情報を自らの内部で統合し、カテゴリー形成を行う。
さらにロボットの持つ特徴を挙げておく。それはロボットを理解する上で役立つものである。
まず谷口は、ロボットは実世界の認知に基づき、言語を生み出す知能への構成論的アプローチ、つまり「記号創発ロボティクス」を使っていると言う。構成論的アプローチとは、対象を理解しようとするときに、その対象に似たものを作ってみることによって理解を深めるアプローチのことである(谷口2014 第6章、2020 第1章)(注2)。
つまり人間と全く同じ多様な能力を持つロボットを作る必要はない。そのロボットに与えたい、部分的な能力だけで良いのである。その能力だけを持ったロボットを作れば、それでロボットとしての役割を果たす。つまり寿司屋で寿司を握るロボットがいて、一方で接客をするロボットがいる。そういう具合である。
もうひとつはロボットは、自ら学ぶ能力を持っていることである。先に書いたように、ロボットは自ら獲得した情報を自らの内部で統合する。
実はこのシリーズの前回に書いたのだが、諏訪正樹が指摘していたように、まだロボットは漫才師が持っているような間の取り方の技術は持っていない(注3)。しかしロボットは自ら学ぶ力があれば、このまま進歩し続け、もう少し経てば、漫才の間合いも学ぶようになるだろうと私は考えている。臨機応変にとっさの行動がロボットには取れないと諏訪は言うのだが、しかしそこにもある種のパターンはあるだろうと思う。つまり間の取り方のパターンをロボットが蓄積されたデータから導き出すことは可能なのではないか。
このことはまたChat GPTにも言えることである。つまり今の時点で、Chat GPTの創り出す文章は、相当に正確なのだが、しかし過去のデータの平均値を使っているだけの話であって、どうも滑らかさや柔軟性に欠けるという印象がある。これはしかし、今後さらにデータが膨大なものになって、この滑らかさや柔軟さまでをも機械が学ぶようになれば、次第に解決するのではないかと私は考えている。このことは以下で再度考える。
さてそこまで考えた上で、ここで人と人工知能とロボットと三者比較をする。
まずロボットは意味に基づいてではなく、確率的に情報を処理するという点で、人口知能と共通する。ここが人と異なっている。ただここで注意すべきことがある。つまり人工知能の大規模言語モデルは、人も一部で使っているのではないかということである。人の言語もその組み立て方が複数ある。私たちは脳内で、言語モデルを駆動して、一番尤もらしい表現を確率的に予測して、文章を組み合わせるということをする場合がある。岡野原は次のように言っている。「ヒトも次の単語を予測する言語モデルをまず学習して、そこから文の意味を理解できるような様々な能力を獲得しているのかもしれない。ただ聞いているだけの場合でも、頭の中では無意識に予測の計算を動かし、その予測と実際に出現した単語との差をフィードバックとして予測モデルを学習していくことができる」(岡野原 p.68)つまり人も、この言語モデルの思考法を一部取り入れているのではないかと言うのである。
また大規模言語モデルには人やロボットが持っている接地や身体性がないと言われるが、果たしてそうなのか。これは見直すことができるのではないか。つまり人工知能は接地しないで、先に確率的な推論を進めるのだが、しかしどこかで身体性を獲得するのではないかということである。
谷口は繰り返し、人工知能は意味を獲得しているが、しかし世界に繋がっていないという言い方をしている(例えば谷口2022)。これは逆の言い方をすれば、言語は世界に繋がっていなくても意味は持つということである。私たちはChat GPTの作成した文章を、意味を持ったものとして受け止めることができるのではないか。そして、それを世界に繋げるのは私たちの仕事なのである。
もうひとつ考えるべきは、人は仮説形成推論をするということである。つまり人は至るところで創造的な飛躍をする。しかし人工知能やロボットは今まで蓄積されたデータから統計的な推論をするだけである。ここが人との大きな違いである。
ところが私は、人工知能やロボットが使うデータが膨大なものになれば、一見しただけでは結び付かないようなものを推論で結び付けるということも可能になり、それなりに思考の飛躍もできるのではないかと思っている。今の時点では、機械は今まで蓄積されたデータから平均的なものを採用しているだけだけれども、そのデータが蓄積されて行けば、かなりの程度柔軟なものが得られる可能性があると私は考えている。つまり基づくデータが膨大なものになれば、ある程度飛躍も可能になるのではないかということだ。先に間合いを取ると言い、臨機応変にと言い、柔軟で滑らかさが欲しいと言ったことが、まさにこのことと関係する。そういう可能性を秘めたものとして、人工知能やロボットを使うことはできないか。
このように三者それぞれの利点を確認できれば良い。三者はそれぞれ根本のところでその発想が異なり、しかし一部では確実にそれぞれが重なるのである。
その上でなお、私が問題にするのは、人とロボットは身体を持っているということである。このことを最終的に強調したい。つまり三者比較のあとに、ロボットの身体性を強調する。私の結論は、私たちはロボットと共生できる、ロボットを他者としてみなして、一緒に生きていかれるということである。
現時点でロボット研究は、身体に繋げるという発想を捨てたChat GPTの華々しい成功の陰に隠れてしまったかのようである。つまり本書で私がこだわっている身体性を捨てたためにChat GPTは成功したのである。ロボットが身体性に拘っている間に、さっさと先に進んでしまったのである。
しかし別にロボット研究者は人工知能を羨む必要はなく、実世界で身体を持ち、環境と相互作用をするロボットこそ、今後の大きな可能性を持っていると考えるべきである。それがここで私の言いたいことである。
本稿の最後に、ロボットの新たな可能性について書きたい。それは岡田美智男の提起する「弱いロボット」という概念である(岡田2017, 2022)。
その一例は、「ゴミ箱ロボット」である。これはゴミ箱の形をして、ただ動き回るだけの代物である。これを子どものたくさんいるところに置いておくと、子どもたちは、これは何かという好奇心でロボットを見る。それから子どもたちはそのゴミ箱に何かごみを入れる。ロボットはお辞儀をする。ごみが箱の中に入るとセンサーが感知して、ロボットは上体を屈めるのである。すると子どもたちは面白がって、次々とごみを拾ってゴミ箱に入れるのである。
ロボットが自らごみを拾うというのではなく、周りの人間を巻き込んで、ごみ拾い活動が起きる。そういうロボットである。ロボットは人間にごみを拾うよう、命令するのではない。また子どもたちも積極的にごみ拾いを始めるのでもなく、「思わずゴミを拾ってしまってあげたということ」なのである(岡田2022 p.24)。ロボットが頼りなく、弱々しいことが、周りの能動性を引き出す。しかしそれは強い能動性ではなく、強制力もない。周りの気遣いを引き出すのである。
ロボットは身体を備えている。身体は他者に訴える。この本では、ロボットを形容するのに、「ヨタヨタ」、「トボトボ」、「モタモタ」「フラフラ」という言葉が使われる。まさにオノマトペである。ロボットが身体を持っている証である。そしてそのロボットの性質こそが他者を引き寄せる。
さらにロボットに自己意識はないが、私たちはあるかのように見てしまう。ロボットが、まるで人間のように、何か目的を持って行動しているのだろうと、これは周りが勝手に推測する。そのようにロボットが私たちに仕向けるのである。
もう一例、挙げてみたい。それは「トーキング・ボーンズ」と呼ばれるもので、子どもたちに昔話をするロボットである。
さて「むかしむかし・・」と昔話を始めて、「おばあさんは川に・・」と言い掛けて、「あれ、おばあさんは川へ何しに行ったんだっけ」と言い出すのである。つまりこれは物忘れをするロボットなのである。
しかしそこは子どもたちの方が賢く、「おばあさんは洗濯に行ったのでしょう」と助けてくれる。このロボットも先のものと同じく、子どもたちの助けを引き出すのである。
流暢にかつ一方的に話をするロボットよりも、こちらの方が子どもたちは乗ってくる。それは子どもたちの優しさを引き出すのである(注4)。もちろんこの「物忘れ」は作り込まれたものである。しかしこの戦略によって、ロボットと子供たちは豊かなコミュニケーションを交わすのである。
ロボットの話になると、いつの日かロボットが人間の能力を抜いてしまうのではないかとか、人間を支配するようになるのではないかということになる。人間と競争するロボットが話題になる。他方で、以前書いたように、間合いが取れないロボットだと、まだまだロボットは能力が足りないという話になる。しかしここで展開されている具体例は、人と共生できるロボットである。「その機能の作り込みを最小にして、多くを周りに委ねよう」というのがコンセプトである(同 p.30)。
人もまたひとりひとりは弱々しい存在である。そのことが他者を誘う。コミュニケーションはそこから始まる。それが私たちの共生を可能にする。ここで私たちはロボットとも一緒に生きていかれるのである。
最後に残された課題を書く。
以前、私はメタバースについて考察し、今ここではロボットを取り挙げた。さらに人は身体を持っており、今まで性や食や病や気についても考察してきた。つまり人はモノを食べ、性の営みをし、病に陥り、気を張って生きている(注5)。問題はメタバースやロボットは、このようなことができるのか、あるいは自らはできなくても、このような性質を持つ人の身体を理解し得るのか。それらが可能であれば、私はメタバースやロボットと一緒に生きていかれるのである。
注
1 「身体の所有(7) メタバース、または共有する身体」(2022/12/14)
http://pubspace-x.net/pubspace/archives/9332
2 これは複雑系の手法と同じである。複雑系については以前書いている。「進化をシステム論から考える(10) 金子邦彦(1)」(2015/12/29)
http://pubspace-x.net/pubspace/archives/2855
3 「身体論補遺(3) 間合い」( 2023/12/09)
http://pubspace-x.net/pubspace/archives/10668
4 以前、自閉症の子どもと話をするロボットを紹介した。発想は似ていると思う。「身体を巡る省察4 自閉症の「硬さ」について」(2019/03/20)
http://pubspace-x.net/pubspace/archives/6458
5 以下に始まる連載で展開した。「身体の所有(1) 武道について」(2022/05/03)
http://pubspace-x.net/pubspace/archives/8535
参考文献
今井むつみ・秋田喜美『言語の本質 ことばはどうして生まれ、進化したか』中公新書、2023
岡田美智男『<弱いロボット>の思考 わたし・身体・コミュニケーション』講談社、2017
—- 『ロボット 共生に向けたインタラクション』東京大学出版、2022
岡野原大輔『大規模言語モデルは新たな知能から』岩波書店、2023
諏訪正樹2018『身体が生み出すクリエイティブ』ちくま新書、2018
谷口忠大『記号創発ロボティクス 知能のメカニズム入門』講談社、2014
—- 『心を知るための人工知能』共立出版、2020
—- 「現代の人工知能と「言葉の意味」。そして記号創発システム。」
https://www.repre.org/repre/vol45/special/taniguchi/ 2022 (2023.12.20閲覧)
Harnad, S. “The Symbol Grounding Problem”, Physica D 42: 335-346.1990
(たかはしかずゆき 哲学者)
(pubspace-x,2024.01.16)