全9149文字
大規模言語モデル(LLM:large language model)をロボットの行動生成AIに応用する試みが、新たなフェーズに入ってきた。
LLMのロボットアームへの応用についてはここ1~2年、米グーグルが活発に取り組んでおり、「SayCan」1)や「RT-2」2)といった技術を先駆的に開発。この領域をリードしてきた。しかし、今回はグーグルからではなく、米Stanford Universityから、これまでと異なる斬新なタイプのLLM応用技術が出てきた。
SayCanやRT-2のような技術は、これまで難しかったロボット動作の上位のプランニングに1つの突破口を切り開いた。ネット上で集めた膨大な知識を基にユーザーの言語指示を適切に解釈し、よりローレベルの動作や命令列にブレークダウンできるようにした。一種の“コンパイラ”のようなものである。最近では、LLMのマルチモーダル化が進み、LLM自体がカメラ画像などテキスト以外のモーダルも直接、解釈・認識できるようになってきた。画像側の知識も膨大なものであり、カメラ視野内に著名人の顔写真があったような場合でも、その人名テキストからその顔写真を適切にピックアップできるほどになっている。固有名詞や固有人名を含めて、現実世界の多くのものを把握し、適切に指示を受けられるようになってきた。
このようにロボット分野に大きな進展をもたらしたLLMによる行動生成だが、最大の課題は肝心のフィジカルな動作パターンが、事前に用意したものに現状限られるという点だ。
from "応用" - Google ニュース https://ift.tt/9qwLoYk
via IFTTT
Bagikan Berita Ini
0 Response to "《日経Robotics》ロボットの大規模言語モデル応用が次のフェーズ ... - ITpro"
Post a Comment