Keep Innovating! Blog

書籍紹介「Vision Transformer 入門」

AI 活動報告書籍紹介画像認識

2022.11.13

寺田英雄

　こんにちは。私は、思うところあって昨年から機械学習を使った３次元画像認識の研究を実施しています。いま一番ホットな分野の一つなので、世界中から次々と新しい研究成果が発表されています。そして、やはりこの分野でも Transformer系アルゴリズムの躍進が目覚ましいものがあります。

　そこで、私も画像系の Transformer について再度頭のなかを整理しておきたいと思い、本書「Vision Transformer入門」を手にとりました。

関連する論文を読んだり、ネット各所にある解説記事を読んだりすることも有益ですが、それだけだと知識が断片的になりやすいという問題があります。専門家が体系的に情報をまとめてくれている書籍を読むことは、分野全体の知識をバランス整理するのに最適な手段の一つでしょう。

　本書は Vision Transformer(ViT)の仕組みを「図・数式・Pythonコード」という３方向から「これでもか」というぐらい懇切丁寧に説明してくれていて、これ以上分かりやすい解説はないんじゃないかと思える充実した内容です。控えめに言っても、2022/11 現在で日本語で読める ViT解説書の決定版と言ってよいと思います。わずか3200円でこれだけの情報が得られるのは、超お買い得ではないでしょうか。

　タイトルには入門とありますが、後半には発展的な内容も含まれているので、いろいろな派生研究や開発のヒントも得られると思います。

　全ての画像系AIエンジニアにおすすめです。

著者プロフィール

名前: 寺田英雄

株式会社オープンストリーム　執行役員／CTO
技術創発推進室　室長

1980年代からプログラミングを始めて現在に至る現役プログラマ。BASIC・アセンブラ・C・C++など、今で言う低レイヤプログラミングから、MS-DOS、UNIX、Windows などのOSドライバやネイティブアプリケーション開発を経て、近年のWeb開発、クラウドシステム、モバイルアプリ開発まで幅広く実践。最近はPythonを使うことが多いが、Rustも研究中。

専門分野としては、画像処理、プラント・ロボット等の制御システム、画像認識、機械学習、AIなど。近年は、電気通信大学さんとの共同研究を通じて機械学習やAIの研究に重点を置いている。

一覧に戻る

タグ

メンバー