静止画や動画として観察される様々な生命現象について,画像情報処理技術を駆使して,現象の客観的定量化,ならびに定量化結果からの知識発見に挑む,新しい学際的研究分野.詳しくは,下の解説記事をご覧下さい.
蛍光により可視化されたタンパク質分子を動画像中で追う問題.同じ見えを持つ大量の輝点を,低フレームレートの動画の中で追うという,相当困難な課題.ネットワークフローや動的計画法などの大局的最適化法を利用.北大薬学の鈴木研との共同研究.
時に停止し,時に高速移動もするメダカ.1匹の場合だけでなく,近接や接触を伴う複数匹の場合も含め,追跡アルゴリズムを開発中.基礎生物学研究所渡辺研との共同研究.
線上を移動する物体の動きを2次元的に可視化したものがカイモグラフィ.このカイモグラフィの生成とその解析を容易にするソフトを実装し,公開.北大薬学鈴木研との共同研究.
超高精細にスキャンされたマウス胚のスライス画像系列.この系列を二段階最適位置合わせすることで,3D情報を復元.時空間計算を如何に効率化するかもポイント.基礎生物学研究所藤森研との共同研究.
スライス画像からの特定臓器の切り出し.深層学習(CNN)でテクスチャの非常に微妙な差異を定量化し,グラフカットで最適分割.基礎生物学研究所藤森研との共同研究.
[原田,信学技報,2018]
焦点深度を変えながら撮影された画像系列から,神経樹状突起をまず検出.その際にはボケによる深さ推定を行う.その後樹状突起周辺に存在するspineを検出し,その形状を定量化する.弱教師付き学習の一種であるMultiple instance learningの問題設定として解ける点が面白い.北大薬学鈴木研との共同研究.
細胞膜の凹凸(Bleb)構造のダイナミクスを定量化.動的計画法に基づく最適輪郭抽出,輪郭移動速度の定量化,さらにピーク検出に基づく凹凸数の自動定量化.九大生物池ノ内研との共同研究.
細胞の分裂方向予測のための細胞領域抽出およびその形状定量化.京大ウイルス研豊島研ならびに遺伝研木村研との共同研究.
画像処理に因る微小管などの細胞骨格の抽出およびその配列方向定量化,オプティカルフローとその配列方向との相関解析.遺伝研木村研との共同研究.
柿の「へた」の部分に隙間ができてしまう「へたすき」.その有無を「へた」が見えない状態(≒木に実った状態)で推定できるか? 岡山大の赤木研との共同研究.
柿をモチーフとした「見えないものを見る」シリーズ第二弾.種の有無も果実表面からある程度推定できることを証明.岡山大赤木研との共同研究.
医学も画像を多用する分野の一つです.最近では,深層学習等の機械学習を活用した診断支援や医用画像解析が,世界的に活発に研究されています.我々は現在,特に消化器内視鏡学会とのコラボレーションを進めています.
深層学習等で内視鏡画像診断支援を行うためには,その前段階として大量の正解ラベル付きデータセットを作る必要がある.その手間を少しでも低減するために,制約付きクラスタリングに基づくgroup-based labelingや,撮影順序の利用,さらにそのための特徴抽出などを研究.
疾患(潰瘍性大腸炎)部位の炎症の程度を推定するには,炎症以外の情報(例えば臓器自体の情報)は不要です.disentanglement技術を使えば,画像中の炎症度情報だけを取り出せます
ある内視鏡画像だけを見せられて「これは炎症度3だ」というのは医師でも難しい.一方,2枚の画像を見らせられて「どちらがひどいか」を判定(対比較)するのは,比較的容易.この考えに基づけば,対比較だけで学習パターン中の全内視鏡画像を炎症度順に並べることができます.
あらゆる学術分野において「画像」は使われています.顕微鏡,医用画像,監視映像,外観検査など,対象観察のために使われたり,歴史的資料を保管するために使われたり,デザインのように人間の創作物であったり,その関りは様々です.これら画像を,「単に見て終わり」ではなく,そこに潜む情報を解析し,さらに役立てようとするならば,画像情報学の技術の利活用が必至となります.このように画像情報学は様々な学術分野とコラボレーションが可能です.実際当研究室においても,上記のバイオイメージインフォマティクスだけでなく,様々な分野の研究者とコラボレーションさせていただいています.
花押といは戦国武将のサイン.二つの花押がどの程度似ているかは古文書解析にも重要.人間が無意識に判断している類似度(メトリック)を計算機に模倣させるメトリックラーニングを利用して挑戦.埼玉工大の大山航先生,そして東京大学とのコラボ.
気象シミュレータによるデータ拡張で膨大な事例を生成し,それを用いて台風の卵を学習.JAMSTEC松岡先生との共同研究.憧れていた気象系初コラボ!
スポーツのうまい人と違う人で,どこの動きがどのように違うのか?センシング技術と照合(マッチング)技術を駆使して,両者を比較.スポーツ科学の専門家とのコラボも実施中.
サバ稚魚泳動の長時間ビデオから,共食いを異常行動として自動検出.九大農学部松山先生,長野先生との共同研究.
To appear
特定の匂いに対して蛍光を発する化学物質を複数利用して,多様な匂いの空間的分布を定量化.どの物質がどこに存在するかについては,シンプルにNearest-neighborすなわち事例ベースで解決中.九大システム情報 林研との共同研究.
あなたは今,この画面の文字を読んでますね?そのためには,文字を瞬時に見つけ,さらに認識しています.この人間には非常に容易なタスクも,計算機にとっては難問中の難問.当研究室も様々なアプローチで挑んでいます.さらに,環境内の文字は,様々な情報を提供してくれています.我々も日々それらに助けられながら生活しています.そこで,認識した文字情報の活用法についても,多角的に研究しています.
深層学習による画像処理により,情景内の文字だけを選択的に消すという,一見すると魔法のような技術.深層学習がドンピシャでハマった例.柳井先生(電通大)との共同研究.
情景内文字消しゴムとは逆に,情景内の文字部分だけ拡大表示できないか? これを深層学習でやろうとすると,実は文字消しゴムよりずっと難しい.
超解像とは,画像の解像度を向上させる画像処理技術で,最近では深層学習を活用した方法が増えています.さて問題.「文字という,エッジを主体とした特殊な画像」と「一般の情景画像」,同じ超解像手法を適用すれば十分なのでしょうか?
「目で見た文字をすべて認識してログ化し,検索可能にする」.我々人間は日々文字を読みながら情報を収集し,生活している.従ってそのログ化は我々の知識のログ化とも言える.大阪府立大・東北大・慶応大との共同研究.
「街中の単語群はどのような意味を持つものが多いのか?」「新聞内の一般的な単語群と異なる意味傾向があるのか?」という問いに,ニューラルネットによる意味定量化法word2vecで挑む.街中の単語群は,一般な単語群に比べ意味的に限定されていることを証明.
画像から自動的にその説明文を作るのがImage captioningと呼ばれる技術.情景内の文字情報を使って,説明文のさらなる高精度化に挑む.牛久先生(東大,当時)との共同研究.
[川口, 信学技報, 2018]
もし「お会計」というテキストがあれば,その画像は店内.「カレーライス」があればその画像はレストラン.このようにテキスト情報はそこがどこで何をすべきところかを示唆する.一般的な画像認識と情景内文字認識を結びつける研究.次の研究とは双対.
「お会計」という単語があればおそらくそこは店内である.このような情景とそこに写った単語の関係性を,Places365データセット中の画像180万枚を使って調査した.
"Shampoo"と書いてくれてるおかげで,そのボトルがシャンプーであることがわかる.このように物体表面に印字された単語は,その物体がなんであるかを明示するためのラベルとして機能する.ではどんな単語がどんな物体上にあるか? 170万枚の画像を使って,その共起性を実際に調査した.
人間はテキスト行を簡単に目で追える.縦組み・横組み混在時ですら追える.計算機にこの機能を持たせるために,ネットワーク最適化とディープラーニングを組み合わせた手法で挑む.
「どこに文字があるか?」~人間にとっては無意識にできる問題も,計算機にとっては非常に難問. 実際,「文字らしさ」だけで情景内の文字を検出しようとすると,誤検出が多発する.そこで周囲の状況を認識する.例えば周囲が空や森なら,そこには文字は無い.最近の試みでは畳み込みニューラルネットワークも積極的に利用.
我々の身の回りの文字は極めて多様.ゆえに単一の方法で検出できるわけがない.そこで逆に複数の異なる方法を使って検出を試み,それらの結果を適切に統合する.言わば「三人寄れば文殊の知恵」的なアプローチ.Palaiahnakte Shivakumara博士との共同研究.
文字を認識するためには,文字の検出が必要で,文字の検出のためには,それが文字であることを認識する必要がある.「卵が先か,鶏が先か」タイプの問題.これを一気に解決するために,最適化の枠組みで認識と検出を同時実行する.
文字の様々な形状変化を表現するために,その構造をグラフで表現.その際,機械学習(gBoost)を用いて,文字らしい構造,らしくない構造の代表例を自動選出.文字検出に応用した.
「文字のかけら(断片)に文字らしさはあるのか?」という問いに,肯定的に答えた研究.文字の断片,および非文字の断片をそれぞれ局所特徴として表現,それらが機械学習で求めた識別器で区別できることを証明.
時にはプライバシー侵害にもなる写真中の文字情報を,どうやったら消せるのか?すなわちどうすれば文字の可読性を破壊できるのか?「文字は文字によってこそ破壊される」ことを実証.
「情景内の文字は,見つけて読んでもらってこそ意味がある.従って目立っているだろう」という疑問を,大規模データセットおよび視覚的顕著性を用いて解消.予想通り,情景内の文字は目立つように配置されていた.Faisal Shafait教授との共同研究.
世界では,どのような色の文字が使われているのか?背景との組み合わせはどうか?デザイナが暗黙に使う文字とその背景の色彩関係を,大量の情景内文字データを使って,定量的に解析.
情景内に存在する文字・テキストの意味を様々な角度から調べるために,3000枚の画像中にある文字領域を,画素レベルでラベリング.世界最大規模の高精度データセットを構築した.
大阪府立大(黄瀬教授,岩村准教授),東北大(大町教授)と,10年以上の長きに渡り続いている大学間プロジェクト.文字を検出・認識しにくいというのなら,文字自体を検出・認識容易にしてしまおうという,逆転の発想がベース.文字でまだまだ面白いこともできる!
書籍表紙やフォントなどに代表される画像デザインは,なぜそのようにデザインされているのか? なぜ「寿司屋の看板は毛筆体」「甘いお菓子は丸ゴシック」なのか? このデザイナの経験知を,膨大なデータを解析することにより,工学的に解明する試みです.
世の中のフォントやその色は,その文脈にフィットするように選ばれている.タイポグラファーによるこの選択に潜む秘密を書籍表紙画像を題材に解き明かす.
深層学習を用いて書籍表紙画像から(タイトルを認識せずに)その書籍のジャンルを当てるという野心的な試み.これが結構認識できるのが面白いところ.
どの辺を手掛かりに,深層学習は書籍ジャンルを認識しているのか? 認識結果に最も影響を与えている画素を推測することで,この問いに答える.
深層学習による画像生成のフレームワークGAN (Generative Adversarial Networks)を用いてフォントを自動生成.識別器による評価も加えることで,より自然なフォントに近づけるといった工夫も.
エレガントなフォント,セリフ付きフォント,太いフォント,読みやすいフォント.そういう特定の印象・性質を指定した上でフォント画像を生成.
「形の足し算と引き算」でフォントを新しく作るというユニークな研究.そのためにNeural Style Transferを拡張.この考えは,より一般化することもでき,「形の代数演算」的な話にもつながると期待.
「このフォント,カワイイ」「真面目そう」「エレガント」「読みやすい」.こういう印象はフォントの形のどこからやってくるのか? 「形とその印象の関係」という古くからの課題に,フォントと大規模データ,そして機械学習により挑む.
多様なフォントの世界を,フォント間の類似性を用いてネットワーク表現.ネットワーク上のツアー(tour)により,フォントの変化をモーフィング的に観察もできる.さらに,ネットワークの中心を見ることで「文字Aとは何か?」という人工知能の根本問題にもアプローチ.
フォントネットワークの「穴」,それはまだデザインされたことのないフォントの指定席.ネットワーク解析により「穴」を見つけ,さらにアウトライン情報を用いたフォントのモーフィングにより,未開のフォントを自動生成する.
「文字Aとは何か?」シリーズの研究.Congealingと呼ばれる摂動法を用いて,6000種のフォントを非線形同時位置合わせ.すなわちお互いになるべく似たように微調整を重ねる.その収束結果は,非常に一般的なサンセリフ体であった.
「文字は線状,その多様性はその線状構造の変形で表せる」...すなわち文字はグラフ表現できる.ならば文字はグラフマッチングで認識できるのか?古典的ながら未解決な疑問に対し,高効率グラフマッチング手法で挑む.Andreas Fischer博士との共同研究.
情景画像から文字を見つけるのは難しい.ならば見つけやすい文字というものはどういうものか?という逆転の発想の研究.その原理は「非文字から最も遠いフォントが,最も非文字とは区別しやすい」.この原理で選ばれた文字を見てみると...
デザインには流行がある.フォントもその一つである.実際,映画のポスターの文字を見たとき,「古臭い」とか「最近の映画だろう」とか,なんとなくわかる.では,計算機にそういう年代推定ができるのだろうか? できるとすれば,どこをどう見ているのだろうか?
機械は「絶対フォント感」を持つのか? 二つの文字が同じフォントかどうかを判定する問題に,計算機は非常に高い精度で答える!
YouTube等で見られる歌詞が音楽に乗って縦横無尽に動き回るlyric video.どんな曲にはどんな動きが合うのか? 産総研後藤先生・加藤先生との共同研究.
書籍表紙は,専門のデザイナによって入念にデザインされている.タイトルを印字するフォントもその構成要素の一つ.では表紙デザインが画像として与えられたら,機械学習はどのようなフォントでタイトルを印字するだろうか?
書籍表紙は,専門のデザイナによって入念にデザインされている.既存の書籍表紙画像をつかった機械学習で,なんとか素人でも表紙デザインをしてみたい! この辺にピザの画像を置いて,この辺を塗りつぶして,この辺にタイトルをドーンと…
ディープニューラルネットワークの応用である "Neural style transfer"を利用して,様々な模様のロゴや飾り文字を自動デザイン.
企業のロゴはどのようにして企業イメージを与えているのか? Top-rank learningというランキング学習の一種を用いて,各業種に特有のデザインの傾向をあぶりだす.
ロゴは企業の「顔」である.ではどのような企業がどのようなロゴデザインなのか? 企業のtwitter follower数とロゴデザインの関係を探ったところ,弱いながらも面白い傾向が見えてきた!
アイコンやピクトグラムなどのグラフィックスは,実際の写真をモチーフにしたものが多い.では写真から自動でアイコンはできるのか? そもそも写真とアイコンの違いは何なのか?
ディープニューラルネットワークとその学習法である深層学習.さらには学習に必要な大規模データとGPUをはじめとする高性能計算資源.これらが画像情報学・パターン認識研究を劇的に進展させています.当研究室でも,以下の課題だけでなく,他の多くの課題(バイオイメージインフォマティクス研究や文字科学研究など)に応用しつつ,その挙動を解析してています.
CNN内部で行われているmax pooling処理.これには情報集約や変形吸収の効果があります.後者について逆に見れば,対象がどのような変形をしているかを抽出しているのです.従来利用されていなかったこの変形情報を「もったいない」ので有効活用したい,というのがモチベーション.さらに検討を進めた結果,筆記者識別にも非常に有効であることも示されている.
深層学習(DNN)の仕組みに非線形マッチング(DTW)の考え方を世界で初めて導入.時系列パターン等に起こる非線形変動を吸収可能にすることでDNNのさらなるパワーアップ化に成功.
ニューラルネットワークを構成するユニット(ニューロン)は,ニューロンが持つ重みと入力(ベクトル)との内積を行う.これに対して,当研究室の早志助教が入力ベクトル間の要素どおしの積を可能したニューロンを構築.普通のニューラルネットワークではできない処理・性能の実現を目指し,基礎・応用の両面で検討中.
畳み込みニューラルネットワークが判断根拠としている部分は画像上のどこにあるのか? 世界中が取り組んでいるこのexplainable AIの課題に,当研究室も取り組む.
深層学習(CNN)の内部でパターンの分布はどのように変化していっているのか? ネットワーク分布解析技術でそれを可視化.その結果,「手書きと飾り文字がCNN内部のどこで同一視されるのか?」も判明.
CNNの中で情報集約や変形補正のために使われるPooling.無批判に使われてますが,本当は対象毎に適したpoolingを学習して使ったほうが良いのでは?→ Yes.
CNNの変形補正機能を担うMax Pooling.局所独立に最大値を選択するのだが,多くの変形が滑らかに生じることを考えれば,局所独立は変では? というわけで,局所独立性を緩和してみた.
深層学習(CNN)を使えば,画像からどのような部分パターンを検出できるのか.例えば,「国」「園」のような漢字画像から,安定して「口」(くにがまえ)があると検出できるなら,CNNは,部分パターンの内部変化に非常に頑健であると言える.
認識にあたり,画像のどの部分がキモなのか? どの部分が欠けたら認識できなくなるのか? 数字パターンを使って徹底解析.
機械学習の進展により,言葉の意味を数値(ベクトル)で表現することも可能になってきました.このとき,たとえば同じ"Sound"という単語でも,黄色い活字で印刷されたときと,ぐちゃぐちゃな手書きで書かれたときでは,少し違う意味になっていそうです.また"hot"と"cold"をベクトル化するとき,それらが赤と青で印字されていることを活用すれば,その意味の違いをより強調できそうです.このような意味の数値化に言語外情報を使う研究をやっています.
「三人寄れば文殊の知恵」のように,複数の機械学習を組み合わせることでより強い機械学習結果にするのが,アンサンブル学習です.では,深層学習(CNN)のように元々強い機械学習を組み合わせると,もっと強くなるのでしょうか? また,もっともっと強くするにはどのように組み合わせればよいのでしょうか? そしてもし組み合わせるだけで強くなるのなら,でたらめに作られたCNN(ランダムニューラルネットワーク)でも組み合わせれば高精度になるのでしょうか?
パターン認識の極めて重要な考え方である「リジェクト」は,「これは認識できません」と自動判断させる処理である.認識と同程度に困難とされていたリジェクトを,理論保証を持った機械学習の枠組みで実施するための研究.
CNNのようなニューラルネットワークを学習するとき,その学習率が常に問題になります.よく「最初は学習率を上げ,徐々に下げる」という経験的戦略が採られるのですが,本当にそれでよいのでしょうか? 我々は「オンライン予測」という機械学習を使い,その学習率の最適化を図っています.
ランキング学習とは,より「あるクラスらしい」サンプルxが上位に来るような関数r(x)を求めるタスク.これを筆記識別のような個人同定に用いれば,「Aさんらしい」サンプルxを検出できる関数f(x)が実現できる.
トップランク学習とは,簡単に言えば「この辺のデータは絶対に正常(正例)」と言い切ってくれる学習法.なので,医用データのスクリーニングにはもってこい(←「この辺のデータは正常だから医師が見るまでもないですよ」と言ってくれるから.)
通常乱数で初期化される深層ニューラルネットワーク.これに対して各層を単位行列で初期化すると,どんなに多層でも入力がそのまま出力されるようなネットワークを構成できる.さて,この単位初期化で見えてくるものは何か? 富士通研究所との共同研究.
深層学習とも密接な関係がある(非)類似度空間埋め込み(Dissimilarity space embedding).パターンそのものの特徴を記述するのではなく,他のパターンとの類似度を特徴とする.本研究は,その枠組み大規模化かつ時系列パターン認識に拡張したもの.
Generative Adversarial Networks(GAN)は様々な画像を生成する手法として有名ですが,実は時系列データの生成にも拡張可能です.我々は生体信号の生成に活用中です.
ある時系列パターンを認識する際,基準パターンと局所的にどれぐらい相同しているかを特徴とする方法.シンプルながら非常に高い認識精度を達成.
時系列データの比較照合法として長年利用されてきたdynamic time warping (DTW).これをニューラルネットワークによる距離学習の枠組みで学習可能にすることで,自由度が向上.
手書き画像は,ペン先の運動軌跡であり,従って時系列パターンとしての側面も持っている.この「画像と時系列」という二重性に注目し,手書き画像から,それを筆記した際の時系列を復元する難題に挑戦.
終わりを待たずに認識結果を出せるのが「早期認識」.機械学習法であるAdaBoostを改良することで,早期認識のための識別器系列を構成.基本アイディアは「時刻tでまだ認識できないものを時刻t+1で認識するための学習」.
画像だけども輪郭のような系列データとして見たほうが認識しやすかったり,逆に系列データだけども画像化したほうが認識しやすかったり.そうならば,画像と系列のモダリティの壁を越えた認識系を作ればよいのでは?
深層学習を使って時系列データを認識したいのだがデータが足りない.そこでデータ拡張(data augumentation, DA)を使うのだが,適切なDAを使わないと認識率は却って悪化する.時系列データの種類とそれに適したDA法を網羅的に調査.
(隣ではなく)遠く離れたところの関係性を制約可能な,ちょっと変わった時系列パターンマッチング.従来不可能だった詳細なマッチング制御を可能にした.MIRU2011優秀論文賞.Volkmar Frinken博士と共同研究.
2つの時系列パターン間に,互いに異なる複数の対応付けを同時かつ最適に求める方法.一種の整数計画問題になるが,問題の性質により線形計画問題として解いても整数解が得られる点が,計算量的に助かる.
時系列パターンは,特徴ベクトルの1次元系列として表現される.そのマッチングの際,特徴ベクトルを成分ごとに分けて扱うとどうなるか?実はパターンを最適変形させながらマッチングするという新機能を実現できる.
組み合わせ探索としての扱いが多い時系列パターンマッチング.その常識を覆した.マッチングコストを二次関数近似することで,探索無しで最適解が求まり,計算量も劇的に減少.画像の認識・理解シンポジウムにおいて,長尾賞(最優秀論文賞)を受賞.
時系列パターンについて,離れた2時刻間の関係を表現するのが大局的特徴.ではどの2時刻間の特徴を使えば,認識性能が向上するか? さらに時系列非線形伸縮マッチング(DTW)との相性をよくするには?機械学習の枠組みで挑む.NTTとの共同研究.
街中に配置された複数のセンサーからリアルタイム人流データについて異常を検出.夜中に忍び寄る人物や,日中の極端な人だかりなどを異常としてリアルタイム検出可能.Markus Goldstein博士を含む大学内共同研究.
動的計画法による最適パターンマッチングについて,その目的関数に論理関数を導入.どの局所的マッチングペアも必ず一定誤差以下で対応付けられている,という制約を実現.モチーフ(頻出パターン)の検出に応用.
各時刻ごとにクラスAかBかを判別.ある時刻までの認識結果は,判別結果の多数決で決める.その際,時刻毎に完全に独立して判別されると不安定なので,隣接時刻は「なるべく」同じクラスにする.一種の最適化問題となり,グラフカットアルゴリズムで解ける.
上記のテーマをさらに進め,(画像ではなく)タブレットから入力される運動(運筆)軌跡としての文字を断片化.結果,文字は単なる「短い曲線分の集合」になってしまう.それでもかなり認識できることを実験的に証明.文字は強し.
漢字などの多画文字では,多様な筆順変動が発生する.筆順変動は,筆記運動としての文字パターンを全く違うものにしてしまい,誤認識の深刻な原因に.本研究では,どのような筆順変動が起きているかを積極的に推定し,誤認識を避ける方法を確立させる.
古典的な画像処理では,パイプラインといって,所望の画像処理結果を得るために,複数の画像処理を直列接続していた(例えば,ノイズ除去フィルタ→膨張収縮処理→二値化).ここでもし各画像処理をニューラルネットワークで実現できれば,それらを直列接続することで,さらに高度な画像処理を実現できるのではないかと考えた.
物体追跡は依然困難な問題であり,特定のトラッカが万能であるとは考えにくい.そこで複数のトラッカを適切に統合して利用することを考える.この統合には,最新の機械学習理論であるオンライン予測を利用し(末廣助教が専門家),「こちらのトラッカを使っておけばよかったのに」という後悔度(リグレット)を理論的に抑えつつ,トラッキング精度を担保する方法を開発.
頻繁に接触・交差し,時に並走するような対象を前提として,トラックレットへの分解,トラッキングによる接触部検出,トラックレット接続,を大局的最適化の枠組みで実装.
深層学習とDPを組み合わせた,見えの変化やオクルージョンに非常に強いトラッキング手法.
「ちょっと前にあそこで見たアレは,いまここにいる」.そういう知識を世界で初めて活かせるトラッキング手法.
物体追跡はいまもホットな研究課題で応用先も広い.様々な方法の中,動画像全体の情報を使って追跡経路を全体最適化するアプローチがあり,精度が高い反面,計算量的な問題があった.精度を落とさず計算量を落としたのが本手法.
計算機上で言語は普通unicodeのような符号列で表され,翻訳等の変換も符号変換として行われる.本研究は「とある言語(ハングル)の画像(=ビットマップ)」を,明示的に文字認識することなしに,「他の言語(英語)の画像(=ビートマップ)」に変換できることを示した,変態的研究.実は,画像を使ったことで,未学習の文字であっても変換できるという,隠れた効果もある.
タイトルの通り,文書画像中の数式を,ニューラルネット(U-net)で検出する.簡単そうに見えるが,実はf(x)のように文中に埋め込まれた数式もあり,これまでは困難とされていた.大量の正解付きデータと深層ニューラルネットワークの併用で高精度に実現.埼玉工大教授の大山航先生と九大名誉教授の鈴木昌和先生の共同研究.
手書き・活字,そして人間にすら読めないようなデザインフォントを含むデータセットを,深層学習は読めるのか?実用的な意味を持ちながらも,実は人間と機械にとっての可読性の差異を問う基礎的研究.
リカレントニューラルネットワークの代表格であるLSTMを多層化.この巨大なネットワークで,手書き文字列を左から右にデコード(認識)していく.どのような多層化がよいのか?何層の多層化が必要か?層間の結合形式は? Volkmar Frinken博士との共同研究.
時系列パターンの非線形マッチング(DTW)に回転不変性を導入したものがCTW.本研究では同手法を輪郭マッチングに拡張,形状認識問題への利用可能性を探る.
文字はバラバラにしても読めるのか?世界に先駆け,この疑問に肯定的な答えを出した研究.すなわち,文字は大局的な構造がなくてもある程度読める.ポイントは多数決原理.一般的な画像認識研究における局所特徴の有効性とも密接に関連.
当研究室で提案した解析的DPマッチングを2次元すなわち画像マッチングに拡張.高速かつ大局的に最適な非線形画像マッチングを実現.ちなみに,組み合わせ最適化の枠組みで同じ問題を解こうとしても,NP-Complete問題となり現実的には解けない.
パターンの変形はランダムではない.ならばその変形の傾向にはどのようなものがあるのか?この問いに答えたのが,非線形な画像マッチングと主成分分析で求めた固有変形.パターンの任意の変形は,この固有変形の線形和で近似可能.
画面内のどの部分が今の音を出したのか,我々は無意識に理解する(実際に音が出ているのが画面横のスピーカーだとしても).この機能が膨大な視聴覚経験に依るという仮説の下,その経験を機械学習させることで,映像中の音源同定を行なう.
サーベイランスでは複数のカメラが同一視野を観察している状況がある.その際,視野内の人物の特定動作を認識するには,すべてのカメラを使う必要はない.では,どのカメラが有効か?本研究では機械学習により自動的にカメラを取捨選択する.
人間なら,1枚の静止画から,その過去や未来の状況を想像できる.この機能の工学的実現を目指す.「人間は膨大な過去の視覚体験に依って想像する」という仮説に基づき,大量の動画像を利用して「工学的想像」を実現.
各人に装着したカメラと全体を俯瞰するカメラからの情報を組み合わせ,「この映像を映している人はどこにいるのか」を推定する.一種の「一人称ビジョン」問題.最適一対一マッチング問題として定式化できる点が,解決の鍵.
文書画像の傾き補正は,OCRの前処理として重要である.文字行を検出できれば簡単であるが,スライドやポスターなどなど短い文字行ではそれができない.そこで画像の局所毎に事例ベースで回転を推定し,その結果を画像全体で統合する方法を採る.
人間は,GPSが無くても,以前来た場所であれば,情景画像からそこがどこかわかる.すなわち位置を認識できる.本研究では,局所特徴を用いて画像を断片化した上で位置を認識する.断片化により,情景内に起こり得る様々な変化に頑健になる.
よく聞く「Big Data」なる単語.バズワードと揶揄されますが,パターン認識にとって膨大なデータを扱うことは,極めて本質的で重要な点です.従来は少量のデータしかありませんでしたので,パターンは正規分布やガウス混合分布のような単純なモデルで分布していると仮定されていました.これに対し,膨大なパターン集合があれば,分布の真の姿を見ることができます.さらにその真の姿を解析することで,認識精度の向上や,アルゴリズムの効率化も図れます.
「高次元パターンの分布の真の姿を見たい」「クラス間の境界の状況を把握したい」というモチベーションで開始した研究.高次元空間の低次元化は誤差が生じる.そこでネットワーク解析の方法を利用.解析結果はSVM学習のパターン予備選択にも利用可能.
大量のパターンはどのような分布をしているのか?...この問題に最近傍パターンとの関係を利用して挑む.上記のネットワーク解析の前段階として位置づけられる試みであるが,パターンの欠損部補完など,思いがけない成果も生んだ.
多クラスのパターン集合をある最適化の枠組みで分離したとします.この分離境界は真のクラス境界とどのように違うのでしょうか? 同じならば,パターンそのものの生成原理が,上記の最適化の枠組みに従っていることになります.違うならば,なぜ,どのように違うのでしょうか?
「クラス未知の入力パターンに対し,クラス既知のパターン集合の中から最も似たものを探索し,そのクラスを認識結果とする.」これが最近傍識別である.この単純な手法もパターン集合が膨大になると,探索に要する計算時間が現実的でなくなる.この問題に対し,AGHなる方法を拡張して挑む.
ペン先に小型インクジェットノズルを搭載した,世界で初めての情報埋め込みペン.筆記の際にモールス信号状に情報を埋め込む.5cmの手書きに32ビットを誤りなく埋め込めることを実証.Marcus Liwicki博士との共同研究.
小型カメラを準備してスクリーンを撮影でするだけで,何の変哲もないスクリーンをタッチパネルにしてしまう技術.スクリーンに写ったウインドウを指先でドラッグして移動できることを実証.
ペン先に装着した超小型カメラから,紙面の繊維構造(紙紋)を読み取ることで,ペン先の動きすなわち筆記内容を推定.ビデオモザイキング技術により実現.光学式マウスの原理に似るが,ペンの傾きによる射影変換,照明変化,動きボケなど,困難性も多い.