北村研究室について

香川高等専門学校(高松キャンパス)電気情報工学科に属する情報工学系の研究室です。主として音響信号を対象とした情報処理が研究分野ですが、そこで得られた知見や技術を生体信号等の音響信号以外のディジタルメディアに適用することにも取り組んでいます。

具体的には、独立成分分析に代表される統計的信号処理アルゴリズムや、非負値行列因子分解等の行列分解・パターン認識、多くの古典的な機械学習手法及び人工知能と形容される深層学習等の技術・数理理論を活用し、様々な研究テーマに取り組んでいます。

研究テーマの概要

音源分離 — Audio Source Separation

Hearing-Aid System

音源分離とは、たくさんの人の声や機械の駆動音、音楽であればボーカルやギター等、複数の音源が混ざった状態の音響信号から、混ざる前の個々の音源信号を推定する技術です。複数の人の声を分離できれば、音声認識の精度向上や会議議事録の自動作成等が可能になります。また、雑音を除去することができれば、補聴器や音声通信の品質向上に役立ちます。さらに、音楽信号をパート毎に分離した場合、楽譜を自動的に生成するシステムやユーザによる音楽のリミックス等にも活用することができ、芸術文化の興隆につながります。

音源分離を実現する為には、音響信号を確率的にモデル化するための統計的信号処理や、音源の特徴的なパターンを抽出する機械学習・深層学習等の技術が使われています。

音楽信号解析 — Music Analysis

Music Analysis

音楽信号の様々な特徴量を抽出し何らかのアプリケーションに利用する技術は音楽信号解析と呼ばれます。例えば、ピアノ演奏の音響信号に対してどの鍵盤の音がどんなタイミングで生じているかを解析することで自動採譜が可能になるほか、コード進行の推定やジャンルの分類、類似音楽検索等にも役立てられます。あるいは、エレクトリックギターの弦振動を物理的な波動方程式として解析することで、出力信号のシミュレーションが可能となり、楽器の設計・製作における支援が可能となります。

音楽信号解析の手法や応用は非常に多岐にわたります。また、民族楽器等の希少な文化を情報学の観点から解析することで、文化の保存や技術の継承にも役立つことが期待されます。

機械学習と深層学習 — Machine Learning and Deep Learning

Deep Neural Networks

観測されたデータや信号に潜む有意な情報を認識・抽出する技術は、一般に機械学習と呼ばれます。例えば、「年齢・性別・地域等の顧客の特徴」と「どのような商品をいくつ購入したか」といった情報をまとめた購買データを機械学習によって分析すれば、多くの顧客に共通する潜在的な需要等を解析することができ、販売戦略等に役立ちます。音響信号や生体信号にも価値の高い潜在的な情報が多く含まれており、それらを機械で自動的に抽出する技術はとても有用です。

近年では、入力となるデータや信号の前処理・特徴量抽出・解釈を全て自動的に構築できる深層学習(ディープニューラルネットワークや人工知能等と呼ばれる)の発展が目覚ましく、学習データに基づく機械学習モデルの構築が非常に容易となりました。

アレイ信号処理 — Array Signal Processing

Microphone Array

一つの現象を複数個のセンサで同時に観測すると、1個のセンサによる観測では分からなかった情報が手に入ります。例えば、同期された複数個のマイクロホンで音響信号を録音することで、音が到来してきた方角を知ることができ、目的となる方角以外から到来する雑音を全て除去する等の応用ができます。このような処理はアレイ信号処理と呼ばれ、マイクロホン以外にもアンテナやカメラ,筋電センサ等の多様な観測機器に共通する理論体系です。

実際に、現在普及しているスマートスピーカには2~8個程度のマイクロホンが使われており、頑健な音声認識を実現しています。また、2個以上のカメラが搭載されているスマートフォンも普及しつつあり、アレイ信号処理の需要は高まっています。

統計的信号処理 — Statistical Signal Processing

Statistical Signal Processing

データや信号等には必ず不要な成分(ノイズ)が含まれており、どんな観測機器を用いてもこのノイズを零にすることは不可能です。また、ノイズは通常、観測したい現象と関係なくランダムな振る舞いをするため、可能な限りその影響を減らす工夫が必要です。このような場合に、ノイズに対して何らかの確率密度関数を仮定して、統計理論として取り扱う手法がしばしば取られます。

統計的信号処理では、ノイズだけでなく目的となる現象の観測値・信号に対しても統計的なモデル(生成モデル)を仮定し、そのパラメータを推定することで問題の解決を目指します。例えば、ノイズはガウス分布に従うことが一般的ですが、音声はラプラス分布等に従うことが多く、その違いを用いて音声と雑音の分離を行うことができます。

研究デモンストレーション

これまでの研究成果のデモンストレーションをこちらで公開しています。

代表的な研究設備・備品

科学演算用ソフトウェア

MATLAB logo

言わずと知れたMathWorks社の強力で高機能な信号処理ソフトウェアです。スクリプト言語であり、素早い習得と科学演算の直感的な実装が可能です。

北村研究室では、現在25個のネットワークライセンスを契約しており、各種ツールボックスも導入しています。多くの研究テーマでMATLABによる実装を行っていますが、深層学習等一部のテーマに関してはオープンソーススクリプト言語のPython及びNumpyやPytorch等のパッケージを利用しています。

マルチコアCPU計算機

CPU

アルゴリズムに基づいてモデルの最適化を行う場合、膨大な行列演算や反復計算を含むことが多く、計算に時間がかかります。このような計算を可能な限り並列化して行う為に、複数の演算コアを持つCPUの計算機を用意しています。

北村研究室では、現在8コアCPUの計算機サーバを5台、6コアCPUの計算機サーバを6台保有しています。また、各人に割り当てられる個人デスクトップPCも必ず4コア以上(メモリ16GB以上)となっています。

マルチコアGPU計算機

GPU

深層学習と呼ばれるディープニューラルネットワークのモデル構築は、大量の学習データを用いて最適化を行う関係上、莫大な演算が必要です。このような目的に対しては、GPUによる演算が有効です。GPUには1000以上の演算コアが搭載されており、モデル構築を現実的な時間で実行するには欠かせないプロセッサとなっています。

北村研究室では、現在GTX TITAN Xpを搭載した計算機サーバを1台、RTX 2080Tiを搭載した計算機サーバを1台、GTX 1660Tiをと搭載した計算機サーバを4台保有しています。

多チャネル録音用機器

Multi track recorder

複数のマイクロホンを完全に同期して録音するには、共通のアナログ-デジタル変換が必要となるため、専用の録音機器が必要になります。このような録音機器を使うことで、部屋の残響のかかり方や音波動の拡散度合い等をインパルス応答として測定することができ、音環境の解析や音響シミュレーション等が可能になります。

北村研究室では、16kHzのサンプリング周波数で8チャネル同期録音ができるマイクロホンアレイ、44.1kHzのサンプリング周波数で6チャネル同期録音ができるマルチトラックレコーダ、TSP信号を再生するための点音源スピーカ、オーディオアンプ等を保有しています。

プログラマブルロジックデバイス

FPGA

高速な信号処理によってリアルタイム演算を可能にするためには、CPLDやFPGA等のプログラマブルロジックデバイスを用いて専用のハードウェア(論理回路)を構築する必要があります。これらのロジックデバイスを使って、リアルタイム動作する音響信号処理デバイスの実装を目指します。

北村研究室では、Intel社のMAX10を搭載したFPGA評価ボードを用いてハードウェアの構築を行っています。マイクロホンアレイとFPGAを接続することで、高速な音響信号処理が可能となります。

無響室

Anechoic chamber

香川高専の電気情報工学科には共用施設として無響室が有ります。これは、床・天井・壁面からの音波の反射を極限まで無くした空間であり、対象となる音源の直接音のみを録音する場合に適した環境です。この無響室のサイズは4.65m×2.50mであり、平均暗騒音は18dB(A)となっています。