香川高等専門学校(高松キャンパス)電気情報工学科に属する情報工学系の研究室です。主として音響信号を対象とした情報処理が研究分野ですが、そこで得られた知見や技術を動画像や生体信号等の音響信号以外のディジタルメディアに適用することにも取り組んでいます。
具体的には、独立成分分析に代表される統計的信号処理アルゴリズムや、非負値行列因子分解等の行列分解・パターン認識、多くの古典的な機械学習手法及び人工知能と形容される深層学習等の技術・数理理論を活用し、様々な研究テーマに取り組んでいます。
音源分離とは、たくさんの人の声や機械の駆動音、音楽であればボーカルやギター等、複数の音源が混ざった状態の音響信号から、混ざる前の個々の音源信号を推定する技術です。複数の人の声を分離できれば、音声認識の精度向上や会議議事録の自動作成等が可能になります。また、雑音を除去することができれば、補聴器や音声通信の品質向上に役立ちます。さらに、音楽信号をパート毎に分離した場合、楽譜を自動的に生成するシステムやユーザによる音楽のリミックス等にも活用することができ、芸術文化の興隆につながります。
音源分離を実現する為には、音響信号を確率的にモデル化するための統計的信号処理や、音源の特徴的なパターンを抽出する機械学習・深層学習等の技術が使われています。
音楽信号の様々な特徴量を抽出し何らかのアプリケーションに利用する技術は音楽信号解析と呼ばれます。例えば、ピアノ演奏の音響信号に対してどの鍵盤の音がどんなタイミングで生じているかを解析することで自動採譜が可能になるほか、コード進行の推定やジャンルの分類、類似音楽検索等にも役立てられます。あるいは、エレクトリックギターの弦振動を物理的な波動方程式として解析することで、出力信号のシミュレーションが可能となり、楽器の設計・製作における支援が可能となります。
音楽信号解析の手法や応用は非常に多岐にわたります。近年では深層学習に基づく手法が盛んに研究されていますが、古典的な信号処理技術や数理理論と深層学習を上手く融合させた手法も多く、様々なタスクにおいて成功を収めています。
観測されたデータや信号に潜む有意な情報を認識・抽出する技術は、一般に機械学習と呼ばれます。例えば、「年齢・性別・地域等の顧客の特徴」と「どのような商品をいくつ購入したか」といった情報をまとめた購買データを機械学習によって分析すれば、多くの顧客に共通する潜在的な需要等を解析することができ、販売戦略等に役立ちます。音響信号や生体信号にも価値の高い潜在的な情報が多く含まれており、それらを機械で自動的に抽出する技術はとても有用です。
近年では、入力となるデータや信号の前処理・特徴量抽出・解釈を全て自動的に構築できる深層学習の発展が目覚ましく、学習データに基づく機械学習モデルの構築が非常に容易となりました。
一つの現象を複数個のセンサで同時に観測すると、1個のセンサによる観測では分からなかった情報が手に入ります。例えば、同期された複数個のマイクロホンで音響信号を録音することで、音が到来してきた方角を知ることができ、目的となる方角以外から到来する雑音を全て除去する等の応用ができます。このような処理はアレイ信号処理と呼ばれ、マイクロホン以外にもアンテナやカメラ,筋電センサ等の多様な観測機器に共通する理論体系です。
実際に、現在普及しているスマートスピーカには2~8個程度のマイクロホンが使われており、頑健な音声認識を実現しています。また、2個以上のカメラが搭載されているスマートフォンも普及しつつあり、アレイ信号処理の需要は高まっています。
データや信号等には必ず不要な成分(ノイズ)が含まれており、どんな観測機器を用いてもこのノイズを零にすることは不可能です。また、ノイズは通常、観測したい現象と関係なくランダムな振る舞いをするため、可能な限りその影響を減らす工夫が必要です。このような場合に、ノイズに対して何らかの確率密度関数を仮定して、統計理論として取り扱う手法がしばしば取られます。
統計的信号処理では、ノイズだけでなく目的となる現象の観測値・信号に対しても統計的なモデル(生成モデル)を仮定し、そのパラメータを推定することで問題の解決を目指します。例えば、ノイズはガウス分布に従うことが一般的ですが、音声はラプラス分布等に従うことが多く、その違いを用いて音声と雑音の分離を行うことができます。
これまでの研究成果のデモンストレーションをコチラで公開しています。また、研究業績をまとめたPublicationでは、各研究内容の発表資料等を公開しています。
言わずと知れたMathWorks社の強力で高機能な信号処理ソフトウェアです。スクリプト言語であり、素早い習得と科学演算の直感的な実装が可能です。
北村研究室では、現在25個のネットワークライセンスを契約しており、各種ツールボックスも導入しています。多くの研究テーマでMATLABによる実装を行っていますが、深層学習等一部のテーマに関してはオープンソーススクリプト言語のPython及びNumpyやPytorch等のパッケージを利用しています。
アルゴリズムに基づいてモデルの最適化を行う場合、膨大な行列演算や反復計算を含むことが多く、計算に時間がかかります。このような計算を可能な限り並列化して行う為に、複数の演算コアを持つCPUの計算機を用意しています。
北村研究室では現在、12台の計算機サーバを並列化した144コアCPU・768GBメインメモリのクラスター計算機を構築し運用しています。その他にも,1台の64コア計算機サーバと10台の6コア以上計算機サーバも保有・運用しています。これらの計算機サーバに対して、各人に割り当てられる個人デスクトップPCや個人ラップトップPCからリモートで接続し、計算ジョブを投入します。
深層学習と呼ばれるディープニューラルネットワークのモデル構築は、大量の学習データを用いて最適化を行う関係上、莫大な演算が必要です。このような目的に対しては、GPUによる演算が有効です。GPUには1000以上の演算コアが搭載されており、モデル構築を現実的な時間で実行するには欠かせないプロセッサとなっています。
北村研究室では、現在NVIDIA RTX 3090を搭載した計算機サーバを8台、NVIDIA GTX 3060又はGTX TITAN Xpを搭載した計算機サーバを4台保有しています。
複数のマイクロホンを完全に同期して録音するには、共通のアナログ-デジタル変換が必要となるため、専用の録音機器が必要になります。このような録音機器を使うことで、部屋の残響のかかり方や音波動の拡散度合い等をインパルス応答として測定することができ、音環境の解析や音響シミュレーション等が可能になります。
北村研究室では、16kHzのサンプリング周波数で8チャネル同期録音ができるマイクロホンアレイ、44.1kHzのサンプリング周波数で6チャネル同期録音ができるマルチトラックレコーダ、TSP信号を再生するための点音源スピーカ、オーディオアンプ等を保有しています。
高速な信号処理によってリアルタイム演算を可能にするためには、CPLDやFPGA等のプログラマブルロジックデバイスを用いて専用のハードウェア(論理回路)を構築する必要があります。これらのロジックデバイスを使って、リアルタイム動作する音響信号処理デバイスの実装を目指します。
北村研究室では、Intel社のMAX10を搭載したFPGA評価ボードを用いてハードウェアの構築を行っています。マイクロホンアレイとFPGAを接続することで、高速な音響信号処理が可能となります。
香川高専の電気情報工学科には共用施設として無響室が有ります。これは、床・天井・壁面からの音波の反射を極限まで無くした空間であり、対象となる音源の直接音のみを録音する場合に適した環境です。この無響室のサイズは4.65m×2.50mであり、平均暗騒音は18dB(A)となっています。
北村研究室は香川高専の専攻科棟の5階にあります。北面はブラインド付きの大きな窓ガラスとなっており、自然豊かな景色を見ながら研究に没頭できます。
部屋の中央にはミーティングテーブルが配置されており、壁際に学生の個人デスクが3面にわたって並ぶレイアウトとなっています。
研究室の床はカーペット張りとなっており、室内のシューズボックスでスリッパに履き替えます。
天井にはロスナイ換気・通常換気が切り替えられる空調とエアコンがあり、室内を常時快適な状態に維持できます。
南側の壁面にはソファを置いています。ソファに腰かけてノートPCで研究するスタイルもお勧めです。
両側にはYAMAHAのBluetooth対応スピーカーNX-N500を配置しており、スマホからBGMを流すこともできます。
さらに、学生さんに自由に使ってもらえるように北村が寄贈したエレキギターとエレキベースもあり、ワイヤレスシールドシステムと小型のアンプ2台も用意されています。研究に飽きたときは、みんなとワイワイセッションすることもできるようになっています(ただし近所迷惑に注意!)。
ソファの隣に、通称「きたらぼ喫茶」と呼ばれる1杯20~50円で飲めるコーヒーマシン(ネスカフェバリスタ)を用意しています。砂糖やブライトも用意してあるので、ブラック・エスプレッソ・カフェオレ・カフェモカが作れます。
在庫の管理や機器の清掃はコーヒー係さんが担当しています。売上で新しい在庫を購入しますので、サステイナブルな福利厚生となっています。研究成果は恐らくコーヒーとひらめきから生まれるものなのです。
もちろんケトルも用意していますので、自分で持ち込んだホットドリンクやカップラーメン等も作ることができます。
研究室の壁にはAmazon Echo Showが取り付けてられており、Alexaに呼びかけることで(Amazon Echoの標準的な機能の他に)研究室の照明の操作、プロジェクターのON/OFF、スピーカーのON/OFFが可能となっています。
また、北村の教員室にもAmazon Echo Showがあるため、ただ「北村に呼びかけて」と話すだけで自動的にビデオ通話が始まります。北村の教員室は電気棟の2階なので物理的に研究室と離れていますが、困ったときもすぐにお話しすることができます。
そのほかにも、北村研究室のフォトアルバムをスライドショーさせて、過去のイベントや出張等の思い出話に花を咲かせることもできます。
北村が寄贈した研究室の備品として、ミラーレス一眼カメラSony α5100とハンディカメラCanon iNSPiC RECを用意しています。普段はミーティングテーブルの上に置いていますが、ふとした瞬間や何気ない時間のスナップ写真を自由に撮って記録に残しています。
北村研究室では写真を全てNASとAmazon Photosで管理しており、定期的に選別して研究室のアルバムとして現像して未来の後輩たちに受け継いでいきます。これは大切な仕事なので、カメラ係さんを決めてどんどん写真を撮影し溜めています。
また、研究室のイベントや学会等への出張でもこれらのカメラを持参し、たくさん撮影して思い出を記録します。
ギターが好きでめっぽう気さくなお兄さんです。メディアの取材による記事をコチラで公開していますので、ぜひ確認してください。