音声ソフトウェア
[English]
ここは,私,坂野秀樹が開発している音声関連のソフトウェアを紹介したり,
音声研究で使用しているソフトウェアを紹介したりするページです.
- [2003/8/25]
- Juliuslib,Julius
GUI などをアップデートしました.
- [2002/6/25]
- Juliuslibバージョン3.1p2_sp4-1のMac OS
X版(ライブラリのみ)をリリースしました.
また,Julius GUI バージョン0.9.1-4のMac OS X版をリリースしました.
- [2002/5/8]
- Juliuslib バージョン3.1p2_sp4-1のWindows版とLinux版をリリースしました.
また,Julius GUI バージョン0.9.1-4のWindows版とLinux版をリリースしました.
- [2002/4/11]
- spwaveのWindows版,Linux版,ソースをバージョン0.6.8-2にしました.
- [2002/4/9]
- spwaveの安定版0.6.8のMac OSバージョンをリリースしました.バージョンは0.6.8-2になっています.
0.6.8-1の8ビットファイルがうまく保存できないことがあるバグなどを修正しています.
- [2002/4/2]
- お待たせしました.spwaveの安定版0.6.8をリリースしました.
0.6.5からの主な変更点は以下の通りです.
- 波形のオーバービューを表示する機能を追加.
- レベルメーターの作成.
- Ogg Vorbis や ADPCM WAV,AUファイルなどへの対応.
- 振幅最大化や結合などの機能を追加.
- 拡大・縮小の高速化.
- ラベル機能の大幅強化.
- 長いファイルの後半がうまく扱えないバグの修正.
また,spLibsもアップデートしました.
- [2001/10/31]
- お待たせしました.spwave Mac OS X用ベータ 0.6.6-1bをリリースしました.
0.6.5からの主な変更点は以下の通りです.
- Mac OS Xのサポート
- Mac OS Xでpthreadに基づくプリエンプティブスレッドを使った編集のサポート
- 大きなファイルの拡大,縮小の高速化
- 長いファイルの後半部分がうまく扱えないバグを修正
0.6.6の正式リリースはもう少しお待ち下さい.
その他のOSのバージョンについては,そのときに同時にリリースします.
- [2001/7/12]
- 音声認識エンジンJuliusのライブラリ化を行いました.
また,そのライブラリのテストとしてGUI版も作成しました.ダウンロードはJulius for Windowsのページからどうぞ.
- [2001/6/4]
- Julius 音声認識実行キットをWindowsに対応させました.
また,本体のWindows版も再コンパイルしました.
- [2001/3/15]
- spwaveの安定版0.6.5-1をリリースしました.
主な変更点は以下の通りです.
- カット&ペースト,コピー&ペーストを実装
- 編集や保存のマルチスレッド化
- ループ再生の機能を実装
- Windowsで再生時のCPUパワーの使い過ぎを回避.
- Windows 2000などで起動しないことがあるバグを修正
- [2001/1/5]
- spwaveの安定版0.6.0-1をリリースしました.安定性がかなり向上したと思います(特にMac OS).
- [2000/12/26]
- spComponentのドキュメントを更新しました.
とは言っても,まだ公開されていないバージョン0.6.3で追加された機能なども載っているので注意して下さい.
また,Macintoshでのコンパイル方法についても説明を加えました.
spComponentのMacintosh版もかなり安定してきたので,
バージョン0.6.3からMacintosh用のバイナリについても公開する予定です.
- [2000/12/18]
- spMpegのバージョン0.8.2-1をリリースしました.
MP3出力プラグインを用いたときにID3タグが書き込まれないというバグなどを修正しました.
- [2000/11/30]
- spwaveのバージョン0.5.2-5をリリースしました.
いくつかのバグフィックスと,Mac OS上での実装の向上が主な変更点です.
- ダイアログ上でキーボードによる操作が可能になった.
- デザイン(Windows)/テーマ(gtk)を変更しているときにダイアログの描画がおかしいバグを修正.
- Mac OSでツールバー,ツールチップを実装.
- Mac OS 8.1以降でのアピアランスのサポート.
- Mac OS 8.1以降でのシフトキーとコントロールキーを用いたショートカットのサポート.
まだWindows版とMac OS版のバイナリしかありませんが,Linux版とソースコードは数日中にリリースします.
- [2000/10/23]
- spwaveのバージョン0.5.2-2をリリースしました.
新しく追加された機能のいくつかを紹介します.
- Mac OS版のリリース
- 24bit,32bit,32bit floatファイルなどへの対応
- サンプリング周波数の変換
- ビット/サンプルの変換
- 出力プラグインのパラメータ設定が可能に(例えば,MP3書き込みでビットレー
トなどを設定できます)
- フェードイン,フェードアウト,ゲイン調節などが可能に
- ドラッグ&ドロップによるファイルのオープン
- 再生,編集のスレッド化
- 再生位置とカーソルの正確な同期
- かなりの数のバグフィックス(それだけバグがあったってことですけど(^^;)
Mac OS版については,バージョン0.5.2-1を暫定的に公開していましたが,
最新版は,編集処理のスレッド化とサンプリング周波数の変換のバグフィックスなどが行われています.
更新履歴
ここでは,私が開発に関わっている音声や音に関するソフトウェアを紹介します.
- spLibs -
Cで書かれた音声信号処理用のライブラリ.
マルチプラットホームに対応しており,UNIXやWindows95/98などで動作する.
- spComponent -
マルチプラットホームGUIツールキット.UNIXとWindows95/98で動作する.
- spAudio -
マルチプラットホームオーディオ入出力ライブラリ.
Linux(OSS)もしくはWindows95/98で動作する.
- spwave -
音声波形の表示,編集,再生を行う.WAVファイルやRawファイル,MP3ファイルなどを扱うことができる.
- Julius for Windows -
京都大学や奈良先端科学技術大学院大学などで開発が行われている大語彙連続音声認識エンジン.
ここでは,私が作成したパッチや,パッケージを公開しています.
私は,主に,JuliusをWindows化したり,ライブラリ化する作業を行っています.
- Julius GUI - Juliusを用いた音声認識システム.
音声入力とGUIにspLibsを使用しています.
- Herium - リアルタイム声質変換システム.
ピッチ(声の高さ),周波数軸(声道の長さ)をリアルタイムに変化させることができる.
性別のスライダーもついており,これを動かすと,男声が女声になったり,
女声が男声になったりする.
- spmemo -
画面上で動作する付箋.音声とは関係ないが,
音声信号処理用ライブラリspLibsを使用している.
私が開発を行っているソフトウェアに関する予定や,開発の進行状況です.
- spLibs -
もうすぐリリースされるバージョンは,大きな変化はありませんが,変更点は,
スレッドのサポートや,Mac OS上での安定化などです.
[2000/10/13]
- spComponent -
安定化と様々な環境での動作確認.Motif版,Windows版,GTK版はかなり安定してきた.
Mac OS版の安定化が現在の課題.ドキュメントの作成も少しづつやっている.
[2000/10/13]
最近,古いMacintosh(Power PCじゃないやつ)が手に入ったので,
Mac版も開発している.2000年の夏までにはリリースする予定.
Macを手に入れて知ったんだけど,
今はMPW
っていう無料の開発環境があるんだね.
Appleのサイトからダウンロードしたサンプルプログラムをコンパイルしてみたところ,
ソースに多少の修正が必要なものがあるものの,ほとんど問題はありませんでした.
お金のない人(^^)にはおすすめ.
[2000/3/6]
Macintosh版は6月か7月にリリースできそうです.現在,90%ほど作業が完了しました.
でも,あと少しという所でてこずっています.
[2000/6/1]
すでにMacintosh版はリリースしましたが,なかなかバグが多くて安定してませんでした.
今度のリリースで結構安定して動作するようになったと思うので,興味のある人は,
まずspwaveを使ってみて下さい.
ただし,68kMac用ではなくPowerPC用のみです.
[2000/10/13]
- spwave -
長いことバージョン0.5を開発してましたが,ようやく安定してきたようです.
もう少し機能を追加して,バグなどが見つからなければ,
これをバージョン0.6としてリリースする予定です.
[2000/10/13]
もうすぐ次期開発バージョンとなる0.7の開発へ移行します.
おそらくSteinbergが提案するVST Plug-Inをサポートするため(この部分はライブラリ化される予定で,この作業はほとんど完了しています),
待望のエフェクト機能が追加されます.
また,音声研究者からの要望が多かったスペクトログラムの表示機能も追加する予定です.
2001年の第一四半期には最初のリリースを行う予定でいます.乞う御期待!
また,並行してバージョン0.5,0.6の開発とリリースを行っていきます.
現在は,Mac OS版をMac OS 8以降のアピアランスに対応するように作業中です.
これは近日中にリリースする予定です.
これにより,見た目が変わるだけでなく,Mac OSでもツールバーやショートカットが他の環境と同様に使用できるようになります.
[2000/11/14]
- spAudio -
Solaris上でのオーディオ入出力.
以前は手元にSolarisがなかったが,
今はSolarisのIntel版が研究室にあるので,それで動作確認をしている.
2000年1月現在,ほとんど完成しているので,
Solarisでのオーディオ入出力に対応した新しいバージョンが
もうすぐリリースされる予定.
ただし,フルデュプレックス対応はまだです(というか,
Solarisでフルデュプレックスの入出力はできるんだろうか?誰か教えて下さい).
あと,SGIでのオーディオ入出力の動作確認.ソースはあるが,
こちらも手元にマシンがないので,誰かやってくれー(^^;
[2000/1/11]
今後は,スレッドを用いた音声再生APIの作成と,プラグインを用いた音声入出力に
着手する予定です.
[2000/10/13]
- Herium -
高品質化.バージョン0.9では品質が向上すると思う.
私が研究やソフトウェア開発に用いている環境を紹介します.
それぞれの環境の長所や短所についても述べてあります.
- Linux - メインの開発環境.研究室内のマシンはほとんどLinuxになっています.
研究もほとんどLinuxしか使いません.
ディストリビューションは,私は主にRed Hatを用いていますが,最近はVineをインストールすることも多いです.
コンソールを使ったプログラムを作成するだけであれば,
安定性やツールの使いやすさなど
文句なしの環境だと思います.
GUIプログラミングの際には,Motifか,GTKを用います.
libc5の環境で国際化がうまく動作しないという問題があるなど,
GUIプログラミングの環境としてはちょっと貧弱な感じがします.
それもlibc6になってかなり改善されてきたとは思いますが.
GUIプログラミングのしやすさですが,
最初に覚えたGUIツールキットがMotifなので,
私にとってはMotifは比較的分かりやすいです.
ただし,結構低レベルのライブラリなので,コードが長くなってしまいがちです.
GTKも,割と分かりやすいと思います.しかも,高レベルなルーチンも用意されているので,
ほとんどの場合,Motifよりもコードは短くて済みます.
GTKの欠点としては,まだまだ発展途上の段階であるため,
変化が早すぎるということが挙げられます.
- Windows - Windowsでは,Visual C++とCygwin
を使い分けています.
Visual C++については,以前は4.0を使っていましたが,
最近は6.0をインストールしてあるマシンを使うことが多いです.
OSはWindows95とWindows98を使用していますが,
バグがあるプログラムを走らせた瞬間にOSごと落ちるのはやめて欲しいです(^^;)
NTを使えばそういう問題は少ないらしいのですが….
プログラムの際は,MFCは使わずにWindows SDKを直接使っています.理由は,
Cygwinでも動くようにしたいからです(あとは食わず嫌いっていうのもありますね…).
Cygwinはまだまだ不安定ですが,
UNIX環境での開発に慣れている私にとっては,
Visual C++よりもずっと使いやすいです.
Windows SDKに対する個人的な印象としては,結構ごちゃごちゃしていて
プログラミングがしやすいとは言えないと思います.
コモンコントロールを使えば,ツールバーやタブのあるダイアログとかが
比較的簡単に作成できるので,その辺は便利です.
- Macintosh - 最近Macでもプログラミングを始めました.
と言ってもPower PCではない古いマシンを使っているので,ちょっと遅いです.
開発には,MPWを用いています.
昔は有料だったそうですが,今は無料で入手できます.
これを使えばUNIXに似た開発環境を構築できます.
ツールボックス(API)は,Windowsなどに比べるとずっと分かりやすいのですが,
シンプルすぎてプログラマーの負担はかなり大きい感じがします.
特に,Mac OS8以前の環境では,
用意されているコントロール(部品)がかなり少ないので,
(ツールバー,タブ,コンボボックスなどがありません)
必要であれば自分で書かなくてはいけません.
Windowsでは,バグがあるプログラムを走らせた瞬間にOSごと落ちることが良くあると書きましたが,
それはMacでもほとんど変わらないようです.
個人的には,開発においては安定性が一番重要だと思っているので,
Visual C++とかのビジュアルな開発環境も,
安定性があまり高くないOS上で動く限り,宝の持ち腐れって感じがしてしまいます.
最近(2000/8/7現在),ようやくPower PCのマシンが手に入りました.
このマシンもそれほど新しいものではありませんが,
前に使っていた68k Macや,
下に書いてあるBasilisk II for Windowsに比べれば格段に速いので,
開発もようやくまともに(^^)できるようになりました.[2000/8/7]
- Macintosh on Windows - Windows上でもMacintoshを動かしてみました.
どういうことかと言うと,Windows上で動作するMacintoshエミュレーター
Basilisk
II for Windowsを使っています.この手のソフトはたくさんあるようなのですが,
その中でも,ネットワークがうまく使えるのはこれぐらいじゃないでしょうか?
しかも完全にフリーです(GPL).ただし,他のMacintoshエミュレーターと同様,
本物の68k MacintoshのROMが必要となります(自分が所有しているMacのROM
でないとライセンス違反になります.
当然どこかのページからダウンロードすることもできません).
インストール方法は,ポセイドンさんのページ(非常に有用なページなのですが,
残念ながら更新は停止されています)に詳しく載っています.
しかし,このソフト,素晴らしいです.MMX266MHz Pentiumのマシンと,
Celeron500MHzのマシンにMac OS 8.1をインストールして使ってみましたが,
ほとんど通常のMacと同様に使えます.ネットワークも問題無く動きますので,
Netscape CommunicatorやTelnetとかも使えます.しかも,両方の環境とも
私が使っているLC575よりも速いです(^^;
体感速度は,Celeron500MHzのマシンでだいたいPentium133MHzクラスのマシンで
Windowsを動かしている感じですね.
今の所,明らかにこのソフトが原因と思われるクラッシュが数回ありましたが,
(共有しているネットワークフォルダ内のソースコードをコンパイルすると結構落ちました.
ネットワークに大きな負荷がかかるとよく落ちるみたいです)
それ以外は,普通のMacと同じくらい落ちるだけ(^^;)です.
68k Macを持っている人は是非試してみて下さい.
あと,Windowsは持っているけどMacは持っていないという人は,
LC575とかが中古で5000円程度で買えるので
(動きさえすればどんなボロいのでも良いでしょう),
68k Macで動くMac OSさえ手に入れれば(漢字Talk7.5なら,
アップルのサイトでダウンロードできます),
Macintoshを気軽に試してみることができます.
また,アップルは小型のノートパソコンを出してないので,
モバイル環境でもMacを使いたいという人にも良いと思います.
- UNIX - 研究室で,AlphaとSolarisをたまに使っています.
Motifの国際化も安定して動作するので,安心して使うことができます.
最近は高性能なPCが安く買えて,しかもLinuxを動かすことができるので,
出番が少なくなってしまいました.
ここでは,私が普段,研究などに用いている,音声や音に関するソフトウェアを紹介します.
- Julius -
大語彙連続音声認識を行う認識エンジン.
CD-ROM等で,ソースとバイナリの配布が行われている.
新聞記事に関してはかなりの認識率を得ることができる.
アプリケーションやデモが充実すればかなり実用的になると思うので,
今後,Juliusを用いたアプリケーションが出てくることを期待したい.
個人的には,Juliusが,Linux上の音声認識エンジンのデファクトスタンダードとなって欲しい.
Julius for
Windowsのページでは,私が独自に作成したパッチや,パッケージを公開しています.
私は,主に,JuliusをWindows化したり,ライブラリ化する作業を行っています.
-
Entropic esps waves+ -
音声の表示,編集,分析,信号処理などを行うプログラム.
Linuxや,UNIXで動作する.
研究用にデザインされており,機能も非常に豊富で,安定性も高い.
あえて問題点を挙げるとすれば,
基本的に音声ファイルとして独自のフォーマットを使用していることや,
印刷の出力があまりきれいでないことぐらいだろうか.
また,商用のソフトウェアであり,しかも個人ユーザーには手が出ない値段らしい.
現在は,EntropicがMicrosoftに買収されたので(泣),今後このツールがどうなるかは不明.
- MATLAB -
科学技術計算のための数値計算,データ解析などを行うための言語.
WindowsやMac,Linux,UNIXなど様々な環境で動作し,信頼性も非常に高い.
MATLABを用いれば,高度な数値計算などが容易に行える.
最近では,信号処理の研究者のかなりの人がこれを使用している.
これも商用のソフトウェアであり,個人ユーザーが購入することは困難.
ただし,MATLABとほぼ互換のインターフェイスを持ち,
GPLに従うOctave
が存在する.
また,処理はCで書かれたプログラムなどに比べてかなり遅く,
リアルタイムで動作するアプリケーションの開発には向かない.
- GoldWave,
Cool Edit
- Windowsでは,音声ファイルエディタの定番とも言えるソフト.
両方ともシェアウェアであるが,GoldWaveには機能制限はない.
Cool Edit は,登録していない場合には,起動時に使用する機能を選択する必要がある.
私はWindows上ではほとんど研究活動はしないため
(その理由はWindowsとUNIXの両方を使ったことがある人なら分かりますよね),
ほとんどこれらのソフトは使用していないが,両ソフトとも,
基本的な編集からマニアックなエフェクターまで,
非常に多くの機能があり,
マルチメディアコンテンツの作成をかなり意識したものとなっている.
- SoundEngine - 和製音声ファイルエディタの定番となりつつあるソフト.
Cool EditやGoldWaveにも迫るくらいの豊富な機能を持ち,しかもフリーというすごいソフト.
マスタリングを目的に作られているが,その他の用途にも十分使用可能.
- spwave -
私が作成した音声ファイルエディタ.
機能は少ないが,客観的に見て,使いやすいソフトだと思う.
バージョン0.3で,分析機能が付いたため,自分の研究で使用する機会が増えた.
Windows,Linux,Macなどで動作する.
今後は,基本的な機能を充実させ,音声研究だけでなく,
他の用途にも利用できるようにしたいと思っている.
- spComponent -
私が開発した,C言語で書かれたGUI作成のためのライブラリ.
もともとは,音声信号処理に関するデモを,LinuxやUNIXだけでなく,
Windowsでも動作させるために開発された.
上で紹介したspwaveや
Heriumなどは,
このライブラリを使用しているため,
ソースコードの変更なしに,LinuxやWindowsで動作する.
また,現在は,制限はあるがMacでも動作する.
JavaがC言語に取ってかわるようなことになれば,
このライブラリの存在価値もなくなるかも知れない
(音声信号処理に関しては,当分先だと思うけど).
同じようなマルチプラットホームに対応したライブラリとして,
Vや,
wxWindows
などが良く知られており,これらはC++で書かれている.
私が良く使う音声や音に関するページへのリンクです.
[日本語]と書いてあるページ以外は,基本的に英語のページです.
僕のページへのリンクは,どのページでも自由にやって頂いて構いません.
ただし,ページの構成が変わる可能性があるのでページがずっとある保証はありません.
ソフトの公式ページのURLはできるだけ変わらないようにするつもりです.
なお,ページが重くなるのを避けるため,画像は極力使用しないようにしています.
[Hideki Banno]
Last modified: "2003-08-25 21:21:52 banno"
banno@itakura.nuee.nagoya-u.ac.jp