SoX

名前

SoX — Sound eXchange, 音声処理のためのスイスアーミーナイフ SoX — Sound eXchange, the Swiss Army knife of audio manipulation

書式

  • sox [グローバルオプション]
    [形式オプション] 入力ファイル1 [[形式オプション] 入力ファイル2] ...
    [形式オプション] 出力ファイル
    [エフェクト [エフェクトオプション]] ... sox [global-options] [format-options] infile1 [[format-options] infile2] ... [format-options] outfile [effect [effect-options]] ...

  • play [グローバルオプション]
    [形式オプション] 入力ファイル1 [[形式オプション] 入力ファイル2] ...
    [形式オプション]
    [エフェクト [エフェクトオプション]] ... play [global-options] [format-options] infile1 [[format-options] infile2] ... [format-options] [effect [effect-options]] ...

  • rec [グローバルオプション]
    [形式オプション] 出力ファイル
    [エフェクト [エフェクトオプション]] ... rec [global-options] [format-options] outfile [effect [effect-options]] ...

【 角括弧 [, ] に括られたものは省略し得ることを表す。 各種 ‘オプション’ には,その種類のオプションを複数個与え得る。 】

説明

概要

SoX は広く利用されているほとんどの形式の音声ファイルの読み取りと書き出し, およびオプションでそれらにエフェクトを適用することができる。 複数の入力源の結合や音声合成を行うことができ、また,多くのシステムで,汎用の音楽プレイヤーまたはマルチトラック音声レコーダとして機能する。 入力を複数のファイルに分割して出力する限定的な機能もある。 SoX reads and writes audio files in most popular formats and can optionally apply effects to them. It can combine multiple input sources, synthesise audio, and, on many systems, act as a general purpose audio player or a multi-track audio recorder. It also has limited ability to split the input into multiple output files.

SoX のすべての機能は sox コマンドで利用できる。 音声の再生と記録を簡略化するため、 SoX が play により起動された場合の出力ファイルは自動的に既定のサウンドデバイスに設定され, rec により起動された場合の入力源には既定のサウンドデバイスが利用される。 また、 soxi(1) コマンドを音声ファイルのヘッダ情報の取得に利用できる。 All SoX functionality is available using just the sox command. To simplify playing and recording audio, if SoX is invoked as play, the output file is automatically set to be the default sound device, and if invoked as rec, the default sound device is used as an input source. Additionally, the soxi(1) command provides a convenient way to just query audio file header information.

SoX の中核は libSoX と呼ばれるライブラリが担う。 SoX の拡張や他のプログラムからの利用に興味がある者は libSoX マニュアルページ: libsox(3) を参照のこと。 The heart of SoX is a library called libSoX. Those interested in extending SoX or using it in other programs should refer to the libSoX manual page: libsox(3).

SoX は手軽で単純な編集やバッチ処理に適したコマンドライン音声処理ツールである。 対話的でグラフィカルな音声編集が必要であれば audacity(1) が適する。 SoX is a command-line audio processing tool, particularly suited to making quick, simple edits and to batch processing. If you need an interactive, graphical audio editor, use audacity(1).


SoX の全般的な処理過程は次のように要約できる: The overall SoX processing chain can be summarised as follows:

入力 → 結合器 → エフェクト → 出力 Inputs(s) → Combinator → Effects → Output(s)

ただし、 SoX コマンドライン内における出力とエフェクトの位置は論理的フロー順序と逆になっていることに注意。 また、ファイルに関連するオプションはそのファイル名の前に置かれる一方、エフェクトについてはその逆になる。 どのように行われるか示すため、以下にいくつかの用例を挙げる。 まず、単純な: Note however, that on the SoX command line, the positions of the Output(s) and the Effects are swapped w.r.t. the logical flow just shown. Note also that whilst options pertaining to files are placed before their respective file name, the opposite is true for effects. To show how this works in practice, here is a selection of examples of how SoX might be used. The simple

sox recital.au recital.wav

は、 Sun AU 形式の音声ファイルを Microsoft WAV ファイルに変換する。 一方: translates an audio file in Sun AU format to a Microsoft WAV file, whilst

sox recital.au -b 16 recital.wav channels 1 rate 16k fade 3 norm

は、同じ形式変換に加え,4つのエフェクト: 1 チャンネルへのダウンミックス( channels 1 ), サンプルレート変換( rate 16k ), フェードイン( fade 3 ), 正規化 ( norm )を適用し、結果をビット深度 16( -b 16 )として格納する。 performs the same format translation, but also applies four effects (down-mix to one channel, sample rate change, fade-in, nomalize), and stores the result at a bit-depth of 16.

sox -r 16k -e signed -b 8 -c 1 voice-memo.raw voice-memo.wav

は ‘raw’ (別名 ‘ヘッダレス’ )音声を自己記述ファイル形式に変換し, converts ‘raw’ (a.k.a. ‘headerless’) audio to a self-describing file format,

sox slow.aiff fixed.aiff speed 1.027

は 音声の再生速度を調整し( speed 1.027 ), adjusts audio speed,

sox short.wav long.wav longer.wav

は 2つの音声ファイルを連結し, concatenates two audio files, and

sox -m music.mp3 voice.wav mixed.flac

は 2つの音声ファイルを混合( mix )する( -m )。 mixes together two audio files.

play "The Moonbeams/Greatest/*.ogg" bass +3

は 一連の音声ファイルを低音ブーストエフェクト( bass +3 )をかけながら再生する。 plays a collection of audio files whilst applying a bass boosting effect,

play -n -c1 synth sin %-12 sin %-9 sin %-5 sin %-2 fade h 0.1 1 0.1

は パイプオルガンの音色により ‘短七’ 和音の合成音( synth sin %-12 sin %-9 sin %-5 sin %-2 )を再生する。 plays a synthesised ‘A minor seventh’ chord with a pipe-organ sound,

rec -c 2 radio.aiff trim 0 30:00

は ステレオ音声( -c 2 )を 30 分間( trim 0 30:00 )記録し, records half an hour of stereo audio, and

play -q take1.aiff & rec -M take1.aiff take1-dub.aiff

は( POSIX シェルとハードウェアのサポートがあれば)マルチトラック録音( rec -M )により新規トラックを記録する。 最後に (with POSIX shell and where supported by hardware) records a new track in a multi-track recording. Finally,

rec -r 44100 -b 16 -e signed-integer -p \
     silence 1 0.50 0.1% 1 10:00 0.1% | \
     sox -p song.ogg silence 1 0.50 0.1% 1 2.0 0.1% : \
     newfile : restart

は LP やカセットなどの音声ストリームを記録し( rec -r 44100 -b 16 -s -p ),2 秒間の静音区間により( silence 1 0.50 0.1% 1 2.0 0.1% )複数の音声ファイルに分割する( song.ogg, newfile : restart )。 また、これは音声再生が検知されるまで録音を開始せず,静音が 10 秒間継続すると停止する( silence 1 0.50 0.1% 1 10:00 0.1% )。 records a stream of audio such as LP/cassette and splits in to multiple audio files at points with 2 seconds of silence. Also, it does not start recording until it detects audio is playing and stops after it sees 10 minutes of silence.

注記: 上記は SoX の能力の一端を概観したものに過ぎない。 SoX のすべての パラメタ, ファイル形式, エフェクトの利用の仕方についての詳細な説明は、このマニュアルの残りの部分と soxformat(7), soxi(1) にて述べられる。 N.B. The above is just an overview of SoX’s capabilities; detailed explanations of how to use all SoX parameters, file formats, and effects can be found below in this manual, in soxformat(7), and in soxi(1).

ファイルの形式とタイプ

SoX は ‘自己記述’ と ‘raw’ のいずれの音声ファイルにも対応する。 ‘自己記述’ 形式(例えば WAV, FLAC, MP3 )はヘッダを持つ。 このヘッダは、後続の音声データに含まれる,信号とその符号化方式( encoding ),の属性を完全に記述する。 ‘raw’ (‘生の’ — 別称 ‘ヘッダレス’ )形式はこの情報を持たないので、これらの音声の属性が SoX コマンドラインの中で与えられるか, 入力ファイルから推定されなければならない。 【 WAV, FLAC, MP3 など、一般的に "ファイル形式" と称されることも多い,ファイルの タイプ( type )とファイルの 形式( format )とは、データに対する捉え方の点でニュアンスが異なることに注意。 大雑把に言って、形式は下の表の4属性の組からなる内部的で抽象化された概念が念頭に置かれているのに対し、タイプは文字通りファイルの種類を指すもので,これらの各属性データをファイルストリームのデータ構成に直列化するための具体的な構成仕様/配置規則に付けられた名称を指す、というのが訳者の理解である。】 SoX can work with ‘self-describing’ and ‘raw’ audio files. ‘self-describing’ formats (e.g. WAV, FLAC, MP3) have a header that completely describes the signal and encoding attributes of the audio data that follows. ‘raw’ or ‘headerless’ formats do not contain this information, so the audio characteristics of these must be described on the SoX command line or inferred from those of the input file.

次の4つの属性が SoX が処理可能な音声データの形式の記述に利用される: The following four characteristics are used to describe the format of audio data such that it can be processed with SoX:

サンプルレート

サンプルレートは 1 秒間あたりのサンプル数を表す( ‘Hertz’ または ‘Hz’ )。 デジタル電話通信は伝統的にサンプルレート 8000Hz ( 8kHz )であるが、今日では 16 あるいは 32kHz までも一般的になってきている。 オーディオ CD は 44100Hz ( 44.1kHz )である。 DAT や多くのコンピュータシステムにおいては 48kHz が用いられている。 プロ用のオーディオシステムにおいては 96 kHz がよく利用されている。 The sample rate in samples per second (‘Hertz’ or ‘Hz’). Digital telephony traditionally uses a sample rate of 8000 Hz (8 kHz), though these days, 16 and even 32 kHz are becoming more common. Audio Compact Discs use 44100 Hz (44.1 kHz). Digital Audio Tape and many computer systems use 48 kHz. Professional audio systems often use 96 kHz.

サンプルサイズ

各サンプルが保持するビット数(別称 ‘ビット深度’ )。 現在では 16 ビットが一般的である。 草創期のコンピュータ音声では 8 ビットが普及していた。 プロオーディオの分野では 24 ビットが利用されている。 他のサイズも利用されている。 The number of bits used to store each sample. Today, 16-bit is commonly used. 8-bit was popular in the early days of computer audio. 24-bit is used in the professional audio arena. Other sizes are also used.

データ符号化方式

各音声サンプルが表現( ‘符号化’ /エンコード)される方式。 一部の符号化方式にはバイトオーダーやビットオーダーが異なる変種がある。 一部の符号化方式においては音声データ領域(すなわちディスクスペースまたは伝送帯域幅)を他の形式パラメタとサンプル数から導出される量より節約するために、圧縮が行われる。 広く利用されている符号化方式には、浮動小数点, μ-law, ADPCM, 符号付き整数 PCM, MP3, FLAC などがある。 The way in which each audio sample is represented (or ‘encoded’). Some encodings have variants with different byte-orderings or bit-orderings. Some compress the audio data so that the stored audio data takes up less space (i.e. disk space or transmission bandwidth) than the other format parameters and the number of samples would imply. Commonly-used encoding types include floating-point, μ-law, ADPCM, signed-integer PCM, MP3, and FLAC.

チャンネル数

ファイル内に含まれる音声チャンネル数。 1( ‘モノラル’ )および 2 ( ‘ステレオ’ )が広く利用されている。 ‘サラウンド’ 音声には概して 6 チャンネル以上含まれる。 The number of audio channels contained in the file. One (‘mono’) and two (‘stereo’) are widely used. ‘Surround sound’ audio typically contains six or more channels.

‘ビットレート’ は単位時間あたりに符号化される音声信号の量を表す。 これは上のすべてに依存して定まるもので、通常は 1 秒あたりのキロビット数( kbps )で記述される。 A-law 電話通信信号のビットレートは 64 kbps である。 MP3 符号化ステレオ楽曲のビットレートは 128-196 kbps のものが多い。 FLAC 符号化ステレオ楽曲のビットレートは 550-760 kbps のものが多い。 The term ‘bit-rate’ is a measure of the amount of storage occupied by an encoded audio signal over a unit of time. It can depend on all of the above and is typically denoted as a number of kilo-bits per second (kbps). An A-law telephony signal has a bit-rate of 64 kbps. MP3-encoded stereo music typically has a bit-rate of 128-196 kbps. FLAC-encoded stereo music typically has a bit-rate of 550-760 kbps.

ほとんどの自己記述形式では、例えば楽曲のタイトル, 作者, 等々の,音声に何らかの説明を加えるために利用できる ‘コメント’ テキストを埋め込むことができる。 Most self-describing formats also allow textual ‘comments’ to be embedded in the file that can be used to describe the audio in some way, e.g. for music, the title, the author, etc.

音声ファイルコメントの重要な用途の一つとして ‘再生ゲイン’ 情報の伝達がある。 SoX は再生ゲイン情報の適用をサポートする(一部のファイル形式に限られるが、現時点では,少なくとも FLAC と Ogg Vorbis は含まれる)が、生成はサポートしない。 既定においては、 SoX は,再生ゲイン情報が入力ファイルにあれば,出力ファイルにもそれが含まれるようにするため、(出力ファイル形式がコメントをサポートしていれば)入力ファイルコメントを出力ファイル内に複製する。 このとき、単なる形式変換ではない何らかの変換が行われた場合、出力ファイルの再生ゲイン情報が正確でなくなることが見込まれるので,( SoX でない)他のツールにより再計算する必要が生じる。 One important use of audio file comments is to convey ‘Replay Gain’ information. SoX supports applying Replay Gain information (for certain input file formats only; currently, at least FLAC and Ogg Vorbis), but not generating it. Note that by default, SoX copies input file comments to output files that support comments, so output files may contain Replay Gain information if some was present in the input file. In this case, if anything other than a simple format conversion was performed then the output file Replay Gain information is likely to be incorrect and so should be recalculated using a tool that supports this (not SoX).

soxi(1) コマンドを音声ファイルのヘッダ情報の表示に利用できる。 The soxi(1) command can be used to display information from audio file headers.

ファイル形式の決定と設定

SoX には、音声ファイル形式の属性の決定/設定を行うための,いくつかの仕組みが用意されている。 状況によっては、実際の属性は別々の仕組みから決定/設定され得る。 There are several mechanisms available for SoX to use to determine or set the format characteristics of an audio file. Depending on the circumstances, individual characteristics may be determined or set using different mechanisms.

入力ファイル形式の決定には、与えられた情報, または利用可能な情報の中から,優先度の高い順に次のものが利用される: To determine the format of an input file, SoX will use, in order of precedence and as given or available:

  1. コマンドラインで与えられた形式オプション。 Command-line format options.

  2. ファイルヘッダの内容。 The contents of the file header.

  3. ファイル名拡張子。 The filename extension.

出力ファイル形式の設定には、与えられた情報, または利用可能な情報の中から,優先度の高い順に次のものが利用される: To set the output file format, SoX will use, in order of precedence and as given or available:

  1. コマンドラインで与えられた形式オプション。 Command-line format options.

  2. ファイル名拡張子。 The filename extension.

  3. 入力ファイル形式の属性、または出力ファイルタイプでサポートされる属性のうち,それに最も近いもの。 The input file format characteristics, or the closest that is supported by the output file type.

ファイルタイプを決定できない場合、 SoX はエラーを送出して終了する。 この場合、コマンドラインの形式オプションを追加するか変更する必要がある。 For all files, SoX will exit with an error if the file type cannot be determined. Command-line format options may need to be added or changed to resolve the problem.

音声の再生と記録

基本的な再生および記録を簡略化するため、 play および rec コマンドが提供されている。 次のように: The play and rec commands are provided so that basic playing and recording is as simple as

play existing-file.wav

および: and

rec new-file.wav

これら2つのコマンドはそれぞれ次と等価である: These two commands are functionally equivalent to

sox existing-file.wav -d

および: and

sox -d new-file.wav

もちろん、いずれにおいても,更なるオプションやエフェクトを(以下で述べるように)追加できる。 Of course, further options and effects (as described below) can be added to the commands in either form.


一部のシステムには、複数の種類の( SoX と互換性のある)音声ドライバが提供されている: 例えば ALSA & OSS や, SUNAU & AO など。 システムは複数の音声デバイス( ‘サウンドカード’ )も持ち得る。 複数の音声ドライバが SoX に組み込まれていて、かつ,記録/再生において SoX の既定の選択が望ましいものではない場合、 AUDIODRIVER 環境変数でその既定の設定を上書きできる。 例えば(多くのシステムでは): Some systems provide more than one type of (SoX-compatible) audio driver, e.g. ALSA & OSS, or SUNAU & AO. Systems can also have more than one audio device (a.k.a. ‘sound card’). If more than one audio driver has been built-in to SoX, and the default selected by SoX when recording or playing is not the one that is wanted, then the AUDIODRIVER environment variable can be used to override the default. For example (on many systems):

set AUDIODRIVER=oss
play ...

AUDIODEV 環境変数により既定の音声デバイスを上書きできる。 例えば: The AUDIODEV environment variable can be used to override the default audio device, e.g.

set AUDIODEV=/dev/dsp2
play ...
sox ... -t oss

あるいは: or

set AUDIODEV=hw:soundwave,1,2
play ...
sox ... -t alsa

環境変数の設定の仕方はシステムによって異なり得る事に注意。 一部の特定の例については下の ‘SOX_OPTS’ を見よ。 Note that the way of setting environment variables varies from system to system - for some specific examples, see ‘SOX_OPTS’ below.

音声出力デバイスでサポートされていないサンプルレートのファイルが再生される場合、必要なサンプルレート変換を得るために rate エフェクトが自動的に呼び出される。 【参考( Mac OS X の場合):入出力デバイスのサンプルレート/サイズは、 アプリケーション/ユーティリティ/Audio MIDI 設定.app から設定すると良い。】 古いハードウェアとの互換性のため、既定の rate 品質レベルは ‘low’ に設定されている。 別の品質レベルを伴う rate エフェクトを明示的に指定することにより、このふるまいを変更できる。 例えば: When playing a file with a sample rate that is not supported by the audio output device, SoX will automatically invoke the rate effect to perform the necessary sample rate conversion. For compatibility with old hardware, the default rate quality level is set to ‘low’. This can be changed by explicitly specifying the rate effect with a different quality level, e.g.

play ... rate -m

あるいは --play-rate-arg オプションでも可能である(下を見よ)。 or by using the --play-rate-arg option (see below).


一部のシステムでは play による再生中に音量を調整できる。 システムでサポートされていれば、再生中に ‘v’ および ‘V’ キーを叩くことにより行える。 On some systems, SoX allows audio playback volume to be adjusted whilst using play. Where supported, this is achieved by tapping the ‘v’ & ‘V’ keys during playback.

録音レベルの適切な設定を補助するため、 SoX には,(実際の録音を行う前に)次のようにして呼び出せるピークレベルメータが用意されている: To help with setting a suitable recording level, SoX includes a peak-level meter which can be invoked (before making the actual recording) as follows:

rec -n

録音レベルは、メータが多くとも 一時的に 最大スケールを指し、かつ,決して ‘レッドゾーン’ (感嘆符( ! )が表示される)に入らないように、( SoX ではなく,システムが提供するミキサープログラムにより)調整されるべきである。 下の -S も見よ。 The recording level should be adjusted (using the system-provided mixer program, not SoX) so that the meter is at most occasionally full scale, and never ‘in the red’ (an exclamation mark is shown). See also -S below.

正確性

多くの 音声を圧縮するファイル形式では、いくばくかの音声信号情報が圧縮過程の中で破棄されている。 その種の形式に変換された場合、再変換で元の形式に戻しても元々の音声と正確に一致しなくなる。 これは、音声の忠実度よりも信号帯域幅の狭さが重視される,電話通信に利用される形式の多く( A-law, GSM など)、あるいは携帯音楽プレーヤでも実用になるような,大きな圧縮比でも十分な忠実度が得られる形式の多く( MP3, Vorbis など)に該当する。 Many file formats that compress audio discard some of the audio signal information whilst doing so. Converting to such a format and then converting back again will not produce an exact copy of the original audio. This is the case for many formats used in telephony (e.g. A-law, GSM) where low signal bandwidth is more important than high audio fidelity, and for many formats used in portable music players (e.g. MP3, Vorbis) where adequate fidelity can be retained even with the large compression ratios that are needed to make portable players practical.

音声信号情報を破棄する形式は ‘不可逆’( lossy )と呼ばれる。 そうでない形式は ‘可逆’(ロスレス — lossless )と呼ばれる。 ‘品質’ とは、不可逆形式において元々の音声信号がどの程度再現できるかを表す尺度を指す。 Formats that discard audio signal information are called ‘lossy’. Formats that do not are called ‘lossless’. The term ‘quality’ is used as a measure of how closely the original audio signal can be reproduced when using a lossy format.

SoX による音声ファイル変換は、可能な所 — すなわち、不可逆形式が利用されない所, サンプリングレートやチャンネル数を減らさない所, 出力形式で利用されるビット数が入力形式で利用されるビット数より少なくならない所 — では,常に可逆である。 例えば、 8 ビット PCM 形式から 16 ビット PCM 形式への変換など。 一方、 8 ビット PCM 形式から( 8 ビット) A-law 形式への変換は可逆ではない。 Audio file conversion with SoX is lossless when it can be, i.e. when not using lossy compression, when not reducing the sampling rate or number of channels, and when the number of bits used in the destination format is not less than in the source format. E.g. converting from an 8-bit PCM format to a 16-bit PCM format is lossless but converting from an 8-bit PCM format to (8-bit) A-law isn’t.

注記: SoX においては、どの音声ファイルも,音声処理を行う前に無圧縮の形式に内部的に変換される。 したがって,不可逆形式のファイルを扱う場合、音声の忠実度が更に劣化し得る。 例えば: N.B. SoX converts all audio files to an internal uncompressed format before performing any audio processing. This means that manipulating a file that is stored in a lossy format can cause further losses in audio fidelity. E.g. with

sox long.mp3 short.mp3 trim 10

においては、まず入力 MP3 ファイルが解凍され,次に trim エフェクトが適用された後,最後に出力 MP3 を作成する段階で再圧縮が行われる。 このとき、入力ファイルの作成時に生じたもの以上の忠実度の劣化が生じ得る。 したがって、最終的には不可逆の圧縮音声が望まれる場合でも、可逆ファイル形式においてすべての音声処理を行い,最後の段階で不可逆形式に変換することが強く推奨される。 SoX first decompresses the input MP3 file, then applies the trim effect, and finally creates the output MP3 file by re-compressing the audio - with a possible reduction in fidelity above that which occurred when the input file was created. Hence, if what is ultimately desired is lossily compressed audio, it is highly recommended to perform all audio processing using lossless file formats and then convert to the lossy format only at the final stage.

注記: 複数のエフェクトを適用する場合、一般的に, SoX の一度の呼び出しでまとめて適用する方が,複数回に分けて呼び出すよりも正確な結果を生成する。 N.B. Applying multiple effects with a single SoX invocation will, in general, produce more accurate results than those produced using multiple SoX invocations.

ディザリング

ディザリング とは、一定ビット深度の音声のダイナミックレンジを最大化するための技法である。 量子化によりもたらされる歪みは、信号に対し微小なホワイトノイズを付加して,元信号との連関性を除去することにより、知覚されにくくなる。 ほとんどの場合、 SoX は,指定された処理がディザリングを要するものかどうか決定でき、出力フォーマット化の過程において,適切にディザを付加する。 Dithering is a technique used to maximise the dynamic range of audio stored at a particular bit-depth. Any distortion introduced by quantisation is decorrelated by adding a small amount of white noise to the signal. In most cases, SoX can determine whether the selected processing requires dither and will add it during output formatting if appropriate.

特に,既定では、出力ビット深度が 24 よりも少なく, かつ 次のいずれかが成立する場合、 TPDF ディザが自動的に付加される: Specifically, by default, SoX automatically adds TPDF dither when the output bit-depth is less than 24 and any of the following are true:

  • ビット深度の削減がコマンドラインオプションの中で明示的に指定されている場合 bit-depth reduction has been specified explicitly using a command-line option

  • 出力ファイル形式がサポートするビット深度が、入力ファイル形式のビット深度より小さい場合 the output file format supports only bit-depths lower than that of the input file format

  • エフェクトが内部処理チェインにおける実効ビット深度を増大させた場合 an effect has increased effective bit-depth within the internal processing chain

例えば音量を vol 0.25 に調整する場合、結果を可逆にするためには 2 ビットの追加が必要になる( 10 進数の 0.25 は 2 進数の 0.01 に等しいので)。 入力ファイルのビット深度が 16 だった場合、 SoX の中ではこの音量調整の処理後に 18 ビットが内部表現に用いられることになる。 出力のビット深度を入力と同じにするために追加ビットを削減する際に,ディザリングが利用される。 For example, adjusting volume with vol 0.25 requires two additional bits in which to losslessly store its results (since 0.25 decimal equals 0.01 binary). So if the input file bit-depth is 16, then SoX’s internal representation will utilise 18 bits after processing this volume change. In order to store the output at the same depth as the input, dithering is used to remove the additional bits.

SoX が何を自動的に付加したかを調べるには -V オプションが利用できる。 自動ディザリングの上書きには -D オプションが利用できる。 手動によるディザリングの呼び出しについては(例えばノイズシェーピング曲線を選択するために)、dither エフェクトを見よ。 Use the -V option to see what processing SoX has automatically added. The -D option may be given to override automatic dithering. To invoke dithering manually (e.g. to select a noise-shaping curve), see the dither effect.

クリッピング

クリッピングとは、音声信号レベル( ‘音量’ )が表現し得る範囲を超えたときに生じる歪みである。 ほとんどの場合、クリッピングは望ましいものではなく,(処理チェインの中で)それが生じる前の所でレベル調整により修正されるべきである。 Clipping is distortion that occurs when an audio signal level (or ‘volume’) exceeds the range of the chosen representation. In most cases, clipping is undesirable and so should be corrected by adjusting the level prior to the point (in the processing chain) at which it occurs.

容易に推察されるように、クリッピングは音量を上げるために volgain エフェクトを利用する際に生じ得る。 クリッピングは他の多くのエフェクトでも,あるいは別の形式に変換したり, 単に音声を再生するときですら、起こり得る。 In SoX, clipping could occur, as you might expect, when using the vol or gain effects to increase the audio volume. Clipping could also occur with many other effects, when converting one format to another, and even when simply playing the audio.

音声ファイルの再生においては,しばしば再サンプルが行われ、アナログ機器における処理の段階で微小な DC オフセットや増幅がもたらされる。 これらのすべては音声信号レベルが元からクリッピング点に近過ぎる所で歪みを生じさせる。 Playing an audio file often involves resampling, and processing by analogue components can introduce a small DC offset and/or amplification, all of which can produce distortion if the audio signal level was initially too close to the clipping point.

これらの理由から、音声ファイルの信号レベルは,与えられた表現に可能な最大レベルより一定レベル下のレベルを超えないように,いくばくかの ‘ヘッドルーム’ をとっておくことが常である。 一部の標準団体では 9dB のヘッドルームが推奨されているが、ほとんどの場合 3dB (約 70% リニア)で十分である。 この知恵は現代の楽曲制作では忘れられているように見受けられる。 事実、多くの CD, MP3, 等々が 0 dBFS を超えるレベルでマスタリングされている。 すなわち音声は出荷時にはクリップされている。 For these reasons, it is usual to make sure that an audio file’s signal level has some ‘headroom’, i.e. it does not exceed a particular level below the maximum possible level for the given representation. Some standards bodies recommend as much as 9dB headroom, but in most cases, 3dB (≈ 70% linear) is enough. Note that this wisdom seems to have been lost in modern music production; in fact, many CDs, MP3s, etc. are now mastered at levels above 0dBFS i.e. the audio is clipped as delivered.

SoX の stat および stats エフェクトは音声ファイル内の信号レベルの決定を補助する。 クリッピングの防止には gainvol エフェクトを利用できる。 例えば: SoX’s stat and stats effects can assist in determining the signal level in an audio file. The gain or vol effect can be used to prevent clipping, e.g.

sox dull.wav bright.wav gain -6 treble +6

は、高域ブーストが確実にクリップしないようにする。 guarantees that the treble boost will not clip.

処理の中でクリッピングが生じた場合、そのエフェクトに対する警告メッセージが表示される。 If clipping occurs at any point during processing, SoX will display a warning message to that effect.

-G, gain, norm エフェクトも見よ。 See also -G and the gain and norm effects.

入力ファイルの結合

SoX の入力結合器では、複数のファイルの結合を次のいずれかのメソッド: concatenate, sequence, mix, mix-power, merge, multiply, で行うように設定できる(下のオプション — --combine を見よ)。 play に対する既定のメソッドは sequence である。 rec および sox に対する既定のメソッドは concatenate である。 SoX’s input combiner can be configured (see OPTIONS below) to combine multiple files using any of the following methods: ‘concatenate’, ‘sequence’, ‘mix’, ‘mix-power’, ‘merge’, or ‘multiply’. The default method is ‘sequence’ for play, and ‘concatenate’ for rec and sox.

sequence 以外のすべてのメソッドにおいては、複数の入力ファイルが同じサンプルレートを持っていなければならない。 必要なら、別々の SoX の呼び出しにより,結合前のサンプルレート調整を行える。 For all methods other than ‘sequence’, multiple input files must have the same sampling rate. If necessary, separate SoX invocations can be used to make sampling rate adjustments prior to combining.

concatenate 結合メソッドが選択された場合(通常はこれが既定になる)、入力ファイルのチャンネル数は同じ数に揃っていなければならない。 各入力からの音声は、出力を形成する際に与えられた順番に連結される。 If the ‘concatenate’ combining method is selected (usually, this will be by default) then the input files must also have the same number of channels. The audio from each input will be concatenated in the order given to form the output file.

play においては sequence 結合メソッドが自動的に選択される。 これは各入力ファイルからの音声が順次出力ファイルへ送出される点で concatenate に似ている。 しかしながら、出力ファイルは対応する入力ファイルの変わり目で一度閉じられ,再び開かれる点で異なる。 これは異なる種類の音声を出力デバイスに送出するときに必要になるものだが、出力先が通常のファイルの場合は一般に有用ではない。 The ‘sequence’ combining method is selected automatically for play. It is similar to ‘concatenate’ in that the audio from each input file is sent serially to the output file. However, here the output file may be closed and reopened at the corresponding transition between input files. This may be just what is needed when sending different types of audio to an output device, but is not generally useful when the output is a normal file.

mix または mix-power 結合メソッドが選択された場合、複数の入力ファイルが与えられなければならず,それらは出力ファイルに混合される。 各入力ファイルのチャンネル数は不揃いでもよいが、その場合は SoX から警告が発せられ,出力ファイルの一部のチャンネルは一部の入力ファイルからの音声を含まないことになる。 混合された音声ファイルは元の入力ファイルへの参照を伴わない限り元には戻せない。 If either the ‘mix’ or ‘mix-power’ combining method is selected then two or more input files must be given and will be mixed together to form the output file. The number of channels in each input file need not be the same, but SoX will issue a warning if they are not and some channels in the output file will not contain audio from every input file. A mixed audio file cannot be un-mixed without reference to the original input files.

merge 結合メソッドが選択された場合、複数の入力ファイルが与えられなければならず,出力ファイルを形成するために合併される。 各入力ファイルのチャンネル数は不揃いでもよい。 合併された音声ファイルは、すべての入力ファイルのすべてのチャンネルから構成される。 remix エフェクトを伴う,複数回の SoX の呼び出しを用いて、合併を元に戻すことができる。 例えば2個のモノラルファイルを,ステレオファイルを形成するように合併することができる。 モノラルファイルは、順に,ステレオファイルの左と右のチャンネルになる。 If the ‘merge’ combining method is selected then two or more input files must be given and will be merged together to form the output file. The number of channels in each input file need not be the same. A merged audio file comprises all of the channels from all of the input files. Un-merging is possible using multiple invocations of SoX with the remix effect. For example, two mono files could be merged to form one stereo file. The first and second mono files would become the left and right channels of the stereo file.

multiply 結合メソッドは、対応するチャンネルのサンプル値の積をとる( [-1 ... +1] 区間の数値に換算した上で)。 入力ファイルのチャンネル数が不揃いであった場合、欠けた方のチャンネルのサンプル値はすべてゼロとみなされる。 The ‘multiply’ combining method multiplies the sample values of corresponding channels (treated as numbers in the interval -1 to +1). If the number of channels in the input files is not the same, the missing channels are considered to contain all zero.

入力ファイルの結合においては、指定された(例えば vol 音量調整エフェクトも含めた)どのエフェクトも音声の結合後に適用される。 しかしながら、結合前に個々の入力の音量を設定する(すなわち ‘バランス’ をとる)こともしばしば有用になる。 When combining input files, SoX applies any specified effects (including, for example, the vol volume adjustment effect) after the audio has been combined. However, it is often useful to be able to set the volume of (i.e. ‘balance’) the inputs individually, before combining takes place.

すべての結合メソッドにおいて、下の -v オプションを用いて, 1 個以上の入力ファイルに対しその音量調整を手動で行える。 一部の入力ファイルに対してのみ与えられた場合、他のものに対する音量調整は行われない。 一部の状況においては音量調整が自動的に適用される(下を見よ)。 For all combining methods, input file volume adjustments can be made manually using the -v option (below) which can be given for one or more input files. If it is given for only some of the input files then the others receive no volume adjustment. In some circumstances, automatic volume adjustments may be applied (see below).

選択された入力ファイルの音量調整の表示には、下の -V オプションが利用できる(手動/自動いずれに対しても)。 The -V option (below) can be used to show the input file volume adjustments that have been selected (either manually or automatically).

入力ファイルの混合(ミキシング — mixing )には特別な配慮が必要になる: There are some special considerations that need to made when mixing input files:

他のメソッドと異なり、 mix 結合では,バランス調整が施されなければ 結合器においてクリッピングが生じ得る。 この場合,手動による音量調整が与えられていなければ、 SoX は各入力信号の音量(振幅)を,クリッピングが生じないように自動的に ¹/n 倍する( n は入力ファイル数)。 この結果の音量が小さ過ぎたりバランスが悪い場合は、入力ファイルの音量を上述のように手動で設定する。 norm エフェクトを利用する方法もある。 Unlike the other methods, ‘mix’ combining has the potential to cause clipping in the combiner if no balancing is performed. In this case, if manual volume adjustments are not given, SoX will try to ensure that clipping does not occur by automatically adjusting the volume (amplitude) of each input signal by a factor of ¹/ n , where n is the number of input files. If this results in audio that is too quiet or otherwise unbalanced then the input file volumes can be set manually as described above. Using the norm effect on the mix is another alternative.

混合された音声の音量が,ある所では十分大きいが他の所では小さ過ぎる場合、その修正にはダイナミックレンジ圧縮が適用されるべきである。 compand エフェクトを見よ。 If mixed audio seems loud enough at some points but too quiet in others then dynamic range compression should be applied to correct this - see the compand effect.

mix-power 結合メソッドの場合、混合された音量は入力信号の1つの音量にほぼ等しくなる。 これは倍率係数に ¹/n の代わりに ¹/√n を用いてバランスをとることで得られる。 このバランス係数はクリッピング防止を保障するものではないが、通常はクリップされる頻度は少なく済み,結果の歪みは一般的に知覚できないものになる。 With the ‘mix-power’ combine method, the mixed volume is approximately equal to that of one of the input signals. This is achieved by balancing using a factor of ¹/ √n instead of ¹/ n . Note that this balancing factor does not guarantee that clipping will not occur, but the number of clips will usually be low and the resultant distortion is generally imperceptible.

出力ファイル

SoX の既定のふるまいでは、 1 個以上の入力ファイルをとり, 1 個の出力ファイルに書き出す。 SoX’s default behaviour is to take one or more input files and write them to a single output file.

このふるまいは、エフェクトのリストに疑似エフェクト newfile を挿入することにより,変更できる。 このとき SoX は複数出力モードに入る。 This behaviour can be changed by specifying the pseudo-effect ‘newfile’ within the effects list. SoX will then enter multiple output mode.

複数出力モードにおいては、 newfile の前のエフェクトが終了した所で,新規ファイルが作成される。 しかる後, newfile の後のエフェクトチェインが開始され、その出力がその新規ファイルに保存される。 In multiple output mode, a new file is created when the effects prior to the ‘newfile’ indicate they are done. The effects chain listed after ‘newfile’ is then started up and its output is saved to the new file.

複数出力モードにおいては、すべてのファイル名に一意的な番号が付与されることになる。 ファイル名に拡張子がある場合、番号は拡張子の前に挿入される。 このふるまいは、ファイル名の中で番号を挿入すべき場所に %n を与えることにより,変更できる。 %n の間には、オプションで,番号の最小桁数を指示する数字を挿入することもできる。 In multiple output mode, a unique number will automatically be appended to the end of all filenames. If the filename has an extension then the number is inserted before the extension. This behaviour can be customized by placing a %n anywhere in the filename where the number should be substituted. An optional number can be placed after the % to indicate a minimum fixed width for the number.

複数出力モードは、 newfile の前にエフェクトチェインを早期に停止させるエフェクトが指定されない限り,あまり有用ではない。 エフェクトチェインが自身を停止させる前に,ファイルの終端に達した場合、新たなファイルは空になるので作成されない。 Multiple output mode is not very useful unless an effect that will stop the effects chain early is specified before the ‘newfile’. If end of file is reached before the effects chain stops itself then no new file will be created as it would be empty.

次の例は、入力ファイルの最初の 60 秒を2つの 30 秒のファイルに分割して,残りは無視する: The following is an example of splitting the first 60 seconds of an input file into two 30 second files and ignoring the rest.

sox song.wav ringtone%1n.wav trim 0 30 : newfile : trim 0 30

SoX の停止

通常、 SoX はいったん入力ファイルから利用可能なすべての音声データを読み取れば,その処理を完了させた後に自動的に終了する。 Usually SoX will complete its processing and exit automatically once it has read all available audio data from the input files.

必要なら,プロセスに割り込みシグナルを送ることにより、停止させられる(通常はキーボードの割り込みキー(普通は Ctrl-C )を用いる)。 これは例えば SoX を録音に利用する場合など、一部の状況では自然な要件になる。 複数のファイルを再生している状況の下では、 Ctrl-C は少し異なったふるまいになることに注意: 一度だけ押した場合, SoX は次のファイルへスキップし、間を空けずにもう一度繰り返すと終了する。 If desired, it can be terminated earlier by sending an interrupt signal to the process (usually by pressing the keyboard interrupt key which is normally Ctrl-C). This is a natural requirement in some circumstances, e.g. when using SoX to make a recording. Note that when using SoX to play multiple files, Ctrl-C behaves slightly differently: pressing it once causes SoX to skip to the next file; pressing it twice in quick succession causes SoX to exit.

処理を早期に停止させる他のオプションとして、停止位置が,時間またはサンプル数から定まるエフェクトも用意されている。 例えば trim エフェクト。 すべてのエフェクトチェインが終了すれば SoX は停止する。 Another option to stop processing early is to use an effect that has a time period or sample count to determine the stopping point. The trim effect is an example of this. Once all effects chains have stopped then SoX will also stop.

ファイル名

ファイル名は、単純なファイル名, 絶対または相対パス名, あるいは URL (入力ファイルのみ)で与えられる。 URL のサポートには wget(1) が必要になることに注意。 Filenames can be simple file names, absolute or relative path names, or URLs (input files only). Note that URL support requires that wget(1) is available.

注記:入出力ファイル名に SoX エフェクト名と同じ名前を与えると、エフェクトの指定とみなされるので正しく動作しなくなる。 これを回避する唯一の方法は、そのようなファイル名を利用しないことである。 これは一般的に、ほとんどの音声ファイル名がファイル名 ‘拡張子’ を持つ一方で,エフェクト名は持たないことから、難しくはない。 Note: Giving SoX an input or output filename that is the same as a SoX effect-name will not work since SoX will treat it as an effect specification. The only work-around to this is to avoid such filenames. This is generally not difficult since most audio filenames have a filename ‘extension’, whilst effect-names do not.

特殊ファイル名

状況によっては、通常のファイル名の代わりに,次のファイル名をコマンドラインに利用できる: The following special filenames may be used in certain circumstances in place of a normal filename on the command line:

-

特殊ファイル名 ‘-’ を用いることにより、 SoX を単純なパイプライン処理に利用できる。 入力ファイル名として用いられた場合、音声データは ‘標準入力’( stdin )から読み取られる。 出力ファイル名として用いられた場合、音声データは ‘標準出力’( stdout )に書き出される。 このオプションを出力ファイルに利用する際, あるいは場合によっては入力ファイルに利用する際も、ファイルタイプが与えられなければならない(下の -t を見よ)。 SoX can be used in simple pipeline operations by using the special filename ‘-’ which, if used as an input filename, will cause SoX will read audio data from ‘standard input’ (stdin), and which, if used as the output filename, will cause SoX will send audio data to ‘standard output’ (stdout). Note that when using this option for the output file, and sometimes when using it for an input file, the file-type (see -t below) must also be given.

"|program [options] ..."

入力ファイル名の代わりに,与えられたプログラムの標準出力( stdout )を入力ファイルとして用いる。 上の - と異なり、これは一度の SoX コマンドに対し,複数の入力を与えるために利用できる。 例えば genw がモノラルの WAV 形式の信号を標準出力に生成するコマンドだとする。 次のコマンドにより、2つの生成信号からステレオファイルが作成される: This can be used in place of an input filename to specify the the given program’s standard output (stdout) be used as an input file. Unlike - (above), this can be used for several inputs to one SoX command. For example, if ‘genw’ generates mono WAV formatted signals to its standard output, then the following command makes a stereo file from two generated signals:

sox -M "|genw --imd -" "|genw --thd -" out.wav

ヘッダレス( raw )音声に対しては、入力コマンドの前に -t が必要になる(加えて,他の形式オプションも必要になるだろう)。 For headerless (raw) audio, -t (and perhaps other format options) will need to be given, preceding the input command.

"wildcard-filename"

ファイル名の ‘globbing’ (ワイルドカードによる照合)を,シェルの代わりに SoX が行うようにする。 これにより、一組のファイルオプションを複数のファイルに適用できるようになる。 例えば、カレントディレクトリに3つの ‘vox’ ファイル: file1.vox, file2.vox, file3.vox があるとするとき: Specifies that filename ‘globbing’ (wild-card matching) should be performed by SoX instead of by the shell. This allows a single set of file options to be applied to a group of files. For example, if the current directory contains three ‘vox’ files, file1.vox, file2.vox, and file3.vox, then

play --rate 6k *.vox

は、(大抵の環境では)‘シェル’ により will be expanded by the ‘shell’ (in most environments) to

play --rate 6k file1.vox file2.vox file3.vox

に展開されるが、この場合は最初の vox ファイルのみが,サンプルレート 6k を持つものと解釈される。 これを which will treat only the first vox file as having a sample rate of 6k. With

play --rate 6k "*.vox"

とすれば、与えられたサンプルレートオプションが,3つの vox ファイルすべてに適用される。 the given sample rate option will be applied to all three vox files.

-p, --sox-pipe

これは、出力ファイル名の代わりに, SoX コマンドを別の SoX コマンドの入力パイプに利用させる。 例えば次のコマンド: This can be used in place of an output filename to specify that the SoX command should be used as in input pipe to another SoX command. For example, the command:

play "|sox -n -p synth 2" "|sox -n -p synth 2 tremolo 10" stat

は、それぞれ異なるエフェクトを伴う2つの ‘ファイル’ を連続して再生する。 plays two ‘files’ in succession, each with different effects.

実際、 -p は ‘-t sox -’ のエイリアスである。 -p is in fact an alias for ‘-t sox -’.

-d, --default-device

入出力ファイル名に代えて、( SoX に組み込まれている)既定の音声デバイスを指定する場合にこれを利用できる。 これは(上述した) rec または play の呼び出しと同種のものになる。 This can be used in place of an input or output filename to specify that the default audio device (if one has been built into SoX) is to be used. This is akin to invoking rec or play (as described above).

-n, --null

入力または出力ファイル名に代えて, ‘null ファイル’ を指定するために これを利用できる。 ここでの ‘null ファイル’ は SoX 固有の仕組みであり、 OS が提供する同様の名前の仕組みとは関係無いことに注意。 This can be used in place of an input or output filename to specify that a ‘null file’ is to be used. Note that here, ‘null file’ refers to a SoX-specific mechanism and is not related to any operating-system mechanism with a similar name.

入力音声における null ファイルの利用は、無限に長い無音を内容とする,通常の音声ファイルの利用と等価であり、一般的に,有限時間を指定するエフェクト( trimsynth など)を伴って初めて有用になる。 Using a null file to input audio is equivalent to using a normal audio file that contains an infinite amount of silence, and as such is not generally useful unless used with an effect that specifies a finite time length (such as trim or synth).

出力音声における null ファイルの利用は、音声を際限なく廃棄するものであり、主に,(音声を加工するエフェクトではなく)音声についての情報を生成するエフェクト( noiseprofstat など)を伴う場合に有用になる。 Using a null file to output audio amounts to discarding the audio and is useful mainly with effects that produce information about the audio instead of affecting it (such as noiseprof or stat).

null ファイルのサンプルレートは,通常のファイルと同様に 48kHz が既定になるが、必要に応じて,後述のコマンドライン形式オプションで上書きできる。 The sampling rate associated with a null file is by default 48 kHz, but, as with a normal file, this can be overridden if desired using command-line format options (see below).

サポートされるファイルタイプとデバイスの種類

サポートされるファイル形式/音声デバイスドライバの一覧と説明については soxformat(7) を参照のこと。 See soxformat(7) for a list and description of the supported file formats and audio device drivers.

オプション

グローバルオプション

これらのオプションは、コマンドラインの中で,最初のエフェクト名より前のどこにでも指定できる。 These options can be specified on the command line at any point before the first effect name.

SOX_OPTS 環境変数を SoX の グローバルオプションの既定値の変更に利用できる。 例えば: The SOX_OPTS environment variable can be used to provide alternative default values for SoX’s global options. For example:

SOX_OPTS="--buffer 20000 --play-rate-arg -hs --temp /mnt/temp"

SOX_OPTS の設定は、 SoX を呼び出すスクリプトや他のプログラムのふるまいに望ましくない変化を生じさせ得る。 SOX_OPTS は(例で与えたように) SoX が実行される環境を反映する類いのものに利用するのが最善である。 --no-clobber のようなオプションを既定で有効化するのは、シェルのエイリアスから操作される方がよい。 シェルのエイリアスはスクリプトその他の処理に影響しないので。 Note that setting SOX_OPTS can potentially create unwanted changes in the behaviour of scripts or other programs that invoke SoX. SOX_OPTS might best be used for things (such as in the given example) that reflect the environment in which SoX is being run. Enabling options such as --no-clobber as default might be handled better using a shell alias since a shell alias will not affect operation in scripts etc.

スクリプトが SOX_OPTS から影響されないようにする確実な方法の一つは,スクリプトの最初で SOX_OPTS をクリアすることであるが、当然ながら SOX_OPTS がシステム全般の何らかの既定オプションを保持できる利点も失われる。 他に、 SoX を呼び出す際に既定のオプション値を明示的に与えるやり方もある。 例えば: One way to ensure that a script cannot be affected by SOX_OPTS is to clear SOX_OPTS at the start of the script, but this of course loses the benefit of SOX_OPTS carrying some system-wide default options. An alternative approach is to explicitly invoke SoX with default option values, e.g.

SOX_OPTS="-V --no-clobber"
...
sox -V2 --clobber $input $output ...

環境変数の設定の仕方はシステムごとに異なり得ることに注意。 例をいくつか挙げる: Note that the way to set environment variables varies from system to system. Here are some examples:

Unix bash : Unix bash:

export SOX_OPTS="-V --no-clobber"

Unix csh : Unix csh:

setenv SOX_OPTS "-V --no-clobber"

MS-DOS/MS-Windows : MS-DOS/MS-Windows:

set SOX_OPTS=-V --no-clobber

MS-Windows GUI : コントロールパネル : システム : 詳細設定 : 環境変数 MS-Windows GUI: via Control Panel : System : Advanced : Environment Variables

Mac OS X GUI : Apple の Technical Q&A QA1067 文書を参照のこと。 Mac OS X GUI: Refer to Apple’s Technical Q&A QA1067 document.

--buffer BYTES
--input-buffer BYTES

音声処理に利用するバッファのサイズを設定する(既定値は 8192 )。 --buffer は入力, エフェクト, 出力のいずれの処理にも適用される。 --input-buffer は入力の処理にのみ適用される(両方与えられていた場合は --buffer を上書きする)。 Set the size in bytes of the buffers used for processing audio (default 8192). --buffer applies to input, effects, and output processing; --input-buffer applies only to input processing (for which it overrides --buffer if both are given).

--buffer に大きな値を設定した場合、現在の入力ファイルに対する,終了/スキップのリクエストに対する SoX の反応が鈍ることに注意。 Be aware that large values for --buffer will cause SoX to be become slow to respond to requests to terminate or to skip the current input file.

--clobber

出力ファイルと同名の既存のファイルが存在する場合に,上書き前の問い合わせを発しないようにする。 これは既定のふるまいである。 Don’t prompt before overwriting an existing file with the same name as that given for the output file. This is the default behaviour.

--combine concatenate|merge|mix|mix-power|multiply|sequence

入力ファイルの結合メソッドを指定する。 これらのうち一部には省略形のオプションも利用できる: -mmix, -Mmerge, -Tmultiply を指定する。 Select the input file combining method; for some of these, short options are available: -m selects ‘mix’, -M selects ‘merge’, and -T selects ‘multiply’.

それぞれの結合メソッドの説明は上述の入力ファイルの結合を見よ。 See Input File Combining above for a description of the different combining methods.

-D, --no-dither

自動ディザリングを無効化する。 上述の ‘ディザリング’ を見よ。 これは時には有用になる。 例えば、何らかの処理目的でファイルを 16 ビットから 24 ビットに変換した後、その処理が実際には不要だったが元々の 16 ビットファイルが失われている場合、厳密に言えば元の 16 ビットを復元する際にディザは不要である。 ファイル内の音声の実質的なビット深度の決定の仕方については stats エフェクトも見よ。 Disable automatic dither - see ‘Dithering’ above. An example of why this might occasionally be useful is if a file has been converted from 16 to 24 bit with the intention of doing some processing on it, but in fact no processing is needed after all and the original 16 bit file has been lost, then, strictly speaking, no dither is needed if converting the file back to 16 bit. See also the stats effect for how to determine the actual bit depth of the audio within a file.

--effects-file FILENAME

すべてのエフェクトとその引数の取得に FILENAME を利用する。 ファイルはコマンドラインに指定されたかの様に構文解析される。 エフェクトチェインを分離するマーカ : の代わりに改行を用いてもよい。 便宜のため、ファイル終端におけるその種のマーカは無視される。 空のエフェクトチェインを末尾に指定したい場合は、ファイルの最後を明示的に : のみの行にする。 このオプションが与えられた場合、コマンドラインに指定されたエフェクトは無視される。 Use FILENAME to obtain all effects and their arguments. The file is parsed as if the values were specified on the command line. A new line can be used in place of the special ":" marker to separate effect chains. For convenience, such markers at the end of the file are normally ignored; if you want to specify an empty last effects chain, use an explicit : by itself on the last line of the file. This option causes any effects specified on the command line to be discarded.

-G, --guard

クリッピング防止のために自動的に gain エフェクトをかけるようにする。 例えば: Automatically invoke the gain effect to guard against clipping. E.g.

sox -G infile -b 16 outfile rate 44100 dither -s

is shorthand for

sox infile -b 16 outfile gain -h rate 44100 gain -rh dither -s

の省略形である。 -V, --norm, gain エフェクトも見よ。 See also -V, --norm, and the gain effect.

-h, --help

バージョン番号と使い方の情報を表示する。 Show version number and usage information.

--help-effect NAME

指定されたエフェクトの用法を表示する。 すべてのエフェクトの用法を表示させるには名前に all を与える。 Show usage information on the specified effect. The name all can be used to show usage on all effects.

--help-format NAME

指定されたファイル形式の情報を表示する。 すべてのファイル形式の情報を表示させるには名前に all を与える。 Show information about the specified file format. The name all can be used to show information on all formats.

-i, --info

sox の最初のパラメタとして与えた場合にのみ有効。 soxi(1) と同じようにふるまう。 Only if given as the first parameter to sox, behave as soxi(1).

-m|-M

それぞれ --combine mix, --combine merge と等価。 Equivalent to --combine mix and --combine merge, respectively.

--magic

SoX がオプションの ‘libmagic’ ライブラリと伴にビルドされている場合、このオプションを与えて音声ファイルのタイプを推定させられる。 If SoX has been built with the optional ‘libmagic’ library then this option can be given to enable its use in helping to detect audio file types.

--multi-threaded | --single-threaded

SoX は既定では ‘シングルスレッド’ で動作する。 しかしながら、 --multi-threaded オプションが与えられた場合、ハイパースレッディング/マルチコアアーキテクチャにおいては、ほとんどのマルチチャンネルエフェクトに対し,音声チャンネル処理を並列実行する。 これにより処理時間は短縮されるが、このマルチスレッド処理の恩恵を得るためには,既定より大きいバッファサイズを与える必要も生じ得る(例えば 131072 など。上述の --buffer を見よ)。 By default, SoX is ‘single threaded’. If the --multi-threaded option is given however then SoX will process audio channels for most multi-channel effects in parallel on hyper-threading/multi-core architectures. This may reduce processing time, though sometimes it may be necessary to use this option in conjunction with a larger buffer size than is the default to gain any benefit from multi-threaded processing (e.g. 131072; see --buffer above).

--no-clobber

出力ファイルと同名の既存のファイルが存在しているときに,それを上書きする前に 問い合わせを発するようにする。 Prompt before overwriting an existing file with the same name as that given for the output file.

注記: 意図せずにファイルを上書きしてしまうことは意外に容易い。 例えば、誤って N.B. Unintentionally overwriting a file is easier than you might think, for example, if you accidentally enter

sox file1 file2 effect1 effect2 ...

を入力した場合(本当は when what you really meant was

play file1 file2 effect1 effect2 ...

のつもりで)、このオプションを与えていなければ file2 は上書きされる。 したがってこのオプションの利用が推奨される。 永続的に有効化する方法としては、上述の SOX_OPTS, ‘シェル’ のエイリアス, スクリプト, バッチファイルが挙げられる。 then, without this option, file2 will be overwritten. Hence, using this option is recommended. SOX_OPTS (above), a ‘shell’ alias, script, or batch file may be an appropriate way of permanently enabling it.

--norm[=dB-level]

クリッピング防止と音声の正規化のために gain エフェクトを自動的に呼び出すようにする。 例えば: Automatically invoke the gain effect to guard against clipping and to normalise the audio. E.g.

sox --norm infile -b 16 outfile rate 44100 dither -s

is shorthand for

sox infile -b 16 outfile gain -h rate 44100 gain -nh dither -s

の省略形である。 オプションで、音声を 0 dBFS を(通常は)下回るレベルに正規化することもできる: Optionally, the audio can be normalized to a given level (usually) below 0 dBFS:

sox --norm=-3 infile outfile

-V, -G, gain エフェクトも見よ。 See also -V, -G, and the gain effect.

--play-rate-arg ARG

音声の再生時に ‘rate’ エフェクトが自動的に呼び出される際の品質オプションを選択する。 通常、このオプションは SOX_OPTS 環境変数(上述)を通して設定される。 Selects a quality option to be used when the ‘rate’ effect is automatically invoked whilst playing audio. This option is typically set via the SOX_OPTS environment variable (see above).

--plot gnuplot|octave|off

off--plot が与えられていない場合の既定値)でない場合、多くの伝達関数に基づくエフェクトの選択と設定を補助するために、 SoX は gnuplot プログラムまたは GNU Octave プログラムと連携できるように動作する。 与えられたエフェクトのうち,選択されたプロットプログラムをサポートする最初のものに対し、そのエフェクトの伝達関数をプロットするコマンドが出力され,実際に音声処理を行う前に終了することになる。 例えば: If not set to off (the default if --plot is not given), run in a mode that can be used, in conjunction with the gnuplot program or the GNU Octave program, to assist with the selection and configuration of many of the transfer-function based effects. For the first given effect that supports the selected plotting program, SoX will output commands to plot the effect’s transfer function, and then exit without actually processing any audio. E.g.

sox --plot octave input-file -n highpass 1320 > highpass.plt
octave highpass.plt
-q, --no-show-progress

SoX を静粛モードで実行するようにする。 これは -S オプションの逆である。 Run in quiet mode when SoX wouldn’t otherwise do so. This is the opposite of the -S option.

-R

‘再現’ モードによる実行。 このオプションが与えられた場合、 SoX は適用可能であれば出力ファイル(例えば AIFF )内に固定的なタイムスタンプを埋め込んだ上で,固定的な数を疑似乱数生成器の種に与えて(例えば dither の)、同じ入力パラメタによる別々の SoX の呼び出しから得られる出力が,同じになるようにする。 Run in ‘repeatable’ mode. When this option is given, where applicable, SoX will embed a fixed time-stamp in the output file (e.g. AIFF) and will ‘seed’ pseudo random number generators (e.g. dither) with a fixed number, thus ensuring that successive SoX invocations with the same inputs and the same parameters yield the same output.

--replay-gain track|album|off

入力ファイルに対し 再生ゲイン 調整を適用するかどうかを選択する。 sox, rec に対する既定値は offplay に対する既定値は、最初の2つの入力ファイルに同じアーティスト同じアルバム名のタグが付与されている場合は album, 他の場合は track になる。 【 off は再生ゲイン調整を適用しない。 track は別々の曲が同じ音量で再生されるように自動的に音量を調整させる。 album は同一アルバム内の曲と曲との相対的な音量差は維持させる。 】 Select whether or not to apply replay-gain adjustment to input files. The default is off for sox and rec, album for play where (at least) the first two input files are tagged with the same Artist and Album names, and track for play otherwise.

-S, --show-progress

次の情報を表示させる: 入力ファイルの形式/ヘッダ情報, 処理の進捗状況(入力ファイルの完了率で表される), 経過時間, 残り時間(検知可能な場合のみ,角括弧に括られて表示される), 出力ファイルに書き出されたサンプル数。 ピークレベルメータとクリッピングの発生も表示される。 ピークレベルメータの表示は 2 チャンネルまででデジタル音声を基準に測定され、次のように示される(右チャンネルのみ示す): Display input file format/header information, and processing progress as input file(s) percentage complete, elapsed time, and remaining time (if known; shown in brackets), and the number of samples written to the output file. Also shown is a peak-level meter, and an indication if clipping has occurred. The peak-level meter shows up to two channels and is calibrated for digital audio as follows (right channel shown):

dBFS表示
-25-
-23=
-21=-
-19==
-17==-
-15===
-13===-
-11====
-9====-
-7=====
-5=====-
-3======
-1=====!

メータの右側に、ヘッドルームの3秒間のピーク保持値が,この値が 6dB 以下の場合に dB 単位で表示される。 A three-second peak-held value of headroom in dBs will be shown to the right of the meter if this is below 6dB.

音声の再生または録音に SoX を利用している場合、このオプションは既定で有効化される。 This option is enabled by default when using SoX to play or record audio.

-T

--combine multiply と同じ。 Equivalent to --combine multiply.

--temp DIRECTORY

一時ファイルを,与えられた DIRECTORY に作成するようにする。 これは、既定の場所ではパーミッションまたは空きスペースの問題がある場合に有用になる。 この場合,大抵は ‘--temp .’ (カレントディレクトリ)で十分である。 Specify that any temporary files should be created in the given DIRECTORY. This can be useful if there are permission or free-space problems with the default location. In this case, using ‘--temp .’ (to use the current directory) is often a good solution.

--version

SoX のバージョン番号を表示して終了する。 Show SoX’s version number and exit.

-V[level]

メッセージの冗長度を設定する。 これは特に SoX が自動エフェクトをどのように呼び出しているかを知るのに有用である。 Set verbosity. This is particularly useful for seeing how any automatic effects have been invoked by SoX.

SoX は次の冗長度レベルに従ってメッセージをコンソール( stderr )に表示する: SoX displays messages on the console (stderr) according to the following verbosity levels:

0

何もメッセージを表示しない。 エラーが生じたかどうかは終了ステータスで判断することになる。 No messages are shown at all; use the exit status to determine if an error has occurred.

1

エラーメッセージのみを表示する。 これらは SoX がリクエストされたコマンドを完了できない場合に生成される。 Only error messages are shown. These are generated if SoX cannot complete the requested commands.

2

警告メッセージも表示される。 これらは SoX がリクエストされたコマンドを完了できたが、コマンドのパラメタと正確に一致するようにはできなかったか, クリッピングが生じた場合に生成される。 Warning messages are also shown. These are generated if SoX can complete the requested commands, but not exactly according to the requested command parameters, or if clipping occurs.

3

SoX の処理過程についての説明も表示される。 SoX が音声をどのように処理しているかを見るのに有用である。 Descriptions of SoX’s processing phases are also shown. Useful for seeing exactly how SoX is processing your audio.

4 以上

SoX をデバッグする際に役立つメッセージも表示する。 Messages to help with debugging SoX are also shown.

既定では冗長度は 2 に設定される(エラーと警告を表示する)。 -V オプションの各出現は冗長度を 1 増やす。 冗長度は -V の直後に数字を与えて直接設定することもできる。 例えば -V0 は冗長度を 0 に設定する。 【 ‘V’ と level の間にスペースを入れないことに注意。書式上は -V, -V0, -V1, -V2 ... は別々のオプションのようにも見える。 】 By default, the verbosity level is set to 2 (shows errors and warnings). Each occurrence of the -V option increases the verbosity level by 1. Alternatively, the verbosity level can be set to an absolute number by specifying it immediately after the -V, e.g. -V0 sets it to 0.

入力ファイルオプション

これらのオプションは入力ファイルにのみ適用される。 コマンドラインの中では入力ファイル名の前にのみ置ける。 These options apply only to input files and may precede only input filenames on the command line.

--ignore-length

音声ファイルのヘッダ内に与えられた(不正確と思しき)音声の長さを上書きする。 このオプションが与えられた場合、音声の読み取りは入力ファイルの終端に達するまで継続される。 Override an (incorrect) audio length given in an audio file’s header. If this option is given then SoX will keep reading audio until it reaches the end of the input file.

-v, --volume FACTOR

複数の入力ファイルを結合する際の利用が想定されている。 このオプションはコマンドラインの中で後続するファイルの音量を FACTOR 係数により調整する。 これにより他の入力ファイルとの相対的な ‘バランス’ がとられるようになる。 これは(振幅において)線形の調整であり, 1 より小さい数値は音量を下げ, 1 より大きい数値は音量を上げる。 負値が与えられた場合、音量調整に加えて音声信号が反転される。 Intended for use when combining multiple input files, this option adjusts the volume of the file that follows it on the command line by a factor of FACTOR. This allows it to be ‘balanced’ w.r.t. the other input files. This is a linear (amplitude) adjustment, so a number less than 1 decreases the volume and a number greater than 1 increases it. If a negative number is given then in addition to the volume adjustment, the audio signal will be inverted.

norm, vol, gain エフェクトも見よ。 上述の入力ファイルのバランス調整も見よ。 See also the norm, vol, and gain effects, and see Input File Balancing above.

入出力ファイルの形式オプション

これらのオプションは,コマンドラインの中で直後にある 入力または出力ファイルに適用され、主にヘッダレスファイルの形式を扱う際に, あるいは出力ファイルの形式を入力ファイルと異なるものに指定するために用いられる。 These options apply to the input or output file whose name they immediately precede on the command line and are used mainly when working with headerless file formats or when specifying a format for the output file that is different to that of the input file.

-b, --bits BITS

符号化された各サンプルのビット数( ‘ビット深度’, ‘ワード長’ と称されることもある)。 MP3 や GSM などの複雑な符号化には適用されない。 A/μ-law, ADPCM など固定ビット長を持つ符号化方式には必要ない。 The number of bits (a.k.a. bit-depth or sometimes word-length) in each encoded sample. Not applicable to complex encodings such as MP3 or GSM. Not necessary with encodings that have a fixed number of bits, e.g. A/μ-law, ADPCM.

入力ファイルに対しこのオプションが最も利用されるのは ‘raw’ ( ‘ヘッダレス’ )音声ファイルのサンプルビット数を SoX に知らせる用途になる。 例えば: For an input file, the most common use for this option is to inform SoX of the number of bits per sample in a ‘raw’ (‘headerless’) audio file. For example

sox -r 16k -e signed -b 8 input.raw output.wav

は ‘raw’ ファイルを 自己記述 ‘WAV’ ファイルに変換する。 converts a particular ‘raw’ file to a self-describing ‘WAV’ file.

出力ファイルに対しては、このオプションを出力符号化サイズの設定に利用できる(大抵は -e を伴う)。 既定では(すなわちこのオプションが与えられなかった場合)、出力符号化サイズは(出力ファイルタイプでサポートされていれば)入力符号化サイズになる。 例えば: For an output file, this option can be used (perhaps along with -e) to set the output encoding size. By default (i.e. if this option is not given), the output encoding size will (providing it is supported by the output file type) be set to the input encoding size. For example

sox input.cdda -b 24 output.wav

は raw CD デジタル音声( 16 ビット, 符号付き整数)を 24 ビット(符号付き整数) ‘WAV’ ファイルに変換する。 converts raw CD digital audio (16-bit, signed-integer) to a 24-bit (signed-integer) ‘WAV’ file.

-c, --channels CHANNELS

音声ファイルに含まれる音声チャンネル数。 0 より大きい任意の数をとれる。 The number of audio channels in the audio file. This can be any number greater than zero.

入力ファイルに対するこのオプションの最も一般的な用途は、 ‘raw’( ‘ヘッダレス’ )音声ファイルに含まれるチャンネル数を SoX に伝えることである。 ‘ヘッダ付き’ ファイルにおいても,(不正確と思しき)ヘッダ内の値の上書きにこのオプションが役立つ場合がある。 これは一部のファイルタイプでのみサポートされることに注意。 例: For an input file, the most common use for this option is to inform SoX of the number of channels in a ‘raw’ (‘headerless’) audio file. Occasionally, it may be useful to use this option with a ‘headered’ file, in order to override the (presumably incorrect) value in the header - note that this is only supported with certain file types. Examples:

sox -r 48k -e float -b 32 -c 2 input.raw output.wav

は ‘raw’ ファイルを 自己記述 ‘WAV’ ファイルに変換する。 converts a particular ‘raw’ file to a self-describing ‘WAV’ file.

play -c 1 music.wav

ファイルヘッダからの指示に関わらずファイルデータを単チャンネルとして解釈する。 実際には 2 チャンネル含まれている場合、再生速度が半分になることに注意。 interprets the file data as belonging to a single channel regardless of what is indicated in the file header. Note that if the file does in fact have two channels, this will result in the file playing at half speed.

出力ファイルに対しては、このオプションは音声信号に含まれるチャンネル数を(必要なら)与えられた数に変更するために, channels エフェクトが呼び出されるようにするための省略形になる。 例えば次の2つのコマンドは等価になる: For an output file, this option provides a shorthand for specifying that the channels effect should be invoked in order to change (if necessary) the number of channels in the audio signal to the number given. For example, the following two commands are equivalent:

sox input.wav -c 1 output.wav bass -b 24
sox input.wav      output.wav bass -b 24 channels 1

2番目の書式の方がエフェクトの順序を任意に並び替えられるので,より柔軟性に富むが。 though the second form is more flexible as it allows the effects to be ordered arbitrarily.

-e, --encoding ENCODING

音声符号化方式の種類を設定する。 複数の符号化方式をサポートするファイルタイプで必要になることがある。 例えば raw, WAV, AU など(一方で例えば MP3 や FLAC では不要である)。 可能な符号化方式( ENCODING )を次に挙げる: The audio encoding type. Sometimes needed with file-types that support more than one encoding type. For example, with raw, WAV, or AU (but not, for example, with MP3 or FLAC). The available encoding types are as follows:

signed-integer

各サンプルが符号付き整数( ‘2の補数’ )として保持される PCM データ。 通例は 16 または 24 ビットの符号化サイズと伴用される。 値 0 は最小の信号パワーを表す。 PCM data stored as signed (‘two’s complement’) integers. Commonly used with a 16 or 24 -bit encoding size. A value of 0 represents minimum signal power.

unsigned-integer

各サンプルが符号なし整数として保持される PCM データ。 通例は 8 ビットの符号化サイズと伴用される。 値 0 は最大の信号パワーを表す。 PCM data stored as unsigned integers. Commonly used with an 8-bit encoding size. A value of 0 represents maximum signal power.

floating-point

各サンプルが IEEE 753 単精度( 32 ビット)または倍精度( 64 ビット)浮動小数点数( ‘実数’ )として保持される PCM データ。 値 0 は最小の信号パワーを表す。 PCM data stored as IEEE 753 single precision (32-bit) or double precision (64-bit) floating-point (‘real’) numbers. A value of 0 represents minimum signal power.

a-law

サンプルあたり 8 ビットの対数符号化方式のための国際的な電話通信標準。 概ね 13 ビット PCM に等しい精度を持ち、しばしばビット順序が逆に符号化されていることがある( -X オプションを見よ)。 International telephony standard for logarithmic encoding to 8 bits per sample. It has a precision equivalent to roughly 13-bit PCM and is sometimes encoded with reversed bit-ordering (see the -X option).

u-law, mu-law

サンプルあたり 8 ビットの対数符号化方式のための北米電話通信標準。 別名 μ-law 。 概ね 14 ビット PCM に等しい精度を持ち、しばしばビット順序が逆に符号化されていることがある( -X オプションを見よ)。 North American telephony standard for logarithmic encoding to 8 bits per sample. A.k.a. μ-law. It has a precision equivalent to roughly 14-bit PCM and is sometimes encoded with reversed bit-ordering (see the -X option).

oki-adpcm

OKI (別名 VOX, Dialogic, Intel ) 4 ビット ADPCM 。 概ね 12 ビット PCM に等しい精度を持つ。 ADPCM は音声品質と符号化/復号速度のバランスがよくとれた音声圧縮形式である。 OKI (a.k.a. VOX, Dialogic, or Intel) 4-bit ADPCM; it has a precision equivalent to roughly 12-bit PCM. ADPCM is a form of audio compression that has a good compromise between audio quality and encoding/decoding speed.

ima-adpcm

IMA (別名 DVI ) 4 ビット ADPCM 。 概ね 13 ビット PCM に等しい精度を持つ。 IMA (a.k.a. DVI) 4-bit ADPCM; it has a precision equivalent to roughly 13-bit PCM.

ms-adpcm

Microsoft 4 ビット ADPCM 。 概ね 14 ビット PCM に等しい精度を持つ。 Microsoft 4-bit ADPCM; it has a precision equivalent to roughly 14-bit PCM.

gsm-full-rate

GSM は,現在の世界のデジタル無線電話の大勢を占める。 通話品質に応じてビットレートが異なる,いくつかの音声形式を利用している。 SoX は GSM のオリジナルの 13kbps ‘フルレート’ 音声形式をサポートする。 GSM 音声の処理は概して CPU 依存度が高いものになる。 GSM is currently used for the vast majority of the world’s digital wireless telephone calls. It utilises several audio formats with different bit-rates and associated speech quality. SoX has support for GSM’s original 13kbps ‘Full Rate’ audio format. It is usually CPU-intensive to work with GSM audio.

符号化名は多義的にならない限り短縮できる。 例えば unsigned-integer は ‘un’ でもよいが、 ‘u’ は u-law と区別できなくなるので不可。 Encoding names can be abbreviated where this would not be ambiguous; e.g. ‘unsigned-integer’ can be given as ‘un’, but not ‘u’ (ambiguous with ‘u-law’).

入力ファイルに対するこのオプションの最も一般的な用途は、 ‘raw’ (‘ヘッダレス’) 音声ファイルの符号化方式を SoX に伝えることである(上述の -b および -c を見よ)。 For an input file, the most common use for this option is to inform SoX of the encoding of a ‘raw’ (‘headerless’) audio file (see the examples in -b and -c above).

出力ファイルに対しては、このオプションは( -b も伴う)出力の符号化方式の設定に利用できる。 例えば: For an output file, this option can be used (perhaps along with -b) to set the output encoding type For example

sox input.cdda -e float output1.wav

sox input.cdda -b 64 -e float output2.wav

は raw CD デジタル音声( 16 ビット, 符号付き整数)を(順に単精度, 倍精度の)浮動小数点 ‘WAV’ ファイルに変換する。 convert raw CD digital audio (16-bit, signed-integer) to floating-point ‘WAV’ files (single & double precision respectively).

既定では(すなわちこのオプションが与えられなかった場合)出力符号化方式は(出力ファイルタイプでサポートされていれば)入力符号化方式と同じものに設定される。 By default (i.e. if this option is not given), the output encoding type will (providing it is supported by the output file type) be set to the input encoding type.

--no-glob

SoX が後続のファイル名の ‘連番解釈’ (ワイルドカードによる照合) を行わないようにすることを指定する。 例えばカレントディレクトリに2つのファイル ‘five-seconds.wav’ と ‘five*.wav’ があるとき: Specifies that filename ‘globbing’ (wild-card matching) should not be performed by SoX on the following filename. For example, if the current directory contains the two files ‘five-seconds.wav’ and ‘five*.wav’, then

play --no-glob "five*.wav"

により, ‘five*.wav’ のみを再生させられる。 can be used to play just the single file ‘five*.wav’.

-r, --rate RATE[k]

ファイルのサンプルレートを Hz 単位で与える(文字 ‘k’ を付加すると kHz 単位になる)。 Gives the sample rate in Hz (or kHz if appended with ‘k’) of the file.

入力ファイルに対するこのオプションの最も一般的な用途は、 ‘raw’ ( ‘ヘッダレス’ )音声ファイルのサンプルレートを SoX に伝えることである(上述の -b および -c を見よ)。 ‘ヘッダ付き’ ファイルにおいても(おそらく不正確な)ヘッダ内の値の上書きにこのオプションが役立つ場合がある。 これは一部のファイルタイプでのみサポートされることに注意。 例えば 1.5% 遅い速度で再生された音源からサンプルレート 48k で録音された音声の場合: For an input file, the most common use for this option is to inform SoX of the sample rate of a ‘raw’ (‘headerless’) audio file (see the examples in -b and -c above). Occasionally it may be useful to use this option with a ‘headered’ file, in order to override the (presumably incorrect) value in the header - note that this is only supported with certain file types. For example, if audio was recorded with a sample-rate of say 48k from a source that played back a little, say 1.5%, too slowly, then

sox -r 48720 input.wav output.wav

はファイルヘッダのみの変更により速度変化を効果的に修正する(ただし、この問題に対するより通例的な解決策については speed エフェクトを見よ)。 effectively corrects the speed by changing only the file header (but see also the speed effect for the more usual solution to this problem).

出力ファイルに対しては、このオプションは、音声信号に含まれるサンプルレートを(必要なら)与えられた値に変更するために, rate エフェクトが呼び出されるようにするための省略形になる。 例えば次の2つのコマンドは等価になる: For an output file, this option provides a shorthand for specifying that the rate effect should be invoked in order to change (if necessary) the sample rate of the audio signal to the given value. For example, the following two commands are equivalent:

sox input.wav -r 48k output.wav bass -b 24
sox input.wav        output.wav bass -b 24 rate 48k

rate オプションを明示的に与える2番目の書式の方が、エフェクトの順序を任意に並び替えられるので,より柔軟性に富むが。 though the second form is more flexible as it allows rate options to be given, and allows the effects to be ordered arbitrarily.

-t, --type FILE-TYPE

音声ファイルのタイプを与える。 入力および出力ファイルのいずれに対しても、このオプションの最も一般的な用途は、与えられたファイル名拡張子から実際の/望ましいタイプが確定できないときに,‘ヘッダレス’ 音声ファイル(例えば raw, mp3 )のタイプを SoX に伝えることである。 例えば: Gives the type of the audio file. For both input and output files, this option is commonly used to inform SoX of the type a ‘headerless’ audio file (e.g. raw, mp3) where the actual/desired type cannot be determined from a given filename extension. For example:

another-command | sox -t mp3 - output.wav
sox input.wav -t raw output.bin

これは入力ファイル名拡張子から推定されるタイプの上書きにも利用できるが、ヘッダを持つタイプにより上書きする場合、そのようなヘッダが実際に存在しなければ, SoX は適切なエラーメッセージを送出して終了する。 It can also be used to override the type implied by an input filename extension, but if overriding with a type that has a header, SoX will exit with an appropriate error message if such a header is not actually present.

サポートされるファイルタイプについては soxformat(7) を参照のこと。 See soxformat(7) for a list of supported file types.

--endian little|big|swap
-L/-B/-x

音声データの バイト順 (別称 ‘エンディアン’ 【データ単位内のバイト単位データの並び順】)を設定する。 little, big, swap は、それぞれ順に,バイト順を ‘リトルエンディアン’, ‘ビッグエンディアン’, SoX が利用されているシステムのエンディアンとは逆のもの, に指定する。 -L/-B/-x は順に, --endian little, --endian big, --endian swap のエイリアス。 エンディアンは,浮動小数点数または 16ビット以上の符号付き/符号なし整数に符号化されたデータに対してのみ適用される。 ヘッダレスファイルに対しては、これらのオプションの指定がしばしば必要になる。 また、自己記述ファイルに対しても必要になることがある。 エンディアンを設定するオプションは、特殊なエンディアン識別子をヘッダに含むような入力ファイルや, 実際は音声デバイスになっている出力ファイルに対しては,無視されることがある。 These options specify whether the byte-order of the audio data is, respectively, ‘little endian’, ‘big endian’, or the opposite to that of the system on which SoX is being used. Endianness applies only to data encoded as floating-point, or as signed or unsigned integers of 16 or more bits. It is often necessary to specify one of these options for headerless files, and sometimes necessary for (otherwise) self-describing files. A given endian-setting option may be ignored for an input file whose header contains a specific endianness identifier, or for an output file that is actually an audio device.

注記: 他の形式属性と異なり、入力ファイルのエンディアン(バイト, ニブル【4ビットに相当する単位】, ビット順序)は,出力ファイルに自動的に用いられることはない。 したがって、例えばリトルエンディアンのシステムにおいて次を実行した場合: N.B. Unlike other format characteristics, the endianness (byte, nibble, & bit ordering) of the input file is not automatically used for the output file; so, for example, when the following is run on a little-endian system:

sox -B audio.s16 trimmed.s16 trim 2

trimmed.s16 はリトルエンディアンとして作成される。 ビッグエンディアンを出力ファイルにも保持させるためには trimmed.s16 will be created as little-endian;

sox -B audio.s16 -B trimmed.s16 trim 2

としなければならない。 must be used to preserve big-endianness in the output file.

-V オプションを用いれば,バイト順を確認できる。 The -V option can be used to check the selected orderings.

-N, --reverse-nibbles

各サンプルのニブル順序(すなわちバイトの半分2個)を逆順にすべきであることを指定する。 ADPCM ベースの形式で有用になることがある。 Specifies that the nibble ordering (i.e. the 2 halves of a byte) of the samples should be reversed; sometimes useful with ADPCM-based formats.

注記: 上の -x も見よ。 N.B. See also N.B. in section on -x above.

-X, --reverse-bits

各サンプルのビット順序を逆順にすべきであることを指定する。 ごく一部の(大半はヘッダレスの)形式で有用になることがある。 Specifies that the bit ordering of the samples should be reversed; sometimes useful with a few (mostly headerless) formats.

注記: 上の -x も見よ。 N.B. See also N.B. in section on -x above.

出力ファイルの形式オプション

これらのオプションは出力ファイルにのみ適用される。 コマンドラインの中では出力ファイル名の前に置く。 These options apply only to the output file and may precede only the output filename on the command line.

--add-comment TEXT

(適用可能なら)出力ファイルのヘッダにコメントを追加する。 Append a comment in the output file header (where applicable).

--comment TEXT

(適用可能なら)出力ファイルのヘッダに保存するコメントテキストを設定する。 Specify the comment text to store in the output file header (where applicable).

このオプション(または --comment-file )が与えられなかった場合、 SoX は既定のコメントを供給する。 出力ファイルにコメントを保存したくない場合は --comment "" を用いる。 SoX will provide a default comment if this option (or --comment-file) is not given. To specify that no comment should be stored in the output file, use --comment "" .

--comment-file FILENAME

(適用可能なら)出力ファイルヘッダに保存するコメントテキストを,それを内容に持つファイルで指定する。 Specify a file containing the comment text to store in the output file header (where applicable).

-C, --compression FACTOR

圧縮率が可変の出力ファイル形式に対する圧縮係数。 このオプションが与えられなかった場合は既定の圧縮係数が適用される。 圧縮係数の解釈は圧縮機能を持つファイル形式により異なる。 詳細は soxformat(7) の中のこのオプションを利用するファイル形式の説明を参照のこと。 The compression factor for variably compressing output file formats. If this option is not given then a default compression factor will apply. The compression factor is interpreted differently for different compressing file formats. See the description of the file formats that use this option in soxformat(7) for more information.

エフェクト

音声ファイルの変換, 再生, 記録に加え、 SoX では,いくつもの音声 ‘エフェクト’ を呼び出すことができる。 SoX コマンドラインの末尾に複数のエフェクトを連ねて ‘エフェクトチェイン’ を形成することにより、一度に複数のエフェクトを適用させられる。 リアルタイムに(すなわち音声の再生中に)複数のエフェクトを適用する場合、コンピュータにもそれなりの性能が必要になることに注意。 性能の問題は他のアプリケーションを停止することにより緩和され得る。 In addition to converting, playing and recording audio files, SoX can be used to invoke a number of audio ‘effects’. Multiple effects may be applied by specifying them one after another at the end of the SoX command line, forming an ‘effects chain’. Note that applying multiple effects in real-time (i.e. when playing audio) is likely to require a high performance computer. Stopping other applications may alleviate performance issues should they occur.

SoX のエフェクトには,主に一つの楽器または ‘声’ に対する適用が意図されているものがある。 これを支援するため、マルチトラック録音からトラックを分離したり, 再び結合させることもできる remix エフェクトや, SoX グローバルオプション -M が用意されている。 Some of the SoX effects are primarily intended to be applied to a single instrument or ‘voice’. To facilitate this, the remix effect and the global SoX option -M can be used to isolate then recombine tracks from a multi-track recording.

複数のエフェクトチェイン

1個のエフェクトチェインは1個以上のエフェクトからなる。 入力からの音声は、入力ファイルの終端に達するか, チェインの中のエフェクトからチェインの終了が指示されるまで,チェインを通り続ける。 A single effects chain is made up of one or more effects. Audio from the input runs through the chain until either the end of the input file is reached or an effect in the chain requests to terminate the chain.

SoX は入力音声に対する複数個のエフェクトチェインの実行をサポートする。 この場合、あるチェインが音声処理の終了を指示したとき,音声データは次のエフェクトチェインへ送出されるようになる。 これは、エフェクトチェインが尽きるか, 入力がファイル終端に達するまで,継続される。 SoX supports running multiple effects chains over the input audio. In this case, when one chain indicates it is done processing audio, the audio data is then sent through the next effects chain. This continues until either no more effects chains exist or the input has reached the end of the file.

一つのエフェクトチェインを終端させるには、エフェクトの後ろに : (コロン)を置く。 後続のエフェクトは、新しいエフェクトチェインの一部となる。 An effects chain is terminated by placing a : (colon) after an effect. Any following effects are a part of a new effects chain.

チェインを停止させるエフェクトをチェインの最初のエフェクトに置いておくことは重要である。 何故なら、終了させるエフェクトの左側のエフェクトにより バッファされたサンプルは、破棄されるからである。 終了させるエフェクトを最初に置けない場合、破棄されるサンプルの量は, --buffer オプションに関係するので、それをサンプルレートに比して小さくしておくべきである。 エフェクトの停止についての更なる情報は SoX の停止の節を見よ。 It is important to place the effect that will stop the chain as the first effect in the chain. This is because any samples that are buffered by effects to the left of the terminating effect will be discarded. The amount of samples discarded is related to the --buffer option and it should be kept small, relative to the sample rate, if the terminating effect cannot be first. Further information on stopping effects can be found in the Stopping SoX section.

複数のエフェクトチェインの利用を補助するための疑似エフェクトが、いくつか用意されている。 これらには、次のエフェクトチェインに移る前に 新しい出力ファイルへの書き出しを開始させる newfile, 最初のエフェクトチェインに戻す restart がある。 疑似エフェクトは、1つのチェインの中の唯一かつ最初のエフェクトとして,指定されなければならない(それらの指定においては前後に : が無ければならない)。 There are a few pseudo-effects that aid using multiple effects chains. These include newfile which will start writing to a new output file before moving to the next effects chain and restart which will move back to the first effects chain. Pseudo-effects must be specified as the first effect in a chain and as the only effect in a chain (they must have a : before and after they are specified).

複数のエフェクトチェインの例を以下に示す。 これは、入力ファイルを 30 秒区切りで複数のファイルに分割する。 各出力ファイル名は、出力ファイルの節で述べたように,一意的な番号を名前に含む。 The following is an example of multiple effects chains. It will split the input file into multiple files of 30 seconds in length. Each output filename will have unique number in its name as documented in the Output Files section.

sox infile.wav output.wav trim 0 30 : newfile : restart

共通の記法とパラメタ

各種エフェクトのパラメタの記述においては:

  • オプションの(すなわち,省略可能な)パラメタは,角括弧 [ ] で括られる。
  • オプションかつ繰り返し可能なパラメタは,波括弧 { } で括られる。
  • 必須かつ繰り返し可能なパラメタは,山括弧 < > で括られる。
  • オプションのパラメタに既定値がある場合は,丸括弧 ( ) で示される。
In the descriptions that follow, brackets [ ] are used to denote parameters that are optional, braces { } to denote those that are both optional and repeatable, and angle brackets < > to denote those that are repeatable but not optional. Where applicable, default values for optional parameters are shown in parenthesis ( ).

次に挙げるパラメタ名は、複数のエフェクト間で共通の意味を持つ: The following parameters are used with, and have the same meaning for, several effects:

center[k]

frequency 参照。 【主にフィルタの処理対象帯域の中心周波数を表す】 See frequency.

frequency[k]

Hz 単位の周波数, または ‘k’ が付いている場合は kHz 単位の周波数を表す。 A frequency in Hz, or, if appended with ‘k’, kHz.

gain

パワーゲインを表す( dB 単位)。 ゼロならばゲインなし,負値は減衰。 A power gain in dB. Zero gives no gain; less than zero gives an attenuation.

position

音声ストリームの中での位置を与える。 その構文は:

[=|+|-]timespec

ここで、 timespec時間指定。 省略可能な最初の文字は、 timespec が,どの時点から相対的に解釈されるかを指示する:

  • = :音声の開始から。
  • - :音声の終端から。
  • + :直前の position から(エフェクトが複数個の position 引数をとれる場合のみ)。

終端から相対的な position+ )が機能するためには、音声の長さが既知でなければならない。 ただし、長さが未知でも,終端から相対的な -0 については受容するエフェクトもある。

=, +, - が省略された場合に,どれが既定になるかは、エフェクトに依存し,そのパラメタの構文に示される。 例えば position(+) 等々のように。

A position within the audio stream; the syntax is [=|+|-]timespec, where timespec is a time specification (see below). The optional first character indicates whether the timespec is to be interpreted relative to the start (=) or end (-) of audio, or to the previous position if the effect accepts multiple position arguments (+). The audio length must be known for end-relative locations to work; some effects do accept -0 for end-of-audio, though, even if the length is unknown. Which of =, +, - is the default depends on the effect and is shown in its syntax as, e.g., position(+).

例:

  • =2:00 :音声ストリームの開始から 2 分後
  • -100s :音声の終端から 100 サンプル前
  • +0:12+10s :前の position から[ 12 秒 + 10 サンプル ]の時点
  • -0.5+1s :音声の終端から[ 0.5 秒 − 1 サンプル ]の時点

Examples: =2:00 (two minutes into the audio stream), -100s (one hundred samples before the end of audio), +0:12+10s (twelve seconds and ten samples after the previous position), -0.5+1s (one sample less than half a second before the end of audio).

width[h|k|o|q]

フィルタの帯域幅の指定に用いられる。 幅の指定には、次の表に示すいくつかのメソッドを利用できる(すべてのエフェクトに対してではないが)。 表の文字のいずれかを付加することにより、望ましいメソッドを選択できる: Used to specify the band-width of a filter. A number of different methods to specify the width are available (though not all for every effect). One of the characters shown may be appended to select the desired method as follows:

メソッド 備考
h Hz
k kHz
o オクターブ
q Q 値 [2] を参照

このパラメタを用いる各エフェクトに対する 既定の(すなわち文字が付加されていない場合の)メソッドは、それぞれのエフェクト見出しのパラメタにて挙げられている 最初のものになる。 For each effect that uses this parameter, the default method (i.e. if no character is appended) is the one that it listed first in the first line of the effect’s description.

ほとんどのエフェクトは、 時間指定 — 音声内での位置, または時間長 — を期待するパラメタをとる。 それは、次の 2 種類の書式を受容する: Most effects that expect an audio position or duration in a parameter, i.e. a time specification, accept either of the following two forms:

[[:]:][.小数][t]

例えば 1:30.5 の指定は、 1 分 30.5 秒に対応する。 接尾辞 t は省略可能である(ただし, silence エフェクトは例外で,省略すると別の意味になる)。 各 成分を正規化する必要はない。 例えば, 1:23:4583:4579:02851:0:14251::14255025 は、どれも合法かつ互いに等価である。 A specification of ‘1:30.5’ corresponds to one minute, thirty and ½ seconds. The t suffix is entirely optional (however, see the silence effect for an exception). Note that the component values do not have to be normalized; e.g., ‘1:23:45’, ‘83:45’, ‘79:0285’, ‘1:0:1425’, ‘1::1425’ and ‘5025’ all are legal and equivalent to each other.

サンプル数s

サンプル数を直接的に指定する: 例えば 8000s 。 巨大なサンプル数を記すための, e を用いる指数記法もサポートされる: 例えば 1.7e6s は, 1700000s と同じになる。 Specifies the number of samples directly, as in ‘8000s’. For large sample counts, e notation is supported: ‘1.7e6s’ is the same as ‘1700000s’.

時間指定は、 +- で連結して,加算/減算の式としても与えられる。 例えば 3:00-200s は、 3 分から 200 サンプル引いた結果の時間を意味する。 Time specifications can also be chained with + or - into a new time specification where the right part is added to or subtracted from the left, respectively: ‘3:00-200s’ means two hundred samples less than three minutes.

オプションのエフェクトが SoX でサポートされているかどうか調べるためには、 sox -h と入力して表示されるヘルプの, ‘EFFECTS’ の項目に挙げられるエフェクト名の一覧から、そのエフェクト名を探す。 To see if SoX has support for an optional effect, enter sox -h and look for its name under the list: ‘EFFECTS’.

サポートされているエフェクト

注記:付属の ‘README’ ファイルに分類別のエフェクトの一覧が載っている。 【このページのメニュー内の “分類別” 索引】 Note: a categorised list of the effects can be found in the accompanying ‘README’ file.

allpass frequency[k] width[h|k|o|q]

中心周波数 frequency ( Hz ), フィルタ幅 width の 2極 オールパスフィルタを適用する。 オールパスフィルタは音声の周波数と振幅の関係を維持したまま、周波数と位相の関係を変化させる。 このフィルタの詳細については [1] を参照のこと。 Apply a two-pole all-pass filter with central frequency (in Hz) frequency, and filter-width width. An all-pass filter changes the audio’s frequency to phase relationship without changing its frequency to amplitude relationship. The filter is described in detail in [1].

このエフェクトは --plot グローバルオプションをサポートする。 This effect supports the --plot global option.

band [-n] center[k] [width[h|k|o|q]]

バンドパスフィルタ を適用する。 周波数応答は center 周波数付近から対数的に減衰する。 width パラメタは減衰の勾配を与える。 center + width および center - width の周波数で元の振幅の半分になる。 band の既定では音高を持つ音声(声, 歌, インストルメンタル楽曲など)を指向するモードになる。 -n オプションを与えると音高を持たない音声(例えばパーカッション)を指向するモードになる。 警告-n はフィルタにおいておよそ 11dB のパワーゲインをもたらすので出力のクリッピングに注意すること。 band はフィルタの形状においてノイズをもたらす。 すなわち center 周波数においてピーク, その周辺において settling をもたらす。 Apply a band-pass filter. The frequency response drops logarithmically around the center frequency. The width parameter gives the slope of the drop. The frequencies at center + width and center - width will be half of their original amplitudes. band defaults to a mode oriented to pitched audio, i.e. voice, singing, or instrumental music. The -n (for noise) option uses the alternate mode for un-pitched audio (e.g. percussion). Warning: -n introduces a power-gain of about 11dB in the filter, so beware of output clipping. band introduces noise in the shape of the filter, i.e. peaking at the center frequency and settling around it.

このエフェクトは --plot グローバルオプションをサポートする。 This effect supports the --plot global option.

より急峻な肩を持つバンドパスフィルタについては sinc を見よ。 See also sinc for a bandpass filter with steeper shoulders.

bandpass|bandreject [-c] frequency[k] width[h|k|o|q]

中心周波数 frequency, および( 3dB 点)帯域幅 width の、2極 バターワース バンドパス(帯域通過)/バンドストップ(帯域阻止)フィルタを適用する。 【 3dB 点:フィルタにより 3dB 減衰する所の(高低両側の)周波数( 遮断周波数 )。】
-c オプションは bandpass にのみ適用され、既定の定 0dB ピークゲインの代わりに定 skirt ゲイン(ピークゲイン = Q )を選択する。 フィルタの ロールオフ は1オクターブあたり 6dB (ディケードあたり 20dB )になる。 詳細は [1] を参照。 【ディケード — decade :周波数比 10 倍】 Apply a two-pole Butterworth band-pass or band-reject filter with central frequency frequency, and (3dB-point) band-width width. The -c option applies only to bandpass and selects a constant skirt gain (peak gain = Q) instead of the default: constant 0dB peak gain. The filters roll off at 6dB per octave (20dB per decade) and are described in detail in [1].

これらのエフェクトは --plot グローバルオプションをサポートする。 These effects support the --plot global option.

急峻な肩を持つバンドパスフィルタについては sinc を見よ。 See also sinc for a bandpass filter with steeper shoulders.

bandreject frequency[k] width[h|k|o|q]

バンドストップ(帯域阻止)フィルタを適用する。 詳細は bandpass エフェクトの説明を見よ。 Apply a band-reject filter. See the description of the bandpass effect for details.

bass|treble gain [frequency[k] [width[s|h|k|o|q]]]

標準の hi-fi トーンコントロールと同様な特性を備えた2極シェルビングフィルタを用いて、音声周波数の低域や高域を増強/減衰させる。 これはシェルビング イコライザ ( EQ )としても知られている。 Boost or cut the bass (lower) or treble (upper) frequencies of the audio using a two-pole shelving filter with a response similar to that of a standard hi-fi’s tone-controls. This is also known as shelving equalisation (EQ).

gain は( bass に対しては) 0Hz におけるゲイン、あるいは( treble に対しては) 22kHz か ナイキスト周波数 の低い方におけるゲイン。 その実用的な範囲は -20 (強いカット)から +20 (強いブースト)までである。 正の gain を用いた場合は クリッピング に注意。 gain gives the gain at 0 Hz (for bass), or whichever is the lower of ∼22 kHz and the Nyquist frequency (for treble). Its useful range is about -20 (for a large cut) to +20 (for a large boost). Beware of Clipping when using a positive gain.

必要なら次のオプションのパラメタを用いてフィルタを微調整できる: If desired, the filter can be fine-tuned using the following optional parameters:

frequency はフィルタの中心周波数を設定し、ブーストまたはカットする周波数範囲の拡張/縮小に利用できる。 既定値は bass に対しては 100Hz, treble に対しては 3kHz。 frequency sets the filter’s central frequency and so can be used to extend or reduce the frequency range to be boosted or cut. The default value is 100 Hz (for bass) or 3 kHz (for treble).

width はフィルタの ‘棚’ 遷移の急峻さを定める。 上述の共通の width 指定メソッドに加え ‘スロープ’ ( slope )も利用できる(既定、または ‘s’ が付加されているとき)。 ‘スロープ’ の実用的な範囲は、なだらかな勾配であればおよそ 0.3, 急峻な勾配であれば 1 (最大値)であり,既定値は 0.5 である。 width determines how steep is the filter’s shelf transition. In addition to the common width specification methods described above, ‘slope’ (the default, or if appended with ‘s’) may be used. The useful range of ‘slope’ is about 0.3, for a gentle slope, to 1 (the maximum), for a steep slope; the default value is 0.5.

このフィルタの詳細については [1] を参照のこと。 The filters are described in detail in [1].

これらのエフェクトは --plot グローバルオプションをサポートする。 These effects support the --plot global option.

ピーク イコライザ エフェクトについては equalizer を見よ。 See also equalizer for a peaking equalisation effect.

bend [-f frame-rate(25)] [-o over-sample(16)] { start-position(+),cents,end-position(+) }

ピッチ(音高)を指定された時間長の中で指定された量だけ変化させる。 与えられた各3つ組[ start-position,cents,end-position ]は,1個のベンドを指定する。 cents はセント単位のピッチベンド量( 100 セント = 半音 )。 他の値は順に ピッチベンド を かけ始める/かけ終える 時刻を指定する。 Changes pitch by specified amounts at specified times. Each given triple: start-position,cents,end-position specifies one bend. cents is the number of cents (100 cents = 1 semitone) by which to bend the pitch. The other values specify the points in time at which to start and end bending the pitch, respectively.

ピッチベンド( pitch-bending )アルゴリズムは、特定のフレームレートとオーバーサンプリングレートによる離散フーリエ変換( DFT )を利用する。 -f および -o パラメタはこれらのパラメタを調整してピッチ変化の滑らかさを制御する。 The pitch-bending algorithm utilises the Discrete Fourier Transform (DFT) at a particular frame rate and over-sampling rate. The -f and -o parameters may be used to adjust these parameters and thus control the smoothness of the changes in pitch.

例えば次は、初期トーンを生成し, ベント( bent )を 3 度行い, 全部で 4 個の異なるノートを得る: For example, an initial tone is generated, then bent three times, yielding four different notes in total:

play -n synth 2.5 sin 667 gain 1 \
  bend .35,180,.25  .15,740,.53  0,-520,.3

ここでは、最初のベンドは[ 0.35 〜 0.6( = 0.35 + 0.25) ]秒の区間に,二番目のものは[ 0.75( = 0.6 + 0.15) 〜 1.28( = 0.75 + 0.53) ]秒の区間にかけられる。 この例では故意にクリッピングが生成されていることに注意。 取り除くためには gain 1 の代わりに gain -5 を用いる。 Here, the first bend runs from 0.35 to 0.6, and the second one from 0.75 to 1.28 seconds. Note that the clipping that is produced in this example is deliberate; to remove it, use gain -5 in place of gain 1.

pitch も見よ。 See also pitch.

biquad b0 b1 b2 a0 a1 a2

与えられた係数による biquad IIR フィルタを適用する。 ここで b*a* はそれぞれ分子係数と分母係数を表す。 Apply a biquad IIR filter with the given coefficients. Where b* and a* are the numerator and denominator coefficients respectively.

http://en.wikipedia.org/wiki/Digital_biquad_filtera0 = 1 の場合)を見よ。 【双2次フィルタ】 See http://en.wikipedia.org/wiki/Digital_biquad_filter (where a0 = 1).

このエフェクトは --plot グローバルオプションをサポートする。 This effect supports the --plot global option.

channels CHANNELS

音声信号のチャンネル数を CHANNELS で与えられた数に変更する,単純なアルゴリズムを呼び出す。 チャンネル数が減少する場合は混合( mixing )を行い, 増大する場合は複製を行う。 Invoke a simple algorithm to change the number of channels in the audio signal to the given number CHANNELS: mixing if decreasing the number of channels or duplicating if increasing the number of channels.

channels エフェクトは、 SoX の -c オプションが指定するチャンネル数が入力ファイルのチャンネル数と異なるときに,自動的に呼び出される 。 逆にこのエフェクトが明示的に与えられた場合、 -c オプションを与える必要がなくなる。 例えば次の2つのコマンドは等価である: The channels effect is invoked automatically if SoX’s -c option specifies a number of channels that is different to that of the input file(s). Alternatively, if this effect is given explicitly, then SoX’s -c option need not be given. For example, the following two commands are equivalent:

sox input.wav -c 1 output.wav bass -b 24
sox input.wav      output.wav bass -b 24 channels 1

2番目の書式の方がエフェクトの順序を任意に並び替えられるので,より柔軟性に富むが。 though the second form is more flexible as it allows the effects to be ordered arbitrarily.

チャンネルの混合/選択を任意に扱える remix も見よ。 See also remix for an effect that allows channels to be mixed/selected arbitrarily.

chorus gain-in gain-out <delay decay speed depth -s|-t>

音声にコーラスエフェクトをかける。 これは単独のボーカルをコーラスの様に仕立て上げられるものだが、楽器にも適用できる。 Add a chorus effect to the audio. This can make a single vocal sound like a chorus, but can also be applied to instrumentation.

コーラスは短いディレイのエコーエフェクトと似ているが、エコーではディレイが一定な一方,コーラスは正弦/三角変調により変動する。 変調の深度は変調されたディレイがディレイの前後で再生される範囲を定める。 したがって、ディレイされた音は遅くまたは速く聴こえることになる。 すなわち,ディレイされた音は、コーラスで一部のボーカルがキーから少しずれるように,元の音の周辺に調音される。 コーラスエフェクトについての詳細は [3] を参照のこと。 Chorus resembles an echo effect with a short delay, but whereas with echo the delay is constant, with chorus, it is varied using sinusoidal or triangular modulation. The modulation depth defines the range the modulated delay is played before or after the delay. Hence the delayed sound will sound slower or faster, that is the delayed sound tuned around the original one, like in a chorus where some vocals are slightly off key. See [3] for more discussion of the chorus effect.

各4つ組のパラメタ delay/decay/speed/depth は、ミリ秒単位のディレイ( delay ), および、ミリ秒単位の深度( depth )による Hz 単位の変調速度( speed )を伴う( gain-in に相対的な)ディケイ( decay )を与える。 変調は正弦波( -s )または三角波( -t )のいずれか。 gain-out は出力音量。 Each four-tuple parameter delay/decay/speed/depth gives the delay in milliseconds and the decay (relative to gain-in) with a modulation speed in Hz using depth in milliseconds. The modulation is either sinusoidal (-s) or triangular (-t). Gain-out is the volume of the output.

代表的なディレイは 40ms 〜 60ms になる。 変調速度は変調深度 2ms 周辺で 0.25Hz 付近が最適になる。 例えば、単独のディレイ: A typical delay is around 40ms to 60ms; the modulation speed is best near 0.25Hz and the modulation depth around 2ms. For example, a single delay:

play guitar1.wav chorus 0.7 0.9 55 0.4 0.25 2 -t

元のサンプルの2つのディレイ: Two delays of the original samples:

play guitar1.wav chorus 0.6 0.9 50 0.4 0.25 2 -t \
   60 0.32 0.4 1.3 -s

より豊潤なコーラス(3つのディレイを追加): A fuller sounding chorus (with three additional delays):

play guitar1.wav chorus 0.5 0.9 50 0.4 0.25 2 -t \
   60 0.32 0.4 2.3 -t 40 0.3 0.3 1.3 -s
compand attack1,decay1{,attack2,decay2}
[soft-knee-dB:]in-dB1[,out-dB1]{,in-dB2,out-dB2}
[gain [initial-volume-dB [delay]]]

音声のダイナミックレンジをコンパンド(圧縮または伸張)する。 【 コンパンド = compand = compress (圧縮)+ expand (伸張)。 】 Compand (compress or expand) the dynamic range of the audio.

秒単位のパラメタ attackdecay は、入力信号の音量を決定するための瞬間的なレベルの平均をとる時間長を定める。 アタック( attack )は音量の増大, ディケイ( decay )は音量の減少を指す。 人間の耳は不意の静音より不意の騒音に敏感なので、ほとんどの状況においてアタック時間(音楽が騒がしくなっていく応答)はディケイ時間より短くすべきである。 パラメタ attack, decay のペアが複数指定された場合、ペア数は入力チャンネル数に一致していなければならず,各入力チャンネルが個別にコンパンドされる。 代表的な値は 0.3,0.8 (秒)。 The attack and decay parameters (in seconds) determine the time over which the instantaneous level of the input signal is averaged to determine its volume; attacks refer to increases in volume and decays refer to decreases. For most situations, the attack time (response to the music getting louder) should be shorter than the decay time because the human ear is more sensitive to sudden loud music than sudden soft music. Where more than one pair of attack/decay parameters are specified, each input channel is companded separately and the number of pairs must agree with the number of input channels. Typical values are 0.3,0.8 seconds.

2番目のパラメタ( in-dB* )はコンパンダの伝達関数上の点のリストで、最大信号振幅に相対的な値を dB 単位で指定する。 入力値は真に増順でなければならないが、伝達関数は単調増加でなくともよい。 out-dB1 が省略された場合の既定値は in-dB1 と同じ値になる。 in-dB1 より下のレベルはコンパンドされない(しかしゲインは適用され得る)。 点 0,0 は(暗黙に)織り込み済みであるが( 0,out-dBn により)上書きし得る。 点のリストの前に soft-knee-dB 値が与えられている場合、伝達関数上の隣接する線分が合流する点は与えられた量により丸められる。 伝達関数に対する代表的な値は 6:-70,-60,-20 The second parameter is a list of points on the compander’s transfer function specified in dB relative to the maximum possible signal amplitude. The input values must be in a strictly increasing order but the transfer function does not have to be monotonically rising. If omitted, the value of out-dB1 defaults to the same value as in-dB1; levels below in-dB1 are not companded (but may have gain applied to them). The point 0,0 is assumed but may be overridden (by 0,out-dBn). If the list is preceded by a soft-knee-dB value, then the points at where adjacent line segments on the transfer function meet will be rounded by the amount given. Typical values for the transfer function are 6:-70,-60,-20.

(オプションの)3番目のパラメタ( gain )は、伝達関数上のすべての点に適用される dB 単位の追加ゲインであり、全体のゲインを簡易に調整できる。 The third (optional) parameter is an additional gain in dB to be applied at all points on the transfer function and allows easy adjustment of the overall gain.

(オプションの)4番目のパラメタ( initial-volume-dB )はコンパンドが開始される際の各チャンネルの初期レベルとみなされる。 これにより、利用者は名目上の初期レベルを与えられるようになる — 例えばコンパンド処理が開始される前に初期信号レベルに大き過ぎるゲインが適用されないようにするために — そのような所では、コンパンダのゲインが適正に調整されるまでの間,出力が強くクリップされることが容易に起こり得る。 (最初は静かな音声に対する)代表的な値は -90 dB 。 The fourth (optional) parameter is an initial level to be assumed for each channel when companding starts. This permits the user to supply a nominal level initially, so that, for example, a very large gain is not applied to initial signal levels before the companding action has begun to operate: it is quite probable that in such an event, the output would be severely clipped while the compander gain properly adjusts itself. A typical value (for audio which is initially quiet) is -90 dB.

(オプションの)5番目のパラメタ( delay )は秒単位のディレイを与える。 入力信号はコンパンダ制御のために即座に解析されるが、音量調整器に供給される前にディレイされる。 アタック/ディケイ時間に近いディレイを指定することにより、コンパンダはリアクティブモードよりも効果的に ‘予測的’ 処理を行えるようになる。 代表的な値は 0.2 秒。 The fifth (optional) parameter is a delay in seconds. The input signal is analysed immediately to control the compander, but it is delayed before being fed to the volume adjuster. Specifying a delay approximately equal to the attack/decay times allows the compander to effectively operate in a ‘predictive’ rather than a reactive mode. A typical value is 0.2 seconds.


次の例は、楽曲を静かな音節でも激しい音節でも運転中の車内などの騒音環境においてリスニングに適するように仕立て上げる: The following example might be used to make a piece of music with both quiet and loud passages suitable for listening to in a noisy environment such as a moving vehicle:

sox asz.wav asz-car.wav compand 0.3,1 6:-70,-60,-20 -5 -90 0.2

伝達関数( ‘6:-70,...’ )は( -70 dB 以下の)とても穏やかな音が保持されることを意味する。 これによりコンパンダは活発な部分の狭間などの ‘静かな’ 音節の音量をブーストしないようになる。 一方で -60 dB 〜 0 dB (最大音量)の範囲の音は、元の楽曲の 60 dB のダイナミックレンジが、道路の騒音には十分狭く, 楽曲を楽しむには十分広くなるように 3 対 1 の 20 dB の範囲に圧縮されるようにブーストされる。 ‘6:’ は 6 dB のソフトニーコンパンドを選択する。 ソフトニー — soft-knee 】 -5 dB の出力ゲインはクリッピング防止に必要になる(この数値は経験則によるもので,厳密ではない)。 初期音量 -90 dB は曲の断片が静音に近い状態から開始される場合に対し十分上手く働き, 0.2 秒のディレイはコンパンダが不意の音量変化に対し少しだけ速く反応できるようにする効果がある。 The transfer function (‘6:-70,...’) says that very soft sounds (below -70dB) will remain unchanged. This will stop the compander from boosting the volume on ‘silent’ passages such as between movements. However, sounds in the range -60dB to 0dB (maximum volume) will be boosted so that the 60dB dynamic range of the original music will be compressed 3-to-1 into a 20dB range, which is wide enough to enjoy the music but narrow enough to get around the road noise. The ‘6:’ selects 6dB soft-knee companding. The -5 (dB) output gain is needed to avoid clipping (the number is inexact, and was derived by experimentation). The -90 (dB) for the initial volume will work fine for a clip that starts with near silence, and the delay of 0.2 (seconds) has the effect of causing the compander to react a bit more quickly to sudden volume changes.

次の例は雑音が信号より低いレベルのときにコンパンドを ノイズゲート として利用する: In the next example, compand is being used as a noise-gate for when the noise is at a lower level than the signal:

play infile compand .1,.2 -inf,-50.1,-inf,-50,-50 0 -90 .1

次のものは雑音が信号より高いレベルのときのノイズゲート( スケルチ にある意味似た): Here is another noise-gate, this time for when the noise is at a higher level than the signal (making it, in some ways, similar to squelch):

play infile compand .1,.1 -45.1,-45,-inf,0,-inf 45 -90 .1

このエフェクトは(伝達関数に対する) --plot グローバルオプションをサポートする。 This effect supports the --plot global option (for the transfer function).

複数帯域のコンパンドエフェクトについては mcompand を見よ。 See also mcompand for a multiple-band companding effect.

contrast [enhancement-amount(75)]

【ダイナミックレンジの】 圧縮と比べ、このエフェクトは音声信号の音をうるさくする。 enhancement-amount は増強量を制御するもので 0-100 の範囲の数を値にとる。 enhancement-amount = 0 でも大きなコントラスト増強を与えることに注意。 Comparable with compression, this effect modifies an audio signal to make it sound louder. enhancement-amount controls the amount of the enhancement and is a number in the range 0-100. Note that enhancement-amount = 0 still gives a significant contrast enhancement.

compandmcompand エフェクトも見よ。 See also the compand and mcompand effects.

dcshift shift [limitergain]

音声に DC シフトをかける。 これは(大抵は録音時のハードウェアの問題に起因する)音声の DC オフセットの除去に有用である。 DC オフセットの影響はヘッドルームに抑えられ、音量もそこまでに抑えられる。 信号に DC オフセットが含まれているかどうかは stat または stats エフェクトで調べられる。 【 DC オフセット = “直流” 差分 = 周波数ゼロの差分 = 時間によらず一定の差分 = 波形の平均値のゼロからの差分 】 Apply a DC shift to the audio. This can be useful to remove a DC offset (caused perhaps by a hardware problem in the recording chain) from the audio. The effect of a DC offset is reduced headroom and hence volume. The stat or stats effect can be used to determine if a signal has a DC offset.

dcshift 値は ±2 の範囲の浮動小数点数で音声のシフト量(±1 の範囲)を指示する。 The given dcshift value is a floating point number in the range of ±2 that indicates the amount to shift the audio (which is in the range of ±1).

オプションで limitergain も指定できる。 これは 1 よりずっと小さい値(例えば 0.050.02 )にすべきであり、クリッピングを避けるためにピークにのみ用いられる。 An optional limitergain can be specified as well. It should have a value much less than 1 (e.g. 0.05 or 0.02) and is used only on peaks to prevent clipping.


DC オフセットを除去するには、次の例に示すように,例えば 10Hz の周波数で highpass フィルタエフェクトを用いる方法もある(短いディレイを伴うが): An alternative approach to removing a DC offset (albeit with a short delay) is to use the highpass filter effect at a frequency of say 10Hz, as illustrated in the following example:

sox -n dc.wav synth 5 sin %0 50
sox dc.wav fixed.wav highpass 10
deemph

コンパクトディスク( IEC 60908 )デエンファシスを適用する(高域減衰 シェルビングフィルタ )。 Apply Compact Disc (IEC 60908) de-emphasis (a treble attenuation shelving filter).

1980 年代初期の一部の CD のマスタリングには プリエンファシス ( ‘事前強調’ )が適用されている。 これらには Beatles, Pink Floyd 他の今でも人気のあるアルバムのみならず、多くのクラシック音楽アルバムも含まれている。 プリエンファシスは再生時には再生機器においてデエンファシスフィルタにより除去されるべきである。 しかしながら,現代のすべての CD プレーヤがこのフィルタを備えているわけではなく、パソコンの CD ドライブでこれを備えているものはごく少数に限られる。 プリエンファシスがかけられた音声を正しいデエンファシスフィルタ抜きに再生すると、音声はクリエータの意図からかけ離れた粗い音になる。 Pre-emphasis was applied in the mastering of some CDs issued in the early 1980s. These included many classical music albums, as well as now sought-after issues of albums by The Beatles, Pink Floyd and others. Pre-emphasis should be removed at playback time by a de-emphasis filter in the playback device. However, not all modern CD players have this filter, and very few PC CD drives have it; playing pre-emphasised audio without the correct de-emphasis filter results in audio that sounds harsh and is far from what its creators intended.

deemph エフェクトにより,プリエンファシスされた CD から取り出された音声に必要なデエンファシスが適用できるようになり、新しい CD に(どの CD プレーヤでも正しく再生できるように) デエンファシス済みの音声を焼いたり,あるいは単純に PC 上の音声ファイルを正しくデエンファシスをかけて再生できるようになる。 例えば: With the deemph effect, it is possible to apply the necessary de-emphasis to audio that has been extracted from a pre-emphasised CD, and then either burn the de-emphasised audio to a new CD (which will then play correctly on any CD player), or simply play the correctly de-emphasised audio files on the PC. For example:

sox track1.wav track1-deemph.wav deemph

を行ってから track1-deemph.wav を CD に焼いたり, and then burn track1-deemph.wav to CD, or

play track1-deemph.wav

で再生する。あるいは単に: or simply

play track1.wav deemph

デエンファシスフィルタは双2次( biquad )として実装されており、入力音声のサンプルレートが 44.1kHz か 48kHz にされている必要がある。 理想的な応答からの最大偏差は( 20kHz までで)僅か 0.06dB である。 The de-emphasis filter is implemented as a biquad and requires the input audio sample rate to be either 44.1kHz or 48kHz. Maximum deviation from the ideal response is only 0.06dB (up to 20kHz).

このエフェクトは --plot グローバルオプションをサポートする。 This effect supports the --plot global option.

bass および treble シェルビング イコライザ エフェクトも見よ。 See also the bass and treble shelving equalisation effects.

delay {position(=)}

1つ以上の音声チャンネルを,与えられた position から開始するようにディレイさせる。 例えば delay 1.5 +1 3000s は、 1 〜 3 番目のチャンネルを順に[ 1.5 秒, 2.5 秒( = 1.5 + 1 ), 3000 サンプル ]だけディレイさせ,他のチャンネルはそのままにする。 Delay one or more audio channels such that they start at the given position. For example, delay 1.5 +1 3000s delays the first channel by 1.5 seconds, the second channel by 2.5 seconds (one second more than the previous channel), the third channel by 3000 samples, and leaves any other channels that may be present un-delayed.

チャイム音を再生する,(1個の長い)コマンド例: The following (one long) command plays a chime sound:

play -n synth -j 3 sin %3 sin %-2 sin %-5 sin %-9 \
  sin %-14 sin %-21 fade h .01 2 1.5 delay \
  1.3 1 .76 .54 .27 remix - fade h 0 2.7 2.5 norm -1

ギターコードを再生する例: and this plays a guitar chord:

play -n synth pl G2 pl B2 pl D3 pl G3 pl D4 pl G4 \
  delay 0 .05 .1 .15 .2 .25 remix - fade 0 4 .1 norm -1
dither [-S|-s|-f filter] [-a] [-p precision]

音声にディザリングを施す。 ディザリング とは、出力サンプルサイズが 24 ビット以下のときに生じ得る,量子化誤差により生じる人間に知覚され得る効果をマスクするために、意図的に微小なノイズを信号に加える技法である。 オプションが与えられていない場合、このエフェクトは三角形確率密度関数( TPDF )によるホワイトノイズを加える。 (一部のサンプルレートにおいてのみ) -s により ノイズシェーピング を選択できる。 -f オプションでは、次に挙げる特定のノイズシェーピングフィルタを選択できる: lipshitz, f-weighted, modified-e-weighted, improved-e-weighted, gesemann, shibata, low-shibata, high-shibata 。 ほとんどの種類のフィルタはサンプルレート 44100Hz のときにしか利用できないことに注意。 フィルタの種類は次のプロパティから判別される: ノイズの聴こえ易さ, 形状付けられた高周波ノイズのレベル(聴き取れなければ問題ないが、そうでない一部の状況では問題になり得る), 処理速度。
種々のノイズシェーピング曲線のグラフについては http://sox.sourceforge.net/SoX/NoiseShaping を参照のこと。 Apply dithering to the audio. Dithering deliberately adds a small amount of noise to the signal in order to mask audible quantization effects that can occur if the output sample size is less than 24 bits. With no options, this effect will add triangular (TPDF) white noise. Noise-shaping (only for certain sample rates) can be selected with -s. With the -f option, it is possible to select a particular noise-shaping filter from the following list: lipshitz, f-weighted, modified-e-weighted, improved-e-weighted, gesemann, shibata, low-shibata, high-shibata. Note that most filter types are available only with 44100Hz sample rate. The filter types are distinguished by the following properties: audibility of noise, level of (inaudible, but in some circumstances, otherwise problematic) shaped high frequency noise, and processing speed. See http://sox.sourceforge.net/SoX/NoiseShaping for graphs of the different noise-shaping curves.

-S オプションは、高い周波数に偏った,やや ‘傾斜のついた’ TPDF を選択する。 任意のサンプリングレートで利用できるが、 22k 付近を下回る場合は素の TPDF の方が, 37k 付近を上回る所ではノイズシェーピングの方が,おそらくより良い。 The -S option selects a slightly ‘sloped’ TPDF, biased towards higher frequencies. It can be used at any sampling rate but below ≈22k, plain TPDF is probably better, and above ≈ 37k, noise-shaping (if available) is probably better.

-a オプションは、ディサリングを(適用可能ならノイズシェーピングも)必要な場合に限って自動的に有効化するモードにする。 最も考えられる用途は、すでにディザがかけられたファイルにフェードインまたはフェードアウトを適用する際に,フェード部分にのみディザが再適用されるようにするものである。 ただし,自動ディザはフールプルーフではないので、フェードに対し注意深くノイズ変調をチェックすべきである。 これが生じる場合、ファイル全体に再ディザをかけるか,あるいは trim, fade, --combine concatenate を用いる。 The -a option enables a mode where dithering (and noise-shaping if applicable) are automatically enabled only when needed. The most likely use for this is when applying fade in or out to an already dithered file, so that the redithering applies only to the faded portions. However, auto dithering is not fool-proof, so the fades should be carefully checked for any noise modulation; if this occurs, then either re-dither the whole file, or use trim, fade, and concatencate.

-p オプションにより、目標の精度を上書きできる。 The -p option allows overriding the target precision.

SoX グローバルオプション -R が与えられていない下では、ホワイトノイズを生成する疑似乱数生成器の乱数種は毎回変わるので,生成されるノイズも呼び出しごとに異なるものになる。 If the SoX global option -R option is not given, then the pseudo-random number generator used to generate the white noise will be ‘reseeded’, i.e. the generated noise will be different between invocations.

このエフェクトの後に他の音声加工エフェクトを続けるべきではない。 This effect should not be followed by any other effect that affects the audio.

上の ‘ディザリング’ の節も見よ。 See also the ‘Dithering’ section above.

downsample [factor(2)]

信号を整数因子によりダウンサンプルする: 各 factor 個のサンプルごとに、最初のサンプルのみが残され,他は破棄される。 Downsample the signal by an integer factor: Only the first out of each factor samples is retained, the others are discarded.

いかなる デシメーションフィルタ も適用されない。 入力信号帯域が適切に制限されていない場合、エイリアシング 折り返し雑音 が生じることになる。 これが望まれる場合もある。 例えば周波数変換など。 No decimation filter is applied. If the input is not a properly bandlimited baseband signal, aliasing will occur. This may be desirable, e.g., for frequency translation.

アンチエイリアシングを伴う一般的な再サンプルエフェクトについては rate を見よ。 upsample も見よ。 For a general resampling effect with anti-aliasing, see rate. See also upsample.

earwax

音声をヘッドホンで聴き易くする。 (ヘッドホンでは標準の)頭の中心に位置するステレオ像を(スピーカ標準の)前方へ移動させるために、 44.1kHz ステレオ(すなわち音楽 CD 形式)音声に ‘キュー’( cue )を付加する。 Makes audio easier to listen to on headphones. Adds ‘cues’ to 44.1kHz stereo (i.e. audio CD format) audio so that when listened to on headphones the stereo image is moved from inside your head (standard for headphones) to outside and in front of the listener (standard for speakers).

echo gain-in gain-out <delay decay>

音声にエコーを加える。 エコーとは反響音のことであり、山々の間で叫んだ場合に自然に生じる(大きなビルの谷間でも生じることがある)。 デジタルエコーエフェクトはこのふるまいを模倣し、単独の楽器やボーカルの響きを豊かにするためによく利用される。 ‘ディレイ’ ( delay, 時間長で指定)が元の信号とエコーとの時間差, ‘ディケイ’ ( decay )がエコー信号の強さを与える。 複数のエコーは異なるディレイとディケイを持ち得る。 Add echoing to the audio. Echoes are reflected sound and can occur naturally amongst mountains (and sometimes large buildings) when talking or shouting; digital echo effects emulate this behaviour and are often used to help fill out the sound of a single instrument or vocal. The time difference between the original signal and the reflection is the ‘delay’ (time), and the loudness of the reflected signal is the ‘decay’. Multiple echoes can have different delays and decays.

与えられた各 delay decay ペアはミリ秒単位のディレイと( gain-in に相対的な)エコーのディケイを与える。 gain-out は出力音量。 例えば次では楽器が実際の演奏の倍の数だけ存在しているかのように聴こえる: Each given delay decay pair gives the delay in milliseconds and the decay (relative to gain-in) of that echo. Gain-out is the volume of the output. For example: This will make it sound as if there are twice as many instruments as are actually playing:

play lead.aiff echo 0.8 0.88 60 0.4

ディレイがごく短い場合、(金属的な)ロボットが音楽を演奏しているように聴こえる: If the delay is very short, then it sound like a (metallic) robot playing music:

play lead.aiff echo 0.8 0.88 6 0.4

ディレイをより長くすると山間の野外コンサートのように聴こえる: A longer delay will sound like an open air concert in the mountains:

play lead.aiff echo 0.8 0.9 1000 0.3

山を一個増やす: One mountain more, and:

play lead.aiff echo 0.8 0.9 1000 0.3 1800 0.25
echos gain-in gain-out <delay decay>

音声に一連のエコーを追加する。 各 delay decay のペアはミリ秒単位のディレイと( gain-in に相対的な)エコーのディケイを与える。 gain-out は出力音量。 Add a sequence of echoes to the audio. Each delay decay pair gives the delay in milliseconds and the decay (relative to gain-in) of that echo. Gain-out is the volume of the output.

echo エフェクト同様、 echos は ‘ECHO in Sequel’ を表す。 すなわち、最初のエコーは入力に呼応し, 2番目のエコーは入力と最初のエコーに呼応し, 3番目のエコーは入力と最初のエコーと2番目のエコーに呼応し, ... 等々、以下同様に続く。 多数のエコーを用いる場合は注意すべきである。 単独のディレイ/ディケイによる echos は単独の echo と同じ効果になる。 Like the echo effect, echos stand for ‘ECHO in Sequel’, that is the first echos takes the input, the second the input and the first echos, the third the input and the first and the second echos, ... and so on. Care should be taken using many echos; a single echos has the same effect as a single echo.

サンプルが2度反響する対称エコー: The sample will be bounced twice in symmetric echos:

play lead.aiff echos 0.8 0.7 700 0.25 700 0.3

サンプルが2度反響する非対称のエコー: The sample will be bounced twice in asymmetric echos:

play lead.aiff echos 0.8 0.7 700 0.25 900 0.3

サンプルはガレージ内で演奏したように聴こえる: The sample will sound as if played in a garage:

play lead.aiff echos 0.8 0.7 40 0.25 63 0.3
equalizer frequency[k] width[q|o|h|k] gain

2極ピーキング イコライザ ( EQ )フィルタを適用する。 このフィルタにより、信号レベルは選択された周波数付近で増減させられる一方、(バンドパス/バンドストップフィルタと異なり)他のすべての周波数では変化しない。 Apply a two-pole peaking equalisation (EQ) filter. With this filter, the signal-level at and around a selected frequency can be increased or decreased, whilst (unlike band-pass and band-reject filters) that at all other frequencies is unchanged.

frequency はフィルタの中心周波数( Hz ), width は帯域幅, gain は必要なゲインまたは減衰( dB )を与える。 正の gain を用いる場合は クリッピング に注意。 frequency gives the filter’s central frequency in Hz, width, the band-width, and gain the required gain or attenuation in dB. Beware of Clipping when using a positive gain.

このエフェクトを異なる中心周波数でいくつも与えることにより、複雑なイコライザ曲線を生成できる。 In order to produce complex equalisation curves, this effect can be given several times, each with a different central frequency.

このフィルタの詳細は [1] を参照のこと。 The filter is described in detail in [1].

このエフェクトは --plot グローバルオプションをサポートする。 This effect supports the --plot global option.

シェルビング イコライザ エフェクトについては bass および treble も見よ。 See also bass and treble for shelving equalisation effects.

fade [type] fade-in-length [stop-position(=) [fade-out-length]]

音声の先頭や末尾またはその両方にフェードエフェクトをかける。 Apply a fade effect to the beginning, end, or both of the audio.

オプションの type でフェード曲線の形状を指定できる: q は正弦波の 1/4, h は正弦波の 1/2, t は線形勾配( ‘三角波’ ), l は対数曲線, p は反転放物線。 既定値は対数曲線。 An optional type can be specified to select the shape of the fade curve: q for quarter of a sine wave, h for half a sine wave, t for linear (‘triangular’) slope, l for logarithmic, and p for inverted parabola. The default is logarithmic.

フェードインは最初のサンプルから開始され、 fade-in-length 秒に渡り,信号レベルを 0 から最大音量まで立ち上げる。 フェードインが不要な場合は 0 を指定する。 A fade-in starts from the first sample and ramps the signal level from 0 to full volume over the time given as fade-in-length. Specify 0 if no fade-in is wanted.

フェードアウトでは、信号レベルを stop-positionfade-out-length 秒前から,次第に 0 へ落ち込ませる。 音声は stop-position の時点で途切れる。 fade-out-length が指定されなかった場合の既定値は fade-in-length と同じ値になる。 stop-position が指定されなかった場合、フェードアウトは行われない。 入力ファイルのヘッダから音声の長さが判明していて,かつ,他のエフェクトが前にない場合、 stop-position-0 (過去との互換性から 0 も可)を指定することにより,通例的な入力音声ストリームの終端におけるフェードアウト終了を指示できる。 For fade-outs, the audio will be truncated at stop-position and the signal level will be ramped from full volume down to 0 over an interval of fade-out-length before the stop-position. If fade-out-length is not specified, it defaults to the same value as fade-in-length. No fade-out is performed if stop-position If the audio length can be determined from the input file header and any previous effects, then -0 (or, for historical reasons, 0) may be specified for stop-position to indicate the usual case of a fade-out that ends at the end of the input audio stream.

どの時間指定も, fade-in-length, fade-out-length に利用できる。 Any time specification may be used for fade-in-length and fade-out-length.

splice エフェクトも見よ。 See also the splice effect.

fir [coefs-file|coefs]

与えられた FIR フィルタ係数による SoX の FFT コンボリューションエンジンを利用する。 引数が1個の場合、フィルタ係数を内容とするファイル名と解釈される(内容は空白区切りで ‘#’ コメントが含まれてもよい)。 ファイル名が ‘-’ の場合, または引数が与えられなかった場合、係数は ‘標準入力’ ( stdin )から読み取られる。 他の場合の係数は,コマンドラインから与えられるものになる。 例: Use SoX’s FFT convolution engine with given FIR filter coefficients. If a single argument is given then this is treated as the name of a file containing the filter coefficients (white-space separated; may contain ‘#’ comments). If the given filename is ‘-’, or if no argument is given, then the coefficients are read from the ‘standard input’ (stdin); otherwise, coefficients may be given on the command line. Examples:

sox infile outfile fir 0.0195 -0.082 0.234 0.891 -0.145 0.043
sox infile outfile fir coefs.txt

ここで coefs.txt は次を内容とするファイル: with coefs.txt containing

# HP filter
# freq=10000
  1.2311233052619888e-01
 -4.4777096106211783e-01
  5.1031563346705155e-01
 -6.6502926320995331e-02
...

このエフェクトは --plot グローバルオプションをサポートする。 This effect supports the --plot global option.

flanger [delay depth regen width speed shape phase interp]

音声に フランジャー によるエフェクトをかける。 フランジャーについての詳細は [3] を参照。 Apply a flanging effect to the audio. See [3] for a detailed description of flanging.

すべてのパラメタは(右から左の順に)オプション。 All parameters are optional (right to left).

パラメタ 範囲 既定値 説明
delay 0 〜 30 0

主ディレイ(ミリ秒)。 Base delay in milliseconds.

depth 0 〜 10 2

追加される,スイープされたディレイ(ミリ秒)。 Added swept delay in milliseconds.

regen −95 〜 95 0

再生成( regeneration )の割合(ディレイ信号のフィードバック)。 Percentage regeneration (delayed signal feedback).

width 0 〜 100 71

元の信号と混合するディレイ信号の割合(百分率)。 Percentage of delayed signal mixed with original.

speed 0.1 〜 10 0.5

秒あたりの seep ( Hz )。 Seeps per second (Hz).

shape sin

スイープ波形: sine | triangle Swept wave shape: sine | triangle.

phase 0 〜 100 25

マルチチャンネル(例えばステレオ)フランジに対するスイープ波の位相偏移の割合( % )。 0 = 100 = 各チャンネルで同相。 Swept wave percentage phase-shift for multi-channel (e.g. stereo) flange; 0 = 100 = same phase on each channel.

interp lin

デジタル ディレイライン 補間: linear | quadratic Digital delay-line interpolation: linear | quadratic.

gain [-e|-B|-b|-r] [-n] [-l|-h] [gain-dB]

音声信号を増幅または減衰させる(一部の場合は一部のチャンネルに対して)。 -e, -B, -b, -r, -n のいずれか一つでも利用される場合、処理される音声を一時的に格納するファイル領域が必要になるので, ‘ストリーム’ 音声には適さなくなり得ることに注意。 Apply amplification or attenuation to the audio signal, or, in some cases, to some of its channels. Note that use of any of -e, -B, -b, -r, or -n requires temporary file space to store the audio to be processed, so may be unsuitable for use with ‘streamed’ audio.

他のオプションが無ければ、 gain-dB は与えられた dB の量だけ信号パワーレベルを調整するために利用される:正数は増幅(クリッピングに注意), 負数は減衰。 他のオプションを伴う場合、 gain-dB による増幅または減衰は(論理的に)それらのオプションの処理結果に適用される。 Without other options, gain-dB is used to adjust the signal power level by the given number of dB: positive amplifies (beware of Clipping), negative attenuates. With other options, the gain-dB amplification or attenuation is (logically) applied after the processing due to those options.

-e オプションが与えられた場合、マルチチャンネルファイルの音声チャンネルのレベルが ‘均一化’ される。 すなわちゲインは、すべてのチャンネルが同じピークレベルを持つように,最も高いピークレベルを持つチャンネル以外の,すべてのチャンネルに適用される(ただし、 -n を与えない限り,音声は ‘正規化’ されない)。 Given the -e option, the levels of the audio channels of a multi-channel file are ‘equalised’, i.e. gain is applied to all channels other than that with the highest peak level, such that all channels attain the same peak level (but, without also giving -n, the audio is not ‘normalised’).

-B (バランス)オプションは -e と同様だが、 -B の場合はピークレベルの代わりに RMS レベルが利用される。 -B は、不完全なレコードターンテーブル カートリッジにより生じる,ステレオバランスの不均衡の是正に利用できる。 -e と異なり、 -B ではクリッピングが生じ得ることに注意。 The -B (balance) option is similar to -e, but with -B, the RMS level is used instead of the peak level. -B might be used to correct stereo imbalance caused by an imperfect record turntable cartridge. Note that unlike -e, -B might cause some clipping.

-b-B と同様だが、クリッピング防止機能も備える。 すなわち,バランスをとる際にクリッピング防止が必要になったときは、全チャンネルに減衰が適用される。 -n を伴う場合は -B-b が等価になることに注意。 -b is similar to -B but has clipping protection, i.e. if necessary to prevent clipping whilst balancing, attenuation is applied to all channels. Note, however, that in conjunction with -n, -B and -b are synonymous.

-r オプションは、 -h オプションを伴う先行の gain の呼び出しと,連携で利用する。 詳細は後述。 The -r option is used in conjunction with a prior invocation of gain with the -h option - see below for details.

-n オプションは、音声を 0dB FSD に正規化する。 これは音声が 0dB を下回る与えられたレベルに正規化されるように、負の gain-dB を伴って利用されることが多い。 例えば: The -n option normalises the audio to 0dB FSD; it is often used in conjunction with a negative gain-dB to the effect that the audio is normalised to a given level below 0dB. For example,

sox infile outfile gain -n

は 0dB に正規化し, normalises to 0dB, and

sox infile outfile gain -n -3

は -3dB に正規化する。 normalises to -3dB.

-l オプションは、単純なリミッターを呼び出す。 例えば: The -l option invokes a simple limiter, e.g.

sox infile outfile gain -l 6

は、 6dB のゲインを適用しつつ,クリップされないようにする。 少量の dB より大きいリミッターを(音声の断片の中で)高頻度にかけるのは、聴覚し得る歪みを生じさせるので推奨されない。 より高性能なリミッターについては compand エフェクトを見よ。 will apply 6dB of gain but never clip. Note that limiting more than a few dBs more than occasionally (in a piece of audio) is not recommended as it can cause audible distortion. See the compand effect for a more capable limiter.

-h オプションは、後続の処理にヘッドルームを供するために, gain を適用させる場合に用いる。 例えば: The -h option is used to apply gain to provide head-room for subsequent processing. For example, with

sox infile outfile gain -h bass +6

は、低域ブーストエフェクトの前に 6dB の減衰を適用しつつ,クリップされないようにする。 もちろん, bass に必要なヘッドルームの量は自明だが、他のエフェクト(例えば rate, dither )では必ずしも自明ではない。 明示的な減衰よりも gain -h を用いる別の利点は、ヘッドルームが後続のエフェクトで利用されない場合に gain -r で矯正できる所にある。 6dB of attenuation will be applied prior to the bass boosting effect thus ensuring that it will not clip. Of course, with bass, it is obvious how much headroom will be needed, but with other effects (e.g. rate, dither) it is not always as clear. Another advantage of using gain -h rather than an explicit attenuation, is that if the headroom is not used by subsequent effects, it can be reclaimed with gain -r, for example:

例えば、次のエフェクトチェイン:

sox infile outfile gain -h bass +6 rate 44100 gain -r

では、クリッピング回避のために必要な量だけ減衰される一方,決してクリップされたり増幅されないことが保障される。 The above effects chain guarantees never to clip nor amplify; it attenuates if necessary to prevent clipping, but by only as much as is needed to do so.

出力形式化(ディザリングやビット深度削減)もヘッドルームを要する( ‘矯正’ はできない)。 例えば: Output formatting (dithering and bit-depth reduction) also requires headroom (which cannot be ‘reclaimed’), e.g.

sox infile outfile gain -h bass +6 rate 44100 gain -rh dither

ここでの2番目の gain の呼び出しは、先行のエフェクトから可能な限りのヘッドルームを矯正する一方,後続の処理に必要なヘッドルームの量は保持する。 SoX グローバルオプション -G により gain -hgain -r を自動的に呼び出させるようにできる。 Here, the second gain invocation, reclaims as much of the headroom as it can from the preceding effects, but retains as much headroom as is needed for subsequent processing. The SoX global option -G can be given to automatically invoke gain -h and gain -r.

norm および vol エフェクトも見よ。 See also the norm and vol effects.

highpass|lowpass [-1|-2] frequency[k] [width[q|o|h|k]]

3dB 点 frequency を伴うハイパス(高域通過)またはローパス(低域通過)フィルタを適用する。 フィルタは単極( -1 の場合), または2極( double-pole — 既定値, または -2 の場合) のいずれか。 width は2極フィルタにのみ適用される。 既定値は Q = 0.707 で、バターワース応答を与える。 フィルタは各極ごとにオクターブあたり 6dB ( pole ごとに decade あたり 20dB )ロールオフする。 2極フィルタについての詳細は [1] を参照。 Apply a high-pass or low-pass filter with 3dB point frequency. The filter can be either single-pole (with -1), or double-pole (the default, or with -2). width applies only to double-pole filters; the default is Q = 0.707 and gives a Butterworth response. The filters roll off at 6dB per pole per octave (20dB per pole per decade). The double-pole filters are described in detail in [1].

これらのエフェクトは --plot グローバルオプションをサポートする。 These effects support the --plot global option.

より急峻なロールオフを備えるフィルタについては sinc を見よ。 See also sinc for filters with a steeper roll-off.

hilbert [-n taps]

位相偏移 90 度の odd-tap Hilbert 変換フィルタを適用する。 Apply an odd-tap Hilbert transform filter, phase-shifting the signal by 90 degrees.

これは、多くの matrix coding scheme と解析信号生成に利用される。 その過程は、虚数単位 i (あるいは j )による積として記述されることが多い。 This is used in many matrix coding schemes and for analytic signal generation. The process is often written as a multiplication by i (or j), the imaginary unit.

odd-tap Hilbert 変換フィルタは、最低/最高周波数の減衰バンドパス特性を持つ。 その帯域幅は -n で指定されるフィルタタップの数により,制御される。 既定のタップ数は、カットオフ周波数が おおよそ 75 Hz になるように選択される。 An odd-tap Hilbert transform filter has a bandpass characteristic, attenuating the lowest and highest frequencies. Its bandwidth can be controlled by the number of filter taps, which can be specified with -n. By default, the number of taps is chosen for a cutoff frequency of about 75 Hz.

このエフェクトは --plot グローバルオプションをサポートする。 This effect supports the --plot global option.

ladspa [-l|-r] module [plugin] [argument...]

LADSPA [5] ( Linux Audio Developer’s Simple Plugin API )プラグインを適用する。 LADSPA はその名に関わらず Linux 固有ではなく、 cmt [6] ( the Computer Music Toolkit )や Steve Harris の一連のプラグイン [7] など,広範なエフェクトを LADSPA プラグインとして利用できる。 最初の引数がプラグインモジュール, 2番目の引数がプラグイン名(モジュールは複数のプラグインを含み得る), 他のすべての引数はプラグインの制御用になる。 省略された引数には可能な限り既定値があてがわれる。 Apply a LADSPA [5] (Linux Audio Developer’s Simple Plugin API) plugin. Despite the name, LADSPA is not Linux-specific, and a wide range of effects is available as LADSPA plugins, such as cmt [6] (the Computer Music Toolkit) and Steve Harris’s plugin collection [7]. The first argument is the plugin module, the second the name of the plugin (a module can contain more than one plugin), and any other arguments are for the control ports of the plugin. Missing arguments are supplied by default values if possible.

通常、プラグインの入力ポート数は 入力チャンネル数に一致する必要があり、出力ポート数が出力チャンネル数を決定する。 しかしながら、 -r ( “replicate(複製)”)オプションを使えば,モノラルのプラグインをいくつも複製して,マルチチャンネル入力を取り扱えるようになる。 Normally, the number of input ports of the plugin must match the number of input channels, and the number of output ports determines the output channel count. However, the -r (replicate) option allows cloning a mono plugin to handle multi-channel input.

プラグインには,レイテンシをもたらすものもあるが、オプションで SoX が補償できることもある。 -l ( latency 補償)オプションは、名前 "latency" の出力制御ポートを介してプラグインから報告されたレイテンシを,自動的に補償する。 Some plugins introduce latency which SoX may optionally compensate for. The -l (latency compensation) option automatically compensates for latency as reported by the plugin via an output control port named "latency".

プラグインの検索パスには環境変数 LADSPA_PATH が利用される(もしあれば)。 If found, the environment variable LADSPA_PATH will be used as search path for plugins.

loudness [gain [reference]]

ラウドネスコントロール — gain エフェクトと類似するが,人間の聴覚システムのためのイコライザも提供する。 ラウドネス(聴感音量)についての詳細な説明は http://ja.wikipedia.org/wiki/音の大きさ を参照のこと。 ゲインは与えられた gain パラメタ(通常は負値)により調整され、信号は ISO 226 従って基準レベル 65dB により均一化(イコライズ)される(元の音声が他の何らかの最適化レベルによりすでに均一化されている場合は別途 reference レベルを与えられるが)。 gain 値が与えられなかった場合は既定のゲインとして -10dB が用いられる。 Loudness control - similar to the gain effect, but provides equalisation for the human auditory system. See http://en.wikipedia.org/wiki/Loudness for a detailed description of loudness. The gain is adjusted by the given gain parameter (usually negative) and the signal equalised according to ISO 226 w.r.t. a reference level of 65dB, though an alternative reference level may be given if the original audio has been equalised for some other optimal level. A default gain of -10dB is used if a gain value is not given.

gain エフェクトも見よ。 See also the gain effect.

lowpass [-1|-2] frequency[k] [width[q|o|h|k]]

ローパス(低域通過)フィルタを適用する。 詳細は highpass エフェクトの説明を見よ。 Apply a low-pass filter. See the description of the highpass effect for details.

mcompand "attack1,decay1{,attack2,decay2}
[soft-knee-dB:]in-dB1[,out-dB1]{,in-dB2,out-dB2}
[gain [initial-volume-dB [delay]]]"
{crossover-freq[k] "attack1,..."}

マルチバンド(複帯域)コンパンダはシングルバンド(単帯域)コンパンダと似ているが、音声は最初に Linkwitz-Riley クロスオーバーフィルタ を用いて帯域に分割され,それぞれの帯域に別々に指定可能なコンパンダが実行される。 パラメタの定義については compand エフェクトを見よ。 コンパンドパラメタは二重引用符で括って指定し,その帯域に対するクロスオーバー周波数は crossover-freq で与える。 これらは複数の帯域をなすように繰り返せる。 The multi-band compander is similar to the single-band compander but the audio is first divided into bands using Linkwitz-Riley cross-over filters and a separately specifiable compander run on each band. See the compand effect for the definition of its parameters. Compand parameters are specified between double quotes and the crossover frequency for that band is given by crossover-freq; these can be repeated to create multiple bands.

次の(1つの長い)コマンドは FM ラジオで利用されるマルチバンド コンパンドの代表的な例になる: For example, the following (one long) command shows how multi-band companding is typically used in FM radio:

play track1.wav gain -3 sinc 8000- 29 100 mcompand \
  "0.005,0.1 -47,-40,-34,-34,-17,-33" 100 \
  "0.003,0.05 -47,-40,-34,-34,-17,-33" 400 \
  "0.000625,0.0125 -47,-40,-34,-34,-15,-33" 1600 \
  "0.0001,0.025 -47,-40,-34,-34,-31,-31,-0,-30" 6400 \
  "0,0.025 -38,-31,-28,-28,-0,-25" \
  gain 15 highpass 22 highpass 22 sinc -n 255 -b 16 -17500 \
  gain 9 lowpass -1 17801

音声ファイルは FM ラジオの音を模倣するように再生される(あるいは末端のローパスフィルタ( lowpass -1 17801 )を省略すると放送信号条件になる)。 ここでのパイプラインは北米式の 75us プリエンファシスに設定されていることに注意。 The audio file is played with a simulated FM radio sound (or broadcast signal condition if the lowpass filter at the end is skipped). Note that the pipeline is set up with US-style 75us pre-emphasis.

シングルバンド コンパンド エフェクトについては compand を見よ。 See also compand for a single-band companding effect.

noiseprof [profile-file]

ノイズリダクションに利用するために、音声のプロファイルを算出する。 詳細は noisered エフェクトを見よ。 Calculate a profile of the audio for use in noise reduction. See the description of the noisered effect for details.

noisered [profile-file [amount]]

プロファイルをとり,フィルタをかけることにより、音声信号のノイズを減らす。 このエフェクトはヒスやハムなどの一定の背景ノイズの除去に適度に効果的である。 利用する前にはまず、理想的には静音の筈であるが 実際にはノイズがある区間が含まれている音声に対し, noiseprof エフェクトを用いて SoX を実行する。 そのような区間は通例,録音の先頭や末尾に見つかる。 noiseprof はノイズのプロファイルを profile-file に, あるいは profile-file が与えられていないか ‘-’ が与えられている場合は標準出力( stdout )に書き出す。 例えば: Reduce noise in the audio signal by profiling and filtering. This effect is moderately effective at removing consistent background noise such as hiss or hum. To use it, first run SoX with the noiseprof effect on a section of audio that ideally would contain silence but in fact contains noise - such sections are typically found at the beginning or the end of a recording. noiseprof will write out a noise profile to profile-file, or to stdout if no profile-file or if ‘-’ is given. E.g.

sox speech.wav -n trim 0 1.5 noiseprof speech.noise-profile

ノイズを実際に除去するためには、 noisered エフェクトを与えて SoX をもう一度実行する。 noisered は( noiseprof で生成された) profile-file からのノイズのプロファイルに基づいてノイズを減少させる。 例えば: To actually remove the noise, run SoX again, this time with the noisered effect; noisered will reduce noise according to a noise profile (which was generated by noiseprof), from profile-file, or from stdin if no profile-file or if ‘-’ is given. E.g.

sox speech.wav cleaned.wav noisered speech.noise-profile 0.3

取り除かれるべきノイズの量は amount で与える。 値は 0 〜 1 の範囲の数で,既定値は 0.5 。 数値を大きくする程,より多くのノイズを除去するが、音声信号の中の必要な成分も削られ易くなる。 元の録音をノイズ除去バージョンに置き換える前に、音声に対する最適値を見つけるために様々な amount 値を試し、ヘッドホンを用いて,特に静音部に注意を払いながら,満足する結果になるかどうかを調べるとよい。 How much noise should be removed is specified by amount-a number between 0 and 1 with a default of 0.5. Higher numbers will remove more noise but present a greater likelihood of removing wanted components of the audio signal. Before replacing an original recording with a noise-reduced version, experiment with different amount values to find the optimal one for your audio; use headphones to check that you are happy with the results, paying particular attention to quieter sections of the audio.

多くのシステムでは、パイプを用いてこの2つの段階 — プロファイルの取得とノイズリダクション — を連結させられる。 例えば: On most systems, the two stages - profiling and reduction - can be combined using a pipe, e.g.

sox noisy.wav -n trim 0 1 noiseprof | play noisy.wav noisered
norm [dB-level]

音声を正規化する。 normgain -n のエイリアスである。 詳細は gain エフェクトを見よ。 Normalise the audio. norm is just an alias for gain -n; see the gain effect for details.

oops

Out Of Phase Stereo エフェクト。 ステレオを、それぞれのモノラルチャンネルがステレオの左右のチャンネルの差分を含むように、2つのモノラルに混合する。 これはしばしば,録音からボーカルの大半を除去する所から、 ‘karaoke’ エフェクトと呼ばれることもある。 これは remix 1,2i 1,2i と等価になる。 Out Of Phase Stereo effect. Mixes stereo to twin-mono where each mono channel contains the difference between the left and right stereo channels. This is sometimes known as the ‘karaoke’ effect as it often has the effect of removing most or all of the vocals from a recording. It is equivalent to remix 1,2i 1,2i.

overdrive [gain(20) [colour(20)]]

非線形ディストーション。 colour パラメタは オーバードライブ された出力に含まれる偶高調波成分の量を制御する。 Non linear distortion. The colour parameter controls the amount of even harmonic content in the over-driven output.

pad { length[@position(=)] }

音声の先頭や末尾, あるいは指定された任意の地点に静音区間を追加する。 length は挿入する静音の長さ, position は入力音声ストリームの中に静音部を挿入する位置を与える(どの形の時間指定も利用できる)。 長さと挿入位置はいくつでも指定できるが、後から与える挿入位置は,先に与えた挿入位置より後方に位置しなければならない。 position は最初と最後に指定される length に対してはオプションであり、省略された場合の挿入位置はそれぞれ音声の先頭と末尾になる。 例えば pad 1.5 1.5 は音声の前後両端に 1.5 秒の静音を付加する一方、 pad 4000s@3:00 は 4000 サンプルの静音を音声の 3 分の所に挿入する。 音声の末尾にのみ静音を付加したい場合、末尾の挿入位置を指定するか,先頭に長さ 0 の静音を与える。 Pad the audio with silence, at the beginning, the end, or any specified points through the audio. length is the amount of silence to insert and position the position in the input audio stream at which to insert it. Any number of lengths and positions may be specified, provided that a specified position is not less that the previous one, and any time specification may be used for them. position is optional for the first and last lengths specified and if omitted correspond to the beginning and the end of the audio respectively. For example, pad 1.5 1.5 adds 1.5 seconds of silence padding at each end of the audio, whilst pad 4000s@3:00 inserts 4000 samples of silence 3 minutes into the audio. If silence is wanted only at the end of the audio, specify either the end position or specify a zero-length pad at the start.

音声のチャンネルごとに先頭に静音を付加できるエフェクトについては delay も見よ。 See also delay for an effect that can add silence at the beginning of the audio on a channel-by-channel basis.

phaser gain-in gain-out delay decay speed [-s|-t]

音声に phasing エフェクトをかける。 phasing についての詳細は [3] を見よ。 フェイザー Add a phasing effect to the audio. See [3] for a detailed description of phasing.

delay, decay, speed は、ミリ秒単位のディレイ( delay ),および Hz 単位の変調速度( speed )による( gain-in に相対的な)ディケイ( decay )を与える。 変調は複数の楽器に適する正弦波( -s ), または単独の楽器に鋭敏な phasing エフェクトを与える三角波( -t )のいずれか。 フィードバックを避けるため、ディケイは 0.5 より小さくすべきであり,通常は 0.1 にする。 gain-out は出力音量。 delay/decay/speed gives the delay in milliseconds and the decay (relative to gain-in) with a modulation speed in Hz. The modulation is either sinusoidal (-s) - preferable for multiple instruments, or triangular (-t) - gives single instruments a sharper phasing effect. The decay should be less than 0.5 to avoid feedback, and usually no less than 0.1. Gain-out is the volume of the output.

例えば: For example:

play snare.flac phaser 0.8 0.74 3 0.4 0.5 -t

軽めにかける: Gentler:

play snare.flac phaser 0.9 0.85 4 0.23 1.3 -s

一般的: A popular sound:

play snare.flac phaser 0.89 0.85 1 0.24 2 -t

きつくかける: More severe:

play snare.flac phaser 0.6 0.66 3 0.6 2 -t
pitch [-q] shift [segment [search [overlap]]]

(テンポはそのままに)音声ピッチ(音高)を変える。 Change the audio pitch (but not tempo).

shift にはピッチのずれを正または負の(半音の 1/100 単位の)‘セント’ 数で与える。 他のパラメタについては tempo エフェクトを見よ。 shift gives the pitch shift as positive or negative ‘cents’ (i.e. 100ths of a semitone). See the tempo effect for a description of the other parameters.

bend, speed, tempo エフェクトも見よ。 See also the bend, speed, and tempo effects.

rate [-q|-l|-m|-h|-v] [override-options] RATE[k]

音声のサンプリングレートを,次で定義される品質レベルを用いて RATE (出力ファイル形式でサポートされていれば整数でなくともよい)に変更する(再サンプル)。 Change the audio sampling rate (i.e. resample the audio) to any given RATE (even non-integer if this is supported by the output file format) using a quality level defined as follows:

品質 帯域幅 Rej dB 代表的な利用
-q quick n/a≃ 30 @ Fs/4

旧式ハードウェアで再生 Playback on ancient hardware

-l low 80 %100

古いハードウェアで再生 Playback on old hardware

-m medium 95 %100

音声再生 audio playback

-h high 95 %125

(ディザを用いた) 16 ビット マスタリング 16-bit mastering (use with dither)

-v very high95 %175

24 ビット マスタリング 24-bit mastering

ここで、 帯域幅 は 保持される音声周波数帯域の割合(百分率), Rej dB は ノイズ除去( rejection )のレベルである。 再サンプルの品質レベルを上げる程,より多くの処理時間も必要になる。 品質オプションが与えられなかった場合、品質レベルには ‘high’ が用いられる (ただし,再生に関しては、上述の音声の再生と記録を見よ)。 where Band-width is the percentage of the audio frequency band that is preserved and Rej dB is the level of noise rejection. Increasing levels of resampling quality come at the expense of increasing amounts of time to process the audio. If no quality option is given, the quality level used is ‘high’ (but see ‘Playing & Recording Audio’ above regarding playback.

‘quick’ アルゴリズムは3次( cubic )補間を利用する。 他のすべては band-limited 補間を利用する。 既定ではすべてのアルゴリズムは ‘線形’ 位相応答を持つ。 ‘medium’, ‘high’, ‘very high’ のいずれも位相応答を設定できる(下を見よ)。 The ‘quick’ algorithm uses cubic interpolation; all others use band-limited interpolation. By default, all algorithms have a ‘linear’ phase response; for ‘medium’, ‘high’ and ‘very high’, the phase response is configurable (see below).

rate エフェクトは、 SoX の -r オプションが入力ファイルのレートと異なるレートを指定している場合に自動的に呼び出される。 また、このエフェクトが明示的に与えられていれば -r オプションを与える必要はなくなる。 例えば次の2つのコマンドは等価になる: The rate effect is invoked automatically if SoX’s -r option specifies a rate that is different to that of the input file(s). Alternatively, if this effect is given explicitly, then SoX’s -r option need not be given. For example, the following two commands are equivalent:

sox input.wav -r 48k output.wav bass -b 24
sox input.wav        output.wav bass -b 24 rate 48k

rate オプションを明示的に与える2番目の書式の方が、エフェクトの順序を任意に並び替えられるので,より柔軟性に富むが。 though the second command is more flexible as it allows rate options to be given, and allows the effects to be ordered arbitrarily.


以下は技術的な詳細を含む解説になる: Warning: technically detailed discussion follows.

大半の再サンプル作業は、上述の単純な品質の選択で十分達成できる。 しかしながら、再サンプルのフィルタ応答の微調整が望ましいケースもある。 これは、次の表に詳細が述べられる上書きオプション( override-options )を用いて得られる: The simple quality selection described above provides settings that satisfy the needs of the vast majority of resampling tasks. Occasionally, however, it may be desirable to fine-tune the resampler’s filter response; this can be achieved using override options, as detailed in the following table:

-M/-I/-L

位相応答 = 最小 / 中程度 / 線形 Phase responce = minimum / intermediate / linear

-s

steep フィルタ (帯域幅 = 99%) Steep filter (band-width = 99%)

-a

通過帯域より上の帯域のエイリアシング/イメージングを許容 Allow aliasing / imaging above the pass-band

-b 74 ... 99.7

任意の帯域幅 % Any band-width %

-p 0 ... 100

任意の位相応答( 0 = 最小, 25 = 中程度, 50 = 線形, 100 = 最大) Any phase responce (0 = minimum, 25 = intermediate, 50 = linear, 100 = maximum)

注記:上書きオプションは ‘quick’ または ‘low’ 品質アルゴリズムでは利用できない。 N.B. Override options cannot be used with the ‘quick’ or ‘low’ quality algorithms.

すべての再サンプラは、 ‘指弾音’ や他の衝撃音から生じる短い信号を伴う ‘エコー’ アーティファクト(別称 ‘リンギング’ )を時折 生じさせ得るフィルタを利用する。 その種のアーティファクトは、 transient の前に生じた場合( ‘プリエコー’ )の方が,後に生じた場合( ‘ポストエコー’ )よりも人間の耳にはずっと知覚されやすい。 その種のアーティファクトの周波数は,元のまたは新しいサンプリングレートの小さい方に関連するが、少なくとも 44.1kHz であればアーティファクトは人間の聴覚外になる。 All resamplers use filters that can sometimes create ‘echo’ (a.k.a. ‘ringing’) artefacts with transient signals such as those that occur with ‘finger snaps’ or other highly percussive sounds. Such artefacts are much more noticeable to the human ear if they occur before the transient (‘pre-echo’) than if they occur after it (‘post-echo’). Note that frequency of any such artefacts is related to the smaller of the original and new sampling rates but that if this is at least 44.1kHz, then the artefacts will lie outside the range of human hearing.

位相応答の設定を ‘プリ’ と ‘ポスト’ の間の transient エコーの配分に利用できる: 位相を最小にした場合、プリエコーは生じないがポストエコーは最長になる。 線形位相では、プリエコーとポストエコーは均等になる(聴感上ではなく,信号として)。 中程度の位相設定では、短い(およびレベルの小さい)プリエコーと中程度の長さのポストエコーから,最良の妥協点を見つけようと試みる。 A phase response setting may be used to control the distribution of any transient echo between ‘pre’ and ‘post’: with minimum phase, there is no pre-echo but the longest post-echo; with linear phase, pre and post echo are in equal amounts (in signal terms, but not audibility terms); the intermediate phase setting attempts to find the best compromise by selecting a small length (and level) of pre-echo and a medium lengthed post-echo.

最小, 中程度, 線形 の位相応答はそれぞれ -M, -I, -L オプションに対応する。 -p オプションにより位相応答をカスタマイズできる。 ‘線形’ から ‘最大’ まで( 50 より大)の位相応答が有用になるケースは稀である事に注意。 Minimum, intermediate, or linear phase response is selected using the -M, -I, or -L option; a custom phase response can be created with the -p option. Note that phase responses between ‘linear’ and ‘maximum’ (greater than 50) are rarely useful.

再サンプラの帯域幅設定は、変換において(アップサンプリングの場合は 元のサンプルレート, ダウンサンプリングの場合は 新しいサンプルレートに対し)元の信号の周波数内容がどれだけ保持されるかを決定する。 語 ‘通過帯域’ は、帯域幅点までのすべての周波数を指す(例えばサンプルレート 44.1kHz で 95% の再サンプル帯域幅の場合、 通過帯域 は 0Hz (直流)から約 21kHz までの周波数を表す)。 再サンプラの帯域幅を増やすにつれ、変換は遅くなり, transient エコーによるアーティファクトも増え易くなる。 A resampler’s band-width setting determines how much of the frequency content of the original signal (w.r.t. the original sample rate when up-sampling, or the new sample rate when down-sampling) is preserved during conversion. The term ‘pass-band’ is used to refer to all frequencies up to the band-width point (e.g. for 44.1kHz sampling rate, and a resampling band-width of 95%, the pass-band represents frequencies from 0Hz (D.C.) to circa 21kHz). Increasing the resampler’s band-width results in a slower conversion and can increase transient echo artefacts (and vice versa).

-s ‘steep フィルタ’ オプションは、再サンプル帯域幅を既定の( 3dB 点に基づく) 95% から 99% に変更する。 -b オプションでは,帯域幅を 74 〜 99.7 % の範囲の任意の値に設定することができるが、 99% より大きな帯域幅の値は 極度の transient エコーを生じさせるので,通常用途には推奨されない。 The -s ‘steep filter’ option changes resampling band-width from the default 95% (based on the 3dB point), to 99%. The -b option allows the band-width to be set to any value in the range 74-99.7 %, but note that band-width values greater than 99% are not recommended for normal use as they can cause excessive transient echo.

-a オプションが与えられた場合、通過帯域より上の帯域へのエイリアシング/イメージングも許容される。 例えばサンプルレート 44.1kHz で再サンプル帯域幅 95% の場合、 21kHz より上の周波数内容は歪み得る。 しかしながら、これは通過帯域より上(すなわち 目的の/聴覚し得る 最大周波数より上)なので,問題にならない。 エイリアシング/イメージングにより、処理時間は短縮し, transient エコーによるアーティファクトも(おおよそ半分に)低減する。 このオプションが与えられた場合、 -b に許容される帯域幅の最小値は 85% に上がる。 If the -a option is given, then aliasing/imaging above the pass-band is allowed. For example, with 44.1kHz sampling rate, and a resampling band-width of 95%, this means that frequency content above 21kHz can be distorted; however, since this is above the pass-band (i.e. above the highest frequency of interest/audibility), this may not be a problem. The benefits of allowing aliasing/imaging are reduced processing time, and reduced (by almost half) transient echo artefacts. Note that if this option is given, then the minimum band-width allowable with -b increases to 85%.

例: Examples:

sox input.wav -b 16 output.wav rate -s -a 44100 dither -s

既定の(高)品質再サンプル。 上書き:44.1kHz サンプルレートへの steep フィルタ, エイリアシングの許容, 16 ビット WAV ファイルへのノイズシェーピングディザ。 default (high) quality resampling; overrides: steep filter, allow aliasing; to 44.1kHz sample rate; noise-shaped dither to 16-bit WAV file.

sox input.wav -b 24 output.aiff rate -v -I -b 90 48k

最高品質再サンプル。 上書き: 中程度の位相, 帯域幅 90%; サンプルレートを 48k に設定; 出力の 24 ビット AIFF ファイルへの保存。 very high quality resampling; overrides: intermediate phase, band-width 90%; to 48k sample rate; store output to 24-bit AIFF file.


pitch および speed エフェクトは rate エフェクトを内部で利用する。 The pitch and speed effects use the rate effect at their core.

remix [-a|-m|-p]<out-spec>
  • out-spec = in-spec{,in-spec} | 0
  • in-spec = [in-chan][-[in-chan2]][vol-spec]
  • vol-spec = p|i|v[volume]

選択された入力音声チャンネルを,出力音声チャンネルへ混合する。 各出力チャンネルは、 out-spec ,すなわち出力に寄与する入力チャンネルと音量指定のリストから指定されることになる。 Select and mix input audio channels into output audio channels. Each output channel is specified, in turn, by a given out-spec: a list of contributing input channels and volume specifications.

注記: このエフェクトは SoX エフェクト処理チェインの内部の音声 チャンネル に対して働く。 -m グローバルオプション(エフェクトチェインに入る前に複数の ファイル が混合されて結合される)と混同すべきではない。 Note that this effect operates on the audio channels within the SoX effects processing chain; it should not be confused with the -m global option (where multiple files are mix-combined before entering the effects chain).

out-spec (出力指定)には、入力チャンネル番号やハイフンで結んだチャンネル番号の範囲をコンマ区切りで与える。 あるいは 0 を与えた場合、出力チャンネルは静音になる。 例えば: An out-spec contains comma-separated input channel-numbers and hyphen-delimited channel-number ranges; alternatively, 0 may be given to create a silent output channel. For example,

sox input.wav output.wav remix 6 7 8 0

は、4つのチャンネルを持つ出力ファイル作成する。 出力のチャンネル 1, 2, 3 はそれぞれ入力ファイルのチャンネル 6, 7, 8 の複製, チャンネル 4 は静音になる。 一方: creates an output file with four channels, where channels 1, 2, and 3 are copies of channels 6, 7, and 8 in the input file, and channel 4 is silent. Whereas

sox input.wav output.wav remix 1-3,7 3

では、左チャンネルは入力チャンネル 1, 2, 3, 7 の混合, 右チャンネルは入力チャンネル 3 の複製になる,(いくぶん変則的な)ステレオ出力ファイルを作成する。 creates a (somewhat bizarre) stereo output file where the left channel is a mix-down of input channels 1, 2, 3, and 7, and the right channel is a copy of input channel 3.

チャンネルの範囲を指定する所では、ハイフンの左右のチャンネル番号を省略できる。 省略時の既定の番号は、左側が 1, 右側が入力チャンネル数になる: Where a range of channels is specified, the channel numbers to the left and right of the hyphen are optional and default to 1 and to the number of input channels respectively. Thus

sox input.wav output.wav remix -

すべての入力チャンネルを,モノラルに混合する。 performs a mix-down of all input channels to mono.

既定では、出力チャンネルが複数( n 個)の入力チャンネルから混合される場合,各入力チャンネルが ¹/n 倍される。 混合音量をカスタマイズしたい場合、入力チャンネルまたはその範囲指定の後に vol-spec (音量指定)を続ける。 これには先頭に文字 p, i, v いずれかを置いた音量の数値を与える。 この数値の意味は先頭の文字に依存し、次で定義される: By default, where an output channel is mixed from multiple (n) input channels, each input channel will be scaled by a factor of ¹/ n . Custom mixing volumes can be set by following a given input channel or range of input channels with a vol-spec (volume specification). This is one of the letters p, i, or v, followed by a volume number, the meaning of which depends on the given letter and is defined as follows:

文字 音量数 備考
p

dB 単位によるパワー調整 power adjust in dB

0 = 変化なし 0 = no change

i

dB 単位によるパワー調整 power adjust in dB

音声を反転させる事を除いて ‘p’ と同様。 As 'p', but invert the audio.

v

電圧係数 voltage multiplier

1 = 変化なし, 0.5 ≃ 6dB ゲイン, -1 = 反転 1 = no change, 0.5 ≃ 6dB gain, -1 = invert

out-spec のどれか1つでも vol-spec を含む場合、既定では ¹/n スケーリングは,同じ out-spec の他のチャンネルには適用されなくなる(他の out-spec にも含まれ得るがそれとは関係なく)。 しかしながら、この場合でも自動スケーリングを維持させる -a ( ‘automatic’ )オプションを与えられる。 例えば: If an out-spec includes at least one vol-spec then, by default, ¹/ n scaling is not applied to any other channels in the same out-spec (though may be in other out-specs). The -a (automatic) option however, can be given to retain the automatic scaling in this case. For example,

sox input.wav output.wav remix 1,2 3,4v0.8

により,チャンネルレベルはそれぞれ 0.5, 0.5 / 1, 0.8 倍になる一方、 results in channel level multipliers of 0.5,0.5 1,0.8, whereas

sox input.wav output.wav remix -a 1,2 3,4v0.8

では,チャンネルレベルがそれぞれ 0.5, 0.5 / 0.5, 0.8 倍になる。 results in channel level multipliers of 0.5,0.5 0.5,0.8.

-m (マニュアル)オプションは、すべての自動音量調整を無効にする。 したがって: The -m (manual) option disables all automatic volume adjustments, so

sox input.wav output.wav remix -m 1,2 3,4v0.8

では,チャンネルレベルはそれぞれ 1, 1 / 1, 0.8 倍になる。 results in channel level multipliers of 1,1 1,0.8.

音量の数値はオプションであり,省略された場合は音量は変化しなくなるが、 i を伴う場合に限り有用になる。 例えば input.wav がステレオのとき: The volume number is optional and omitting it corresponds to no volume change; however, the only case in which this is useful is in conjunction with i. For example, if input.wav is stereo, then

sox input.wav output.wav remix 1,2i

oops エフェクトと等価なモノラルになる。 is a mono equivalent of the oops effect.

-p オプションが与えられた場合、自動 ¹/n スケーリングは ¹/√n ( ‘パワー’ )スケーリングに置き換わる。 これは より音量の大きい混合になるが,時折クリップされ得る。 If the -p option is given, then any automatic ¹/ n scaling is replaced by ¹/ √n (‘power’) scaling; this gives a louder mix but one that might occasionally clip.


remix エフェクトには、音声ファイルを(個別の音声チャンネルに対する後続の処理を行うために)それぞれが一部の構成チャンネルを持つような,複数のファイルに分割する利用がある。 チャンネル数が多めの場合は 次のようなスクリプト( Bourne シェルスクリプト)が役立つ: One use of the remix effect is to split an audio file into a set of files, each containing one of the constituent channels (in order to perform subsequent processing on individual audio channels). Where more than a few channels are involved, a script such as the following (Bourne shell script) is useful:

#!/bin/sh
chans=`soxi -c "$1"`
while [ $chans -ge 1 ]; do
   chans0=`printf %02i $chans`   # 2 digits hence up to 99 chans
   out=`echo "$1"|sed "s/\(.*\)\.\(.*\)/\1-$chans0.\2/"`
   sox "$1" "$out" remix $chans
   chans=`expr $chans - 1`
done

6 個の音声チャンネルを持つファイル input.wav が与えられた場合、スクリプトは 6 個の出力ファイル input-01.wav, input-02.wav, ..., input-06.wav を生成する。 If a file input.wav containing six audio channels were given, the script would produce six output files: input-01.wav, input-02.wav, ..., input-06.wav.

swap エフェクトも見よ。 See also the swap effect.

repeat [count (1)|-]

音声全体を, count で与えられる回数だけ繰り返す。 count が与えられなかった場合は 1 回だけになる。 特別な値 ‘-’ を与えると、無限に繰り返す。 繰り返される音声を保存しておく一時ファイル領域が必要になる。 繰り返しが 1 回だけでも,元の音声の複製が生じる事に注意。 Repeat the entire audio count times, or once if count is not given. The special value - requests infinite repetition. Requires temporary file space to store the audio to be repeated. Note that repeating once yields two copies: the original audio and the repeated audio.

reverb [-w|--wet-only] [reverberance (50%) [HF-damping (50%)
[room-scale (100%) [stereo-depth (100%)
[pre-delay (0ms) [wet-gain (0dB)]]]]]]

‘freeverb’ アルゴリズムを用いて音声にリバーブをかける。 リバーブエフェクトは、狭過ぎる, あるいは多数の観客により自然な反響が低減されるような,コンサートホールで望まれる事がある。 ‘乾いた’ モノラル信号に対する少量のステレオリバーブは、通常,音をより自然なものにする。 リバーブの詳細については [3] を参照のこと。 Add reverberation to the audio using the ‘freeverb’ algorithm. A reverberation effect is sometimes desirable for concert halls that are too small or contain so many people that the hall’s natural reverberance is diminished. Applying a small amount of stereo reverb to a (dry) mono signal will usually make it sound more natural. See [3] for a detailed description of reverberation.

このエフェクトは音量と音長を増やすので、クリッピングを避けるため,次のように呼び出すのが普通である: Note that this effect increases both the volume and the length of the audio, so to prevent clipping in these domains, a typical invocation might be:

play dry.wav gain -3 pad 0 3 reverb

-w オプションは、 ‘湿った’ 信号のみを選別して, ‘乾いた’ 信号とは独立に 更なる処理を加えられるようにする。 例えばリバース リバーブ エフェクトの場合: The -w option can be given to select only the ‘wet’ signal, thus allowing it to be processed further, independently of the ‘dry’ signal. E.g.

play -m voice.wav "|sox voice.wav -p reverse reverb -w reverse"

for a reverse reverb effect.

reverse

音声を完全にリバース( ‘逆再生’ )させる。 リバースさせる音声を保存するための一時ファイル領域を要する。 Reverse the audio completely. Requires temporary file space to store the audio to be reversed.

riaa

RIAA レコード再生イコライザをかける。 サンプリングレートは次のいずれかでなければならない: 44.1, 48, 88.2, 96 kHz 。 Apply RIAA vinyl playback equalisation. The sampling rate must be one of: 44.1, 48, 88.2, 96 kHz.

このエフェクトは --plot グローバルオプションをサポートする。 This effect supports the --plot global option.

silence [-l] above-periods [duration threshold[d|%]
[below-periods duration threshold[d|%]]

音声の先頭, 途中, 末尾から静音区間をカットする。 ‘静音’ とされる部分は、指定されたしきい値から決定される。 【 この項の原文には解り難い記述があり、訳を補完しているが不十分または正確さに欠くかもしれない。 参考 Removes silence from the beginning, middle, or end of the audio. ‘Silence’ is determined by a specified threshold.

above-periods は、音声の先頭側の区間がカットされるべきである場合に利用される。 値ゼロは、先頭側の静音区間はカットされるべきでないことを指示する。 ゼロでない above-periods が指定された場合、音声は静音でなくなる所までカットされる。 通常,音声の先頭の静音区間をカットする場合には above-periods を 1 にするが、より大きな数を与えれば,特定の回数までの非静音区間までの静音区間をカットできる。 例えば2曲からなる音声ファイルがあって,それぞれの曲の前に(一定以上の長さの)静音区間がある場合、 above-period に 2 を指定すれば,最初の曲の前と曲間の静音区間の両方がカットされる。 The above-periods value is used to indicate if audio should be trimmed at the beginning of the audio. A value of zero indicates no silence should be trimmed from the beginning. When specifying a non-zero above-periods, it trims audio up until it finds non-silence. Normally, when trimming silence from beginning of audio the above-periods will be 1 but it can be increased to higher values to trim all audio up to a specific count of non-silence periods. For example, if you had an audio file with two songs that each contained 2 seconds of silence before the song, you could specify an above-period of 2 to strip out both silence periods and the first song.

above-periods がゼロでない場合、 duration (持続時間)と threshold (しきい値)も与えなければならない。 duration は、静音区間と見なされるための最短時間を指示する。 持続時間を増やす事により、連続する雑音部分を静音区間とみなしてカットできるようになる。 When above-periods is non-zero, you must also specify a duration and threshold. duration indications the amount of time that non-silence must be detected before it stops trimming audio. By increasing the duration, burst of noise can be treated as silence and trimmed off.

threshold は、静音と見なされるべきサンプル値の大きさを指示する。 デジタル音声であれば値は 0 でも十分になり得るが、アナログ録音の場合は背景ノイズを静音とみなせるように値を増やす必要がある。 threshold is used to indicate what sample value you should treat as silence. For digital audio, a value of 0 may be fine but for audio recorded from analog, you may wish to increase the value to account for background noise.

音声の末尾側の静音区間をカットしたい場合は below-periods による回数を指定する(オプション)。 この場合、below-period 回の静音が検知された後のすべての音声のカットを意味する 通常,これの値は 1 にするが、より大きな値を与えれば,必要な静音区間は残すことができる。 【 ‘通常’ : 値 1 は、1曲が終了した後の部分をすべてカットする用途が想定されているようだ(先頭にも検知基準を満たす静音区間がある場合は全部カットされてしまう)。値を増やせば残される曲数も増える。末尾側からの回数は指定できないので、その場合は reverse を利用する必要がある。】。 例えば2曲からなる音声があって,曲間と末尾に(一定以上の長さの)静音区間がある場合、 below-periods を値 2 に設定することにより,曲間の静音区間はスキップさせられる。 When optionally trimming silence from the end of the audio, you specify a below-periods count. In this case, below-period means to remove all audio after silence is detected. Normally, this will be a value 1 of but it can be increased to skip over periods of silence that are wanted. For example, if you have a song with 2 seconds of silence in the middle and 2 second at the end, you could set below-period to a value of 2 to skip over the silence in the middle of the audio.

below-periods に対しては、 duration (持続時間)は,それ以上音声が複製されないようにする前に存在しなければならない,静音区間の長さを指示する。 大きな持続時間を指定することにより、音声の中の望ましい静音区間は残しておけるようになる。 例えば2曲含まれる音声があって,曲間の静音区間が 1 秒, 末尾の静音区間が 2 秒であるなら、持続時間を 2 秒にすることにより,曲間の静音区間はスキップされるようになる。 For below-periods, duration specifies a period of silence that must exist before audio is not copied any more. By specifying a higher duration, silence that is wanted can be left in the audio. For example, if you have a song with an expected 1 second of silence in the middle and 2 seconds of silence at the end, a duration of 2 seconds could be used to skip over the middle silence.

残念ながら,静音区間を確実にカットするためには、音声ファイルの末尾側の静音区間をあらかじめ知っておく必要がある。 別法として silence エフェクトと reverse エフェクトを組み合わせる方法もある。 最初に音声をリバースしてから above-periods を用いれば、先頭の静音区間を確実にカットできる。 しかる後、もう一度リバースして通常に戻す。 Unfortunately, you must know the length of the silence at the end of your audio file to trim off silence reliably. A workaround is to use the silence effect in combination with the reverse effect. By first reversing the audio, you can use the above-periods to reliably trim all audio from what looks like the front of the file. Then reverse the file again to get back to normal.

ファイルの途中にある静音区間をカットするには、 below-periods に負値を指定する。 この値は、正の値として扱われた上で、音声の途中にある静音区間のカットに適するように, above-periods の指定に従ってエフェクトの処理がリスタートされるべきであることを指示する。 To remove silence from the middle of a file, specify a below-periods that is negative. This value is then treated as a positive value and is also used to indicate that the effect should restart processing as specified by the above-periods, making it suitable for removing periods of silence in the middle of the audio.

-l オプションは、各静音区間の先頭の below-periods duration で与えられる長さの部分は そのまま残しておくべきであることを指示する。 例えば、単語間の長いポーズはカットしたいけれど,語と語の間は残しておきたい場合など。 The option -l indicates that below-periods duration length of audio should be left intact at the beginning of each period of silence. For example, if you want to remove long pauses between words but do not want to remove the pauses completely.

duration には時間指定を与えるが、ここでは特に、数字のみのものは,秒数でなくサンプル数と解釈される 【おそらく過去との互換性をとるため】 。 秒数を指定するためには、接尾辞に t (例: 2t )付加するか,または 分秒で指定する(例: 0:02 )。 duration is a time specification with the peculiarity that a bare number is interpreted as a sample count, not as a number of seconds. For specifying seconds, either use the t suffix (as in ‘2t’) or specify minutes, too (as in ‘0:02’).

次に、このエフェクトを, ‘録音ボタンの押し下げ’ から演奏開始までに通常生じる遅延を含まないように 録音を開始させるために利用する例を示す: The following example shows how this effect can be used to start a recording that does not contain the delay at the start which usually occurs between ‘pressing the record button’ and the start of the performance:

rec parameters filename other-effects silence 1 5 2%
sinc [-a att|-b beta] [-p phase|-M|-I|-L] [-t tbw|-n taps]
[freqHP] [-freqLP [-t tbw|-n taps]]

sinc カイザー窓による,ローパス(低域通過), ハイパス(高域通過), バンドパス(帯域通過), バンドストップ(帯域阻止)の,いずれかのフィルタをかける。 パラメタ freqHPfreqLP は、それぞれ独立にあるいは同時に呼び出されるハイパス/ローパスフィルタの 6dB 地点の周波数を与える。 いずれも与えられた場合、 freqHP < freqLP であればバンドパスフィルタになり, freqHP > freqLP であればバンドストップフィルタになる。 例えば: Apply a sinc kaiser-windowed low-pass, high-pass, band-pass, or band-reject filter to the signal. The freqHP and freqLP parameters give the frequencies of the 6dB points of a high-pass and low-pass filter that may be invoked individually, or together. If both are given, then freqHP less than freqLP creates a band-pass filter, freqHP greater than freqLP creates a band-reject filter. For example, the invocations

sinc 3k
sinc -4k
sinc 3k-4k
sinc 4k-3k

は、順に,ハイパス, ローパス, バンドパス, バンドストップ フィルタになる。 create a high-pass, low-pass, band-pass, and band-reject filter respectively.

既定の帯域阻止減衰率 120dB は -a により上書きできる。 また、カイザー窓の ‘beta’ パラメタは -b で直接与える。 The default stop-band attenuation of 120dB can be overridden with -a; alternatively, the kaiser-window ‘beta’ parameter can be given directly with -b.

既定の遷移帯域幅(総帯域幅の 5% )は -t (パラメタ tbw は Hz 単位)で上書きできる。 フィルタタップの数は -n で直接与える。 The default transition band-width of 5% of the total band can be overridden with -t (and tbw in Hertz); alternatively, the number of filter taps can be given directly with -n.

freqHPfreqLP の両方が与えられた場合、これら周波数の左側に与えた -t-n オプションはいずれの周波数にも適用されるが,右側に与えた -t-nfreqLP に対してのみ適用される。 If both freqHP and freqLP are given, then a -t or -n option given to the left of the frequencies applies to both frequencies; one of these options given to the right of the frequencies applies only to freqLP.

-p, -M, -I, -L オプションは、フィルタの位相応答を制御する。 詳細は rate エフェクトを見よ。 The -p, -M, -I, and -L options control the filter’s phase response; see the rate effect for details.

このエフェクトは --plot グローバルオプションをサポートする。 This effect supports the --plot global option.

spectrogram [options]

音声のスペクトログラムを作成する。 音声は SoX の処理チェインを変更されずに通過する。 このエフェクトはオプションであり,組み込まれているかどうかは sox --help で示されるサポートされるエフェクトのリストから確認できる。 Create a spectrogram of the audio; the audio is passed unmodified through the SoX processing chain. This effect is optional - type sox --help and check the list of supported effects to see if it has been included.

スペクトログラムは PNG ( Portable Network Graphic )ファイルに出力される。 X 軸は時間, Y 軸は周波数, Z 軸は音声信号の大きさを表す。 Z 軸の値は X-Y 平面における画素の色(またはオプションで明度)で表現される。 音声信号に複数のチャンネルが含まれている場合、これらは上からチャンネル番号順に示される(ステレオ音声の場合は左チャンネルが先になる)。 The spectrogram is rendered in a Portable Network Graphic (PNG) file, and shows time in the X-axis, frequency in the Y-axis, and audio signal magnitude in the Z-axis. Z-axis values are represented by the colour (or optionally the intensity) of the pixels in the X-Y plane. If the audio signal contains multiple channels then these are shown from top to bottom starting from channel 1 (which is the left channel for stereo audio).

例えば my.wav がステレオファイルの場合: For example, if ‘my.wav’ is a stereo file, then with

sox my.wav -n spectrogram

により,ファイル全体のスペクトログラムがファイル名 spectrogram.png 【既定のファイル名】に作成される。 より狭い範囲の音声の解析が必要な場合、例えば: a spectrogram of the entire file will be created in the file ‘spectrogram.png’. More often though, analysis of a smaller portion of the audio is required; e.g. with

sox my.wav -n remix 2 trim 20 30 spectrogram

は、音声の2番目(右)のチャンネルのみ,開始から 20 秒の所から 30 秒間のスペクトログラムを示す。 狭い周波数帯域の解析には rate エフェクトも利用できる。 例えば: the spectrogram shows information only from the second (right) channel, and of thirty seconds of audio starting from twenty seconds in. To analyse a small portion of the frequency domain, the rate effect may be used, e.g.

sox my.wav -n rate 6k spectrogram

は、 3kHz (サンプリングレートの半分)までの周波数,すなわち人間の聴覚が最も敏感な部分を詳細に解析する。 次の allows detailed analysis of frequencies up to 3kHz (half the sampling rate) i.e. where the human auditory system is most sensitive. With

sox my.wav -n trim 0 10 spectrogram -x 600 -y 200 -z 100

では、与えられたオプションにより,スペクトログラムの X, Y, Z 軸の大きさが制御されている(この場合、生成されるスペクトログラム画像の大きさは 600 x 200 ピクセル, Z-軸の範囲は 100 dB までになる)。 生成画像には軸長などの凡例も含まれるので、画像は指定されたスペクトログラムのサイズより少し大きくなることに注意。 次の例: the given options control the size of the spectrogram’s X, Y & Z axes (in this case, the spectrogram area of the produced image will be 600 by 200 pixels in size and the Z-axis range will be 100 dB). Note that the produced image includes axes legends etc. and so will be a little larger than the specified spectrogram size. In this example:

sox -n -n synth 6 tri 10k:14k spectrogram -z 100 -w kaiser

では、スイープされる三角波のスペクトログラム表示に最適になるよう,ダイナミックレンジの広い解析 ‘窓’ が選択されている。 似た例として、前に delay エフェクトの説明で例示した ‘チャイム’ を発するコマンドに次を付け加えてみる: an analysis ‘window’ with high dynamic range is selected to best display the spectrogram of a swept triangular wave. For a smilar example, append the following to the ‘chime’ command in the description of the delay effect (above):

rate 2k spectrogram -X 200 -Z -10 -w kaiser

見かけ(色セット, 明るさ, コントラスト, 等々)およびスペクトログラムのファイル名を制御するオプションも利用できる。 例えば: Options are also available to control the appearance (colour-set, brightness, contrast, etc.) and filename of the spectrogram; e.g. with

sox my.wav -n spectrogram -m -l -o print.png

では、 ‘モノクロ’ プリンタに適するスペクトログラムが作成される。 a spectrogram is created suitable for printing on a ‘black and white’ printer.

オプション Options:

-x num

スペクトログラムの( X 軸方向の最大の)幅を,既定の 800 ピクセルから 100 〜 200000 の範囲の与えられた値に変更する。 -X および -d も見よ。 Change the (maximum) width (X-axis) of the spectrogram from its default value of 800 pixels to a given number between 100 and 200000. See also -X and -d.

-X num

X 軸上で1秒間が占めるピクセル数。 既定では、与えられた/検知された音声の時間長が X 軸の長さに合うように自動的に算出されるか,他の場合は 100 になる。 (下の詳細オプションの) -d と伴に与えられた場合、このオプションはスペクトログラムの画像幅に影響する。 他の場合、スペクトログラムの時間長に影響する。 num は 1 (低い時間分解能)〜 5000 (高い時間分解能)の範囲の値をとれ、整数でなくともよい。 与えられた数には処理過程における量子化の理由から若干の調整が加えられ得る。 その場合、実際に用いられた数が報告される(エフェクトに SoX グローバルオプション -V があれば見れる)。 -x および -d も見よ。 X-axis pixels/second; the default is auto-calculated to fit the given or known audio duration to the X-axis size, or 100 otherwise. If given in conjunction with -d, this option affects the width of the spectrogram; otherwise, it affects the duration of the spectrogram. num can be from 1 (low time resolution) to 5000 (high time resolution) and need not be an integer. SoX may make a slight adjustment to the given number for processing quantisation reasons; if so, SoX will report the actual number used (viewable when the SoX global option -V is in effect). See also -x and -d.

-y num

(チャンネルごとの)Y 軸の長さをピクセル数で設定する。 これはスペクトログラムを生成するフーリエ解析に用いられる周波数 ‘ビン’ 数である。 注記: この数が 2のべき乗+1(例えば 129 )でない場合、スペクトログラムの生成は遅くなるかもしれない。 既定では Y 軸の長さは(チャンネル数に依存して)自動的に算出される。 スペクトログラムの高さを設定する別の方法については -Y を見よ。 Sets the Y-axis size in pixels (per channel); this is the number of frequency ‘bins’ used in the Fourier analysis that produces the spectrogram. N.B. it can be slow to produce the spectrogram if this number is not one more than a power of two (e.g. 129). By default the Y-axis size is chosen automatically (depending on the number of channels). See -Y for alternative way of setting spectrogram height.

-Y num

スペクトログラムの高さの総計を設定する。 既定値は 550 ピクセル。 このオプションの利用(既定)により、個々のスペクトログラムチャンネルの高さは,高さの総和が与えられた数以内に収まるような最大の,2のべき乗+1に設定される。 しかしながら,チャンネルあたりの最小高の制約があるので、チャンネル数が多い場合はこの数を超えることもある。 スペクトログラムの高さを設定する別のやり方については -y を見よ。 Sets the target total height of the spectrogram(s). The default value is 550 pixels. Using this option (and by default), SoX will choose a height for individual spectrogram channels that is one more than a power of two, so the actual total height may fall short of the given number. However, there is also a minimum height per channel so if there are many channels, the number may be exceeded. See -y for alternative way of setting spectrogram height.

-z num

dB 単位の Z 軸(色)の範囲。既定値は 120 。 これはスペクトログラムのダイナミックレンジを[ −num(dBFS) 〜 0 ]の範囲に設定する。 num の範囲は 20 〜 180 。 ダイナミックレンジを狭める程、スペクトログラムの表示 ‘コントラスト’ は高くなる。 Z-axis (colour) range in dB, default 120. This sets the dynamic-range of the spectrogram to be -num dBFS to 0 dBFS. Num may range from 20 to 180. Decreasing dynamic-range effectively increases the ‘contrast’ of the spectrogram display, and vice versa.

-Z num

dBFS 単位で Z 軸の上限を設定する。 負の num により、スペクトログラムの表示はより ‘明るく’ なる。 Sets the upper limit of the Z-axis in dBFS. A negative num effectively increases the ‘brightness’ of the spectrogram display, and vice versa.

-q num

Z 軸の分解能を設定する。 すなわち、 Z 軸の値の描画に利用する色(または明度)の数。 小さな数(例えば 4 )を与えると ‘ポスター’ のような効果になり、レベルの近い帯域が見分け易くなる。 数を小さくする程、 PNG ファイルサイズも通常は小さくなる。 与えられた数は Z 軸の値域に利用する色数を与えるが、うち2色は範囲外の値を表現するために予約される。 Sets the Z-axis quantisation, i.e. the number of different colours (or intensities) in which to render Z-axis values. A small number (e.g. 4) will give a ‘poster’-like effect making it easier to discern magnitude bands of similar level. Small numbers also usually result in small PNG files. The number given specifies the number of colours to use inside the Z-axis range; two colours are reserved to represent out-of-range values.

-w name

窓関数: Hann (ハン窓 — 既定), Hamming (ハミング窓), Bartlett (バートレット窓), Rectangular (矩形窓), Kaiser (カイザー窓) Dolph (ドルフ窓) のいずれか。 スペクトログラムは離散フーリエ変換( DFT )アルゴリズムにより生成されるが、アルゴリズムの重要なパラメタは ‘窓関数’ の選択である。 既定では全般的に良好な周波数分解能とダイナミックレンジを持つハン窓が利用される。 より高い周波数分解能が必要なら(ダイナミックレンジは狭くなるが)ハミング窓, より大きいダイナミックレンジが必要なら(周波数分解能は落ちるが)ドルフ窓を選ぶと良い。 カイザー窓/バートレット窓/矩形窓 も利用できる。 Window: Hann (default), Hamming, Bartlett, Rectangular, Kaiser or Dolph. The spectrogram is produced using the Discrete Fourier Transform (DFT) algorithm. A significant parameter to this algorithm is the choice of ‘window function’. By default, SoX uses the Hann window which has good all-round frequency-resolution and dynamic-range properties. For better frequency resolution (but lower dynamic-range), select a Hamming window; for higher dynamic-range (but poorer frequency-resolution), select a Dolph window. Kaiser, Bartlett and Rectangular windows are also available.

-W num

窓関数調整パラメタ。 これはカイザー窓/ドルフ窓の形状を微調整するのに利用できる。 正数( 10 まで)を与えるとダイナミックレンジが広がり, 負数を与えると狭まる。 Window adjustment parameter. This can be used to make small adjustments to the Kaiser or Dolph window shape. A positive number (up to ten) increases its dynamic range, a negative number decreases it.

-s

DFT 窓の緩い重ね合わせを可能にする。 これにより画像が鮮明になり, -x 値に対するより大きな adherence が与えられるが、スペクトルの小さなロスとの引き換えになる。 Allow slack overlapping of DFT windows. This can, in some cases, increase image sharpness and give greater adherence to the -x value, but at the expense of a little spectral loss.

-m

モノクロのスペクトログラムを生成する(既定はカラー)。 Creates a monochrome spectrogram (the default is colour).

-h

ハイカラーのパレットを選択する。 既定の色パレットより視認性は落ちるが、レベルの差異は判別し易くなる。 このオプションが -m と伴用された場合、色パレットはモノクロ/カラーのハイブリッドになる。 Selects a high-colour palette - less visually pleasing than the default colour palette, but it may make it easier to differentiate different levels. If this option is used in conjunction with -m, the result will be a hybrid monochrome/colour palette.

-p num

カラー/ハイブリッド色パレットの色を置換する。 パラメタ num は 1 (既定)〜 6 の範囲の値をとり、置換を選択する。 Permute the colours in a colour or hybrid palette. The num parameter, from 1 (the default) to 6, selects the permutation.

-l

‘プリンタに適する’ 明るい背景色のスペクトログラムを作成する(既定は暗い背景色)。 Creates a ‘printer friendly’ spectrogram with a light background (the default has a dark background).

-a

座標軸の表示を省略する。 これはスペクトログラムの周辺部におけるアーティファクトの判別に有用になることがある。 Suppress the display of the axis lines. This is sometimes useful in helping to discern artefacts at the spectrogram edges.

-r

生のスペクトログラム:座標軸と凡例の表示を省略する。 Raw spectrogram: suppress the display of axes and legends.

-A

別の固定的な色セットを選択する。 これは他のパッケージから生成されるスペクトログラムとの互換性のためのみに用意されている機能である。 これには問題があり、通常は利用すべきでない。 特に,下部の差異化に欠くので、低レベルのアーティファクトがマスクされてしまう。 Selects an alternative, fixed colour-set. This is provided only for compatibility with spectrograms produced by another package. It should not normally be used as it has some problems, not least, a lack of differentiation at the bottom end which results in masking of low-level artefacts.

-t text

画像タイトル(スペクトログラムの上部に表示するテキスト)を設定する。 Set the image title - text to display above the spectrogram.

-c text

画像のコメント(スペクトログラムの下部および左側に表示するテキスト)を設定または削除する。 Set (or clear) the image comment - text to display below and to the left of the spectrogram.

-o file

スペクトログラムの出力 PNG ファイルの名前。 既定は ‘spectrogram.png’。 ファイル名を ‘-’ にすると,標準出力( stdout )に出力される。 Name of the spectrogram output PNG file, default ‘spectrogram.png’. If ‘-’ is given, the spectrogram will be sent to standard output (stdout).

詳細オプション: Advanced Options:

他のエフェクトや出力信号に影響させずに,音声の小さな区間に対し処理を行うために( trim エフェクトが用いられる場合と異なり)、以下のオプションを利用できる。 In order to process a smaller section of audio without affecting other effects or the output signal (unlike when the trim effect is used), the following options may be used.

-d duration

このオプションは、音声の与えられた duration時間指定)が,選択された(または既定の) X 軸幅にちょうど収まるように X 軸分解能を設定する。 例えば: This option sets the X-axis resolution such that audio with the given duration (a time specification) fits the selected (or default) X-axis width. For example,

sox input.mp3 output.wav -n spectrogram -d 1:00 stats

では,音声の最初の1分間のスペクトログラムを作成する一方、 stats エフェクトは音声信号全体に適用される。 creates a spectrogram showing the first minute of the audio, whilst the stats effect is applied to the entire audio signal.

X 軸分解能を設定する別のやり方については -X を見よ。 See also -X for an alternative way of setting the X-axis resolution.

-S position(=)

スペクトログラム解析を音声ストリームの与えられた地点から開始させる。 例えば: Start the spectrogram at the given point in the audio stream. For example

sox input.aiff output.wav spectrogram -S 1:00

は、音声の最初の1分を除いた残り全部のスペクトログラムを作成する(一方で出力ファイルは音声ストリーム全体を受け取る)。 creates a spectrogram showing all but the first minute of the audio (the output file, however, receives the entire audio stream).

スペクトルデータのオフライン処理機能については stat エフェクトを見よ。 For the ability to perform off-line processing of spectral data, see the stat effect.

speed factor[c]

音声の速度を(ピッチとテンポ同時に)調整する。 factor には、元の速度に対する新しい速度の比率を与えるか( 1 より大きくするほど速くなり, 1 より小さくするほど遅くなる),あるいは文字 ‘c’ を付加してピッチ(およびテンポ)が調整されるべきセント数(すなわち半音の 1/100 単位)を与える(正数は速くなり, 負数は遅くなる)。 Adjust the audio speed (pitch and tempo together). factor is either the ratio of the new speed to the old speed: greater than 1 speeds up, less than 1 slows down, or, if appended with the letter ‘c’, the number of cents (i.e. 100ths of a semitone) by which the pitch (and tempo) should be adjusted: greater than 0 increases, less than 0 decreases.

技術的には,speed エフェクトは、サンプル自体には手を加えず,サンプルレート情報のみを変更する。 出力サンプルレートに再サンプルする際には, rate エフェクトがその既定の品質/速度を用いて,自動的に呼び出される。 より高品質または高速な再サンプルを行うためには、speed エフェクトに加えて,望ましい品質オプションを伴う rate エフェクトを指定する。 Technically, the speed effect only changes the sample rate information, leaving the samples themselves untouched. The rate effect is invoked automatically to resample to the output sample rate, using its default quality/speed. For higher quality or higher speed resampling, in addition to the speed effect, specify the rate effect with the desired quality option. By default, the speed change is performed by resampling with the rate effect using its default quality/speed. For higher quality or higher speed resampling, in addition to the speed effect, specify the rate effect with the desired quality option.

bend, pitch, tempo エフェクトも見よ。 See also the bend, pitch, and tempo effects.

splice [-h|-t|-q] { position(=)[,excess[,leeway]] }

音声区間を継ぎ合わせる。 このエフェクトは単純な音声の連結に加えて2つの機能を提供する: (通常は短い)クロスフェードが接合点に適用され、接合を行うにあたって最適な地点の決定を補助するために,波形の類似性比較も行われる。 Splice together audio sections. This effect provides two things over simple audio concatenation: a (usually short) cross-fade is applied at the join, and a wave similarity comparison is made to help determine the best place at which to make the join.

オプションの -h, -t, -q のうちいずれか1つをフェードエンベロープに指定できる。 それぞれ 1/2 余弦波, (既定の)三角波(線形), 1/4 余弦波を表す。 One of the options -h, -t, or -q may be given to select the fade envelope as half-cosine wave (the default), triangular (a.k.a. linear), or quarter-cosine wave respectively.

種類 音声 フェードレベル 遷移
-t 相関あり 定ゲイン 不連続
-h 相関あり 定ゲイン 滑らか
-q 相関なし 定パワー 滑らか
Type Audio Fade level Transitions
t correlated constant gain abrupt
h correlated constant gain smooth
q uncorrelated constant power smooth

接合にあたって、最初に連結させる音声の区間を選定するために, trim エフェクトを利用する。 テープの接合を行うように、接合される側の区間の末尾は,理想的な接合点から微小な excess (既定は 0.005 秒)だけトリムされるべきである。 接合する側の音声区間の先頭は(理想的な接合点の前から)同じ excess 分と追加の leeway (既定値は 0.005 秒)だけトリムされるべきである。 これらのパラメタには,どの時間指定も利用できる。 しかる後、2つの音声区間を入力ファイルに,接合地点(最初の音声区間の excess 込みの長さ)を与える splice エフェクトを与えて SoX が呼び出されるべきである。 To perform a splice, first use the trim effect to select the audio sections to be joined together. As when performing a tape splice, the end of the section to be spliced onto should be trimmed with a small excess (default 0.005 seconds) of audio after the ideal joining point. The beginning of the audio section to splice on should be trimmed with the same excess (before the ideal joining point), plus an additional leeway (default 0.005 seconds). Any time specification may be used for these parameters. SoX should then be invoked with the two audio sections as input files and the splice effect given with the position at which to perform the splice - this is length of the first audio section (including the excess).

テープに模した接合処理を次の図式に示す。 エフェクトは斜めの切断とその接合をシミュレートする: The following diagram uses the tape analogy to illustrate the splice operation. The effect simulates the diagonal cuts and joins the two pieces:

      length1   excess
    -----------><--->
    _________   :   :  _________________
             \  :   : :\     ‘
              \ :   : : \     ‘
               \:   : :  \     ‘
                *   : :   * - - *
                 \  : :   :\     ‘
                  \ : :   : \     ‘
    _______________\: :   :  \_____‘____
                      :   :   :     :
                      <--->   <----->
                      excess  leeway

ここで * は接合点を表す。 where * indicates the joining points.

例えば、(例えば trim (start) エフェクトを伴う play コマンドから決定される)時刻 0:30.125 と 1:03.432 の所から開始される2つの歌詞を含む長い歌があるとする。 【?】 次のコマンドにより最初の歌詞が切り出される: For example, a long song begins with two verses which start (as determined e.g. by using the play command with the trim (start) effect) at times 0:30.125 and 1:03.432. The following commands cut out the first verse:

sox too-long.wav part1.wav trim 0 30.130

(最初の詩が開始されてから 5 ms excess ) (5 ms excess, after the first verse starts)

sox too-long.wav part2.wav trim 1:03.422

(次の詩が始まる前の 5 ms excess + 5 ms の余裕) (5 ms excess plus 5 ms leeway, before the second verse starts)

sox part1.wav part2.wav just-right.wav splice 30.130

別の例。 SoX コマンド: For another example, the SoX command

play "|sox -n -p synth 1 sin %1" "|sox -n -p synth 1 sin %3"

は,2つのノートを生成して再生するが、遷移の所で不快なクリック音が生じる。 このクリック音は、音声を連結する代わりに接合することにより,取り除ける — すなわち、コマンドに splice 1 を追加する。 (音声の先頭と末尾のクリック音は、接合エフェクト( fade q .01 2 .01 )を 前置する ことにより,取り除ける)。 generates and plays two notes, but there is a nasty click at the transition; the click can be removed by splicing instead of concatenating the audio, i.e. by appending splice 1 to the command. (Clicks at the beginning and end of the audio can be removed by preceding the splice effect with fade q .01 2 .01).

きちんと計算しておけば、1度の splice の呼び出しで複数の接合を実行することもできる。 例えば: Provided your arithmetic is good enough, multiple splices can be performed with a single splice invocation. For example:

#!/bin/sh
# Audio Copy and Paste Over
# acpo infile copy-start copy-stop paste-over-start outfile
# No chained time specifications allowed for the parameters
# (i.e. such that contain +/-).
e=0.005                      # Using default excess
l=$e                         # and leeway.
sox "$1" piece.wav trim $2-$e-$l =$3+$e
sox "$1" part1.wav trim 0 $4+$e
sox "$1" part2.wav trim $4+$3-$2-$e-$l
sox part1.wav piece.wav part2.wav "$5" \
   splice $4+$e +$3-$2+$e+$l+$e

上の Bourne シェルスクリプトでは、2度の splice が音声の ‘コピー&ペースト’ に用いられている。 In the above Bourne shell script, two splices are used to ‘copy and paste’ audio.


このエフェクトを,例えば2つの楽曲を連結する際など,汎用のクロスフェードに利用することもできる。 この場合,典型的には、 excess には秒単位による数を与え, ( ‘均等パワー’ クロスフェードを選択するための) -q オプションも与え, leeway はゼロ( -q が与えられた場合の既定値)にすべきである。 例えば f1.wavf2.wav をクロスフェードさせたい音声ファイルとするとき It is also possible to use this effect to perform general cross-fades, e.g. to join two songs. In this case, excess would typically be an number of seconds, the -q option would typically be given (to select an ‘equal power’ cross-fade), and leeway should be zero (which is the default if -q is given). For example, if f1.wav and f2.wav are audio files to be cross-faded, then

sox f1.wav f2.wav out.wav splice -q $(soxi -D f1.wav),3

により、 f1.wav の末尾から 3 秒前の地点で音量が等しくなるようにクロスフェードさせられる。 すなわち、クロスフェードの全長は 2 × 3 = 6 秒になる(注記: $(...) 記法は POSIX シェル)。 cross-fades the files where the point of equal loudness is 3 seconds before the end of f1.wav, i.e. the total length of the cross-fade is 2 × 3 = 6 seconds (Note: the $(...) notation is POSIX shell).

stat [-s scale] [-rms] [-freq] [-v] [-d]

音声の時間領域と周波数領域の統計情報を表示する。 SoX 処理チェインの中では、音声は変更を加えられずに通過する。 Display time and frequency domain statistical information about the audio. Audio is passed unmodified through the SoX processing chain.

情報は ‘標準エラー’ ( stderr )ストリームに出力される。 情報の各項目についての説明を下の表にまとめる。 表の中の n はサンプル数単位による音声の長さ, c はチャンネル数, r はサンプルレート, xk は連続する各サンプルの(既定では -1 〜 +1 の範囲の) PCM 値を表す: The information is output to the ‘standard error’ (stderr) stream and is calculated, where n is the duration of the audio in samples, c is the number of audio channels, r is the audio sample rate, and x k represents the PCM value (in the range -1 to +1 by default) of each successive sample in the audio, as follows:

項目 計算式 説明
Samples read n×c

(読み取られたサンプル数)

Length (seconds) n÷r

(長さ(秒))

Scaled by

下の -s を見よ。 See -s below.

Maximum amplituide max(xk)

音声内のサンプルの最高値。 通常は正の値になる。 The maximum sample value in the audio; usually this will be a positive number.

Minimum amplituide min(xk)

音声内のサンプルの最低値。 通常は負の値になる。 The minimum sample value in the audio; usually this will be a negative number.

Midline amplituide 1/2 min(xk) + 1/2 max(xk)
Mean norm 1/nΣxk

(平均ノルム)音声内の各サンプルの絶対値の平均 The average of the absolute value of each sample in the audio.

Mean amplituide 1/n Σxk

音声の各サンプルの平均。 非ゼロを示す場合、 DC オフセットの存在を意味する(これは dcshift エフェクトを用いて除去できる)。 The average of each sample in the audio. If this figure is non-zero, then it indicates the presence of a D.C. offset (which could be removed using the dcshift effect.

RMS amplituide √(1/n Σxk2)

音声の平均パワーと同じパワーの D.C. 信号レベル。 The level of D.C. signal that would have the same power as the audio's average power.

Maximum delta max( | xk - xk - l | )

(最大変位)

Minimum delta min( | xk - xk - l | )

(最小変位)

Mean delta 1/(n-1) Σ|xk - xk - l|

(平均変位)

RMS delta √(1/(n-1) Σ(xk - xk - l)2)

( RMS 変位)

Rough frequency

Hz 単位。 In Hz.

Volume Adjustment

(音量調整値) vol エフェクトに与えることができる、クリッピングを避けつつ,可能な限り音量を大きくするようなパラメタ。 注記:ほとんどの場合,実際にはこれを行うべきでないことの理由については、上述の クリッピング の説明を見よ。 The parameter to the vol effect which would make the audio as loud as possible without clipping. Note: See the discussion on Clipping above for reasons why it is rarely a good idea actually to do this.

変位の測定は、複チャンネル音声には適用されないことに注意。 Note that the delta measurements are not applicable for multi-channel audio.

-s オプションは、入力データを与えられた係数でスケールする。 scale の既定値は 2147483647 ( 32 ビット 符号つき整数の最大値)。 内部エフェクトは常に符号付き long PCM データ上で働くので、値はこれに関連しているべきである。 The -s option can be used to scale the input data by a given factor. The default value of scale is 2147483647 (i.e. the maximum value of a 32-bit signed integer). Internal effects always work with signed long PCM data and so the value should relate to this fact.

-rms オプションは、すべての平均値出力を ‘二乗平均平方根’ ( root mean square — 'RMS' )形式に変換する。 The -rms option will convert all output average values to ‘root mean square’ format.

-v オプションは、 ‘音量調整’ 値のみを表示する。 The -v option displays only the ‘Volume Adjustment’ value.

-freq オプションは、上に挙げた統計の代わりに,入力のパワースペクトラム( 4096 point DFT )を算出する。 これは単チャンネル音声ファイルに対してのみ利用すべきである。 The -freq option calculates the input’s power spectrum (4096 point DFT) instead of the statistics listed above. This should only be used with a single channel audio file.

-d オプションは、 SoX の内部バッファの 32 ビット符号付き PCM データ音声の 16 進数ダンプを表示する。 これは主に、クロスプラットフォーム版の SoX に生じ得るエンディアンの問題を調べるために利用される。 The -d option displays a hex dump of the 32-bit signed PCM data audio in SoX’s internal buffer. This is mainly used to help track down endian problems that sometimes occur in cross-platform versions of SoX.

stats エフェクトも見よ。 See also the stats effect.

stats [-b bits|-x bits|-s scale] [-w window-time]

音声の時間領域と周波数領域の統計情報を表示する。 SoX 処理チェインの中では、音声は変更を加えられずに通過する。 統計の計算と表示は,各音声チャンネルに対し行われ、適用可能であれば総合値も与えられる。 Display time domain statistical information about the audio channels; audio is passed unmodified through the SoX processing chain. Statistics are calculated and displayed for each audio channel and, where applicable, an overall figure is also given.

例えば、適切なマスタリングが施された典型的なステレオ楽曲ファイルの場合: For example, for a typical well-mastered stereo music file:

Overall Left Right
総合
DC offset 0.000803 -0.000391 0.000803 DC オフセット
Min level -0.750977 -0.750977 -0.653412 最小レベル
Max level 0.708801 0.708801 0.653534 最大レベル
Pk lev dB -2.49 -2.49 -3.69 ピークレベル( dB )
RMS lev dB -19.41 -19.13 -19.71 RMS レベル( dB )
RMS Pk dB -13.82 -13.82 -14.38 RMS ピークレベル( dB )
RMS Tr dB -82.25 -82.25 -82.66 RMS 谷間レベル( dB )
Crest Factor - 6.79 6.32
Flat factor 0.00 0.00 0.00
Pk count 2 2 2 ピーク回数
Bit-depth 16/16 16/16 16/16 ビット深度
Num samples 7.72M サンプル数
Length s 174.793 長さ(秒)
Scale max 1.000000 最大スケール
Window s 0.050 窓幅(秒)

既定では、 DC offsetMin levelMax level は ±1 の範囲で表示される。 -b (ビット数)オプションが与えられた場合、これらの計測値は与えられたビット数による符号付き整数にスケーリングされる。 例えば 16 ビットの場合のスケールは, -32768 〜 +32767 の範囲になる。 -x オプションは、符号付きの値が 16進数で表示されることを除いて, -b と同様にふるまう。 -s オプションは、3つの計測値を与えられた浮動小数点数でスケーリングする。 DC offset, Min level, and Max level are shown, by default, in the range ±1. If the -b (bits) options is given, then these three measurements will be scaled to a signed integer with the given number of bits; for example, for 16 bits, the scale would be -32768 to +32767. The -x option behaves the same way as -b except that the signed integer values are displayed in hexadecimal. The -s option scales the three measurements by a given floating-point number.

Pk lev dBRMS lev dB は、 dBFS 単位による,標準ピークレベル / RMS レベル を表す。 RMS Pk dBRMS Tr dB は、狭い窓(既定は 50ms )における RMS レベルによる,ピーク値/谷間値 を表す。 Pk lev dB and RMS lev dB are standard peak and RMS level measured in dBFS. RMS Pk dB and RMS Tr dB are peak and trough values for RMS level measured over a short window (default 50ms).

Crest factor は RMS レベルに対するピークレベルの標準比率を表す( dB 単位ではないことに注意)。 Crest factor is the standard ratio of peak to RMS level (note: not in dB).

Flat factor は、信号のピーク時(すなわち Min level または Max level )における平坦度(すなわち同じ値が連続するサンプル数)の計測値を表す。 Pk count は、信号が Min level または Max level に達した回数を表す(サンプル数ではない)。 Flat factor is a measure of the flatness (i.e. consecutive samples with the same value) of the signal at its peak levels (i.e. either Min level, or Max level). Pk count is the number of occasions (not the number of samples) that the signal attained either Min level, or Max level.

Bit-depth 右側の数字は、標準定義によるビット深度を表す — すなわち,与えられた数より下位桁のビットはゼロに固定される。 左側の数字は、ゼロに固定された上位桁のビット数(または負数に対しては 1 )を右側の数字から引いたものになる(引かれた数は Pk lev dB に直接関連する)。 The right-hand Bit-depth figure is the standard definition of bit-depth i.e. bits less significant than the given number are fixed at zero. The left-hand figure is the number of most significant bits that are fixed at zero (or one for negative numbers) subtracted from the right-hand figure (the number subtracted is directly related to Pk lev dB).

複チャンネル音声に対しては、上の計測値のそれぞれに対する総合値( “Overall” )は,次のようにチャンネル値から導出される: For multi-channel audio, an overall figure for each of the above measurements is given and derived from the channel figures as follows: DC offset: maximum magnitude; Max level, Pk lev dB, RMS Pk dB, Bit-depth: maximum; Min level, RMS Tr dB: minimum; RMS lev dB, Flat factor, Pk count: average; Crest factor: not applicable.

  • DC offset: 最大
  • Max levelPk lev dBRMS Pk dBBit-depth: 最大
  • Min levelRMS Tr dB: 最小
  • RMS lev dBFlat factorPk count: 平均
  • Crest factor: 適用不可

Length s は 音声の長さ(秒)であり、 Num samplesLength にサンプルレートを掛けたものに等しい。 Scale Max は、最初の3つの計測値にスケーリングを適用したものである。 特に,それは Max level に適用し得る最大値である。 Window s は、ピークおよび谷間の RMS の計測に利用される窓幅(秒)である。 Length s is the duration in seconds of the audio, and Num samples is equal to the sample-rate multiplied by Length. Scale Max is the scaling applied to the first three measurements; specifically, it is the maximum value that could apply to Max level. Window s is the length of the window used for the peak and trough RMS measurements.

stat エフェクトも見よ。 See also the stat effect.

swap

ステレオ音声チャンネルの左右を入れ替える。 入力がステレオでない場合でも、チャンネルの各ペアが入れ替えられ、チャンネル数が奇数の場合の最後のチャンネルは,そのままにされる。 例えば、チャンネル数が 7 なら,出力の順序は 2, 1, 4, 3, 6, 5, 7 になる。 Swap stereo channels. If the input is not stereo, pairs of channels are swapped, and a possible odd last channel passed through. E.g., for seven channels, the output order will be 2, 1, 4, 3, 6, 5, 7.

任意のチャンネルの選択と順序付け(および混合)については、 remix エフェクトを見よ。 See also remix for an effect that allows arbitrary channel selection and ordering (and mixing).

stretch factor [window fade shift fading]

音声の長さを(ピッチを維持したまま)変える。 このエフェクトは概ね,( factor の反転と) search をゼロに設定した tempo エフェクトと等価になる。 したがって一般的には,結果は比較的劣るものになるが、小さな factor では tempo より優れる場合もあるので残されている。 Change the audio duration (but not its pitch). This effect is broadly equivalent to the tempo effect with (factor inverted and) search set to zero, so in general, its results are comparatively poor; it is retained as it can sometimes out-perform tempo for small factors.

factor は,引き延ばしの比率で、 1 より大きければ音声をより長くし, 1 より小さければ音声をより短くする。 window サイズは ms (ミリ秒)単位であり,その既定値は 20ms 。 fade オプションには ‘lin【 linear ?】 も与えられる。 shift は比率で [0 ... 1] の範囲。 既定値は factor に依存し、より短くされる場合は 1, より長くされる場合は 0.8 になる。 fading は比率で [0 ... 0.5] の範囲。 フェードの既定量は factorshift に依存する。 factor of stretching: >1 lengthen, <1 shorten duration. window size is in ms. Default is 20ms. The fade option, can be ‘lin’. shift ratio, in [0 1]. Default depends on stretch factor. 1 to shorten, 0.8 to lengthen. The fading ratio, in [0 0.5]. The amount of a fade’s default depends on factor and shift.

tempo エフェクトも見よ。 See also the tempo effect.

synth [-j KEY] [-n] [len [off [ph [p1 [p2 [p3]]]]]]
{[type] [combine] [[%]freq[k][:|+|/|-[%]freq2[k]]]
[off [ph [p1 [p2 [p3]]]]]}

このエフェクトは、一定の周波数, またはスイープされる周波数による,種々の波形の音声トーンや種々の ‘色’ の広帯域ノイズを生成する。 複数の synth エフェクトを連ねれば、より複雑な波形も生成できる。 各段において、前の段の出力に対し,生成波形を混合するか, 生成波形による変調を施すかを選択できる。 複チャンネル音声ファイル内の各チャンネルの音声は、独立に合成できる。 This effect can be used to generate fixed or swept frequency audio tones with various wave shapes, or to generate wide-band noise of various ‘colours’. Multiple synth effects can be cascaded to produce more complex waveforms; at each stage it is possible to choose whether the generated waveform will be mixed with, or modulated onto the output from the previous stage. Audio for each channel in a multi-channel audio file can be synthesised independently.

このエフェクトは 音声を生成するものであるが、それでも 入力ファイルは与えられなければならず,その属性は 合成される音声の 長さ, チャンネル数, サンプルレート に用いられる。 しかしながら,入力ファイルの音声は 通常必要とされないので、(特殊ファイル名 -n を伴う) ‘null ファイル’ (および synth のパラメタとして指定される長さ, あるいは長さを持つ他のエフェクト)でしばしば代用される。 Though this effect is used to generate audio, an input file must still be given, the characteristics of which will be used to set the synthesised audio length, the number of channels, and the sampling rate; however, since the input file’s audio is not normally needed, a ‘null file’ (with the special name -n) is often given instead (and the length specified as a parameter to synth or by another given effect that has an associated length).

[ 300 Hz 〜 3300 Hz ]にかけてスイープされる正弦波による, 3 秒間, 48kHz の音声ファイルを生成する例: For example, the following produces a 3 second, 48kHz, audio file containing a sine-wave swept from 300 to 3300 Hz:

sox -n output.wav synth 3 sine 300-3300

次はその 8kHz 版を生成する: and this produces an 8 kHz version:

sox -r 8000 -n output.wav synth 3 sine 300-3300

波括弧の中のパラメタの組を複数回指定することで,複数チャンネルの合成も可能になる。 次のものは左チャンネルにスイープトーン, 右チャンネルに ブラウニアンノイズ を出力する: Multiple channels can be synthesised by specifying the set of parameters shown between braces multiple times; the following puts the swept tone in the left channel and adds ‘brown’ noise in the right:

sox -n output.wav synth 3 sine 300-3300 brownnoise

次の例は2つの synth エフェクトを連結して,より複雑な波形を生成する: The following example shows how two synth effects can be cascaded to create a more complex waveform:

play -n synth 0.5 sine 200-500 synth 0.5 sine fmod 700-100

周波数は ‘科学的’ 音高記法で与えるか, あるいは文字 ‘%’ を前置して ‘middle A’ ( 440Hz )に相対的な半音数で与えることもできる。 例えば次をギターの low ‘E’ の調弦に用いることができる: Frequencies can also be given in ‘scientific’ note notation, or, by prefixing a ‘%’ character, as a number of semitones relative to ‘middle A’ (440 Hz). For example, the following could be used to help tune a guitar’s low ‘E’ string:

play -n synth 4 pluck %-29

あるいは( Bourne シェルの)ループを用いた6弦ギター調弦音: or with a (Bourne shell) loop, the whole guitar:

for n in E2 A2 D3 G3 B3 E4; do
  play -n synth 4 pluck $n repeat 2; done

synth の更なる例は上述の delay エフェクトおよび下の ‘SoX のスクリプト例’ を見よ。 See the delay effect (above) and the reference to ‘SoX scripting examples’ (below) for more synth examples.

注記: このエフェクトは 最大音量( 0 dBFS )の音声を生成するので、連続して鳴らすとクリッピングも生じ易くなる。 そのため、このエフェクトには gain エフェクトを後続させることが多い( クリッピング を見よ)。 synth エフェクトには,既定で gain -h の機能が組み込まれていることに注意(詳細は gain エフェクトを見よ)。 synth-n オプションで,このふるまいを無効化することもできる。 N.B. This effect generates audio at maximum volume (0dBFS), which means that there is a high chance of clipping when using the audio subsequently, so in many cases, you will want to follow this effect with the gain effect to prevent this from happening. (See also Clipping above.) Note that, by default, the synth effect incorporates the functionality of gain -h (see the gain effect for details); synth’s -n option may be given to disable this behaviour.

synth の各パラメタについての詳細は以下のようになる: A detailed description of each synth parameter follows:

len は、合成される音声の長さを時間指定で与える。 既定でもある値 0 は、入力の長さを利用するように指示する。 len is the length of audio to synthesise (any time specification); a value of 0 indicated to use the input length, which is also the default.

時間長は hh:mm:ss.frac の形式で指定する。 サンプル数は文字 ‘s’ を付加して指定する。 The format for specifying lengths in time is hh:mm:ss.frac. The format for specifying sample counts is the number of samples with the letter ‘s’ appended to it.

type は次のいずれか( sine が既定値): sine(正弦波), square(矩形波), triangle(三角波), sawtooth(のこぎり波), trapezium(台形波), exp(?), noisewhitenoise(ホワイトノイズ), tpdfnoise(三角形確率密度関数ノイズ), pinknoise(ピンクノイズ), brownnoise(ブラウニアンノイズ), pluck(撥弦) 。 type is one of sine, square, triangle, sawtooth, trapezium, exp, [white]noise, tpdfnoise, pinknoise, brownnoise, pluck; default=sine.

combine は次のいずれか: create, mix, amod (振幅変調), fmod (周波数変調) 。 既定値は create combine is one of create, mix, amod (amplitude modulation), fmod (frequency modulation); default=create.

freqfreq2 は、合成音の 先頭/末尾 の周波数。 Hz 単位になるか、または ‘%’ が前置されている場合は A ( 440Hz )から相対的な半音単位になる。 あるいは ‘科学的’ 音高記法 (例えば E2 )も利用できる。 既定の周波数は 440Hz 。 既定では、音符記法に利用されるチューニングは ‘平均律’ になる。 -j KEY オプションは ‘純正律’ を選択する。 ここで KEY は, A に相対的な半音数(整数 — したがって例えば, -93 は、キー C になる)か, または科学的音高記法で与える。 freq/freq2 are the frequencies at the beginning/end of synthesis in Hz or, if preceded with ‘%’, semitones relative to A (440 Hz); alternatively, ‘scientific’ note notation (e.g. E2) may be used. The default frequency is 440Hz. By default, the tuning used with the note notations is ‘equal temperament’; the -j KEY option selects ‘just intonation’, where KEY is an integer number of semitones relative to A (so for example, -9 or 3 selects the key of C), or a note in scientific notation.

freq2 が与えられた場合, len も与えらていなければならず、生成されたトーンは,与えられた周波数にかけてスイープされることになる。 2つの周波数は、文字 :, +, /, - いずれかで結びつけられていなければならない。 この文字は,次のようにスイープ関数を指定する: If freq2 is given, then len must also have been given and the generated tone will be swept between the given frequencies. The two given frequencies must be separated by one of the characters ‘:’, ‘+’, ‘/’, or ‘-’. This character is used to specify the sweep function as follows:

:

線形:トーンは毎秒一定周波数ずつ変化する。 Linear: the tone will change by a fixed number of hertz per second.

+

矩形:2階関数 【?】 がトーンの変更に利用される。 Square: a second-order function is used to change the tone.

/

指数曲線:トーンは毎秒一定数の半音で変化する。 Exponential: the tone will change by a fixed number of semitones per second.

-

指数曲線:初期位相が常にゼロで周波数が階段状に変化する(滑らかでない)ことを除いて ‘/’ と同様。 Exponential: as ‘/’, but initial phase always zero, and stepped (less smooth) frequency changes.

ノイズには利用されない。 Not used for noise.

off は、百分率による信号のバイアス( DC オフセット)。 既定値は 0 。 off is the bias (DC-offset) of the signal in percent; default=0.

ph は、 1 周期に対する割合で表される位相偏移( phase shift )。 既定値は 0 。 ノイズには利用されない。 ph is the phase shift in percentage of 1 cycle; default=0. Not used for noise.

p1 は、各周期の中で次が占める割合(百分率): ‘オン’ ( square の場合), ‘立ち上がり’ ( triangle, exp, trapezium ), サステインpluck )。 既定値は 50 ( square, triangle, exp ), 10 ( trapezium ), 40 ( pluck )。 p1 is the percentage of each cycle that is ‘on’ (square), or ‘rising’ (triangle, exp, trapezium); default=50 (square, triangle, exp), default=10 (trapezium), or sustain (pluck); default=40.

p2 は、各周期の中で次が位置する所(百分率): ‘立ち下がり’ が始まる所( trapezium の場合 — 既定値は 50 ), 2dB の倍数の振幅の所( exp の場合 — 既定値は 50 ), tone-1 の所( pluck の場合 — 既定値は 20 )。 p2 (trapezium): the percentage through each cycle at which ‘falling’ begins; default=50. exp: the amplitude in multiples of 2dB; default=50, or tone-1 (pluck); default=20.

p3 は、各周期の中で次が位置する所(百分率): ‘立ち下がり’ が終わる所( trapezium の場合 — 既定値は 60), tone-2 の所( pluck の場合 — 既定値は 90)。 p3 (trapezium): the percentage through each cycle at which ‘falling’ ends; default=60, or tone-2 (pluck); default=90.

tempo [-q] [-m|-s|-l] factor [segment [search [overlap]]]

音声のピッチを維持したまま,再生速度を変える。 このエフェクトは WSOLA アルゴリズムを用いる。 音声は、細かく刻まれ, 時間軸上でずらされ, ‘最小2乗’ の尺度で最も波形が似る所で接ぎ合わされる(クロスフェード)。 Change the audio playback speed but not its pitch. This effect uses the WSOLA algorithm. The audio is chopped up into segments which are then shifted in the time domain and overlapped (cross-faded) at points where their waveforms are most similar as determined by measurement of ‘least squares’.

既定では、最適な接ぎ合わせ地点の探索に線形探索が利用される。 オプションの -q パラメタが与えられた場合、ツリー探索が代わりに利用される。 これにより,エフェクトはより高速に動作するが、結果は劣るかもしれない。 しかしながら,処理速度の向上が求められる場合、これは一般的に searchoverlap 値の抑制よりも音質劣化を抑えるものになる。 By default, linear searches are used to find the best overlapping points. If the optional -q parameter is given, tree searches are used instead. This makes the effect work more quickly, but the result may not sound as good. However, if you must improve the processing speed, this generally reduces the sound quality less than reducing the search or overlap values.

-m オプションは、楽曲( music )処理において segment, search, overlap の既定値を最適化するために用いる。 The -m option is used to optimize default values of segment, search and overlap for music processing.

-s オプションは、話声( speech )処理において segment, search, overlap の既定値を最適化するために用いる。 The -s option is used to optimize default values of segment, search and overlap for speech processing.

-l オプションは、 ‘線形’ ( linear )処理において segment, search, overlap の既定値を最適化するために用いる。 歪みはより目立つ傾向にあるが, factor が 1 に近い場合は有用になり得る。 The -l option is used to optimize default values of segment, search and overlap for ‘linear’ processing that tends to cause more noticeable distortion but may be useful when factor is close to 1.

-m, -s, -l のいずれかが指定された場合, segment の既定値は factor に基づいて算出される一方、 searchoverlap 値の既定値は segment に基づいて算出される。 いずれにせよ,コマンドで与えた値が既定値を上書きする。 If -m, -s, or -l is specified, the default value of segment will be calculated based on factor, while default search and overlap values are based on segment. Any values you provide still override these default values.

factor は、元のテンポに対する新しいテンポの比率を与える。 したがって例えば 1.1 であればテンポは 10% 速くなり, 0.9 であれば 10% 遅くなる。 factor gives the ratio of new tempo to the old tempo, so e.g. 1.1 speeds up the tempo by 10%, and 0.9 slows it down by 10%.

オプションの segment パラメタは、アルゴリズムの区間長(ミリ秒)を与える。 他のどのフラグも指定されなかった場合の既定値は 82 。 この値は概して楽曲のテンポの小さな変化に適する。 大きな変化(例えば factor が 2 )の場合, 41 ms の方がより良い結果になるだろう。 -m, -s, -l フラグは、 segment の既定を factor に基づいて自動的に調整させるようにする。 例えば(話声において) tempo 1.25-s を用いた場合、既定の segment 値は 32 になる。 The optional segment parameter selects the algorithm’s segment size in milliseconds. If no other flags are specified, the default value is 82 and is typically suited to making small changes to the tempo of music. For larger changes (e.g. a factor of 2), 41 ms may give a better result. The -m, -s, and -l flags will cause the segment default to be automatically adjusted based on factor. For example using -s (for speech) with a tempo of 1.25 will calculate a default segment value of 32.

オプションの search パラメタは、アルゴリズムが重ね合わせ点を探索する音声の長さを,ミリ秒で与える。 他のフラグが指定されていない場合の既定値は 14.68 。 値を大きくする程,処理に時間がかかり、より良い結果になるとは限らない。 実用的な最大値は segment の値の半分。 探索の抑制は 処理時間の短縮になるが、出力品質の低下と引き換えになる。 -m, -s, -l フラグを与えた場合、 search の既定は segment に基づく自動的な調整に委ねられる。 The optional search parameter gives the audio length(ミリ秒) over which the algorithm will search for overlapping points. If no other flags are specified, the default value is 14.68. Larger values use more processing time and may or may not produce better results. A practical maximum is half the value of segment. Search can be reduced to cut processing time at the risk of degrading output quality. The -m, -s, and -l flags will cause the search default to be automatically adjusted based on segment.

オプションの overlap パラメタは、区間が重なり合う長さを,ミリ秒で与える。 既定値は 12 であるが、 -m, -s, -l フラグが与えられた場合, overlapsegment サイズから自動的に調整される。 overlap を大きくする程、処理時間もかかるが品質は高くなり得る。 overlap の実用的な最大値は search の値であり、代表的な値は(少なくとも) search より少し小さい辺りになる。 The optional overlap parameter gives the segment overlap length in milliseconds. Default value is 12, but -m, -s, or -l flags automatically adjust overlap based on segment size. Increasing overlap increases processing time and may increase quality. A practical maximum for overlap is the value of search, with overlap typically being (at least) a little smaller then search.

テンポとピッチを同時に変更するエフェクトについては speed を見よ。 ピッチのみを変更するエフェクトについては pitch および bend を見よ。 異なるアルゴリズムによりテンポを変更するエフェクトについては stretch を見よ。 See also speed for an effect that changes tempo and pitch together, pitch and bend for effects that change pitch only, and stretch for an effect that changes tempo using a different algorithm.

treble gain [frequency[k] [width[s|h|k|o|q]]]

高域に対するトーンコントロールエフェクトをかける。 詳細は bass エフェクトを見よ。 Apply a treble tone-control effect. See the description of the bass effect for details.

tremolo speed [depth]

音声に トレモロ (低周波振幅変調)エフェクトをかける。 トレモロの周波数( Hz )は speed で, 深さ( % )は depth (既定値は 40 )で与えられる。 Apply a tremolo (low frequency amplitude modulation) effect to the audio. The tremolo frequency in Hz is given by speed, and the depth as a percentage by depth (default 40).

trim {position(+)}

音声からいくつかの部分を取り除く。 position はいくつでも与えられる。 最初の position に達するまで、音声は出力ストリームに送出されない。 その後、各 position に遭遇する度に,音声の複製と破棄が切り替わる。 最初の position パラメタに値 0 を与えれば、音声の最初から複製できる。 Cuts portions out of the audio. Any number of positions may be given; audio is not sent to the output until the first position is reached. The effect then alternates between copying and discarding audio at each position. Using a value of 0 for the first position parameter allows copying from the beginning of the audio.

例えば: For example,

sox infile outfile trim 0 10

では、最初の 10 秒間だけが複製される。 一方、 will copy the first ten seconds, while

play infile trim 12:34 =15:00 -2:00

および and

play infile trim 12:34 2:26 -2:00

のいずれも、 12 分 34 秒の所から 15 分の所まで(すなわち 2 分 26 秒間)再生された後,音声の末尾から 2 分手前の所からまた再生される。 will both play from 12 minutes 34 seconds into the audio up to 15 minutes into the audio (i.e. 2 minutes and 26 seconds long), then resume playing two minutes before the end of audio.

upsample [factor]

信号を整数因子によりアップサンプルする: 各入力サンプルの合間に factor − 1 個のゼロ値サンプルが挿入される。 その結果、元の周波数分布は新たな周波数空間に複製され( imaging 【 DA 変換時の 折り返し雑音 ), 減衰される。 この減衰は、後段の処理に vol を与えて補償できる。 アップサンプル エフェクトは概してフィルタ型のエフェクトと併用される。 Upsample the signal by an integer factor: factor-1 zero-value samples are inserted between each pair of input samples. As a result, the original spectrum is replicated into the new frequency space (imaging) and attenuated. This attenuation can be compensated for by adding vol factor after any further processing. The upsample effect is typically used in combination with filtering effects.

anti-imaging を伴う一般的な再サンプルエフェクトについては rate を見よ。 downsample も見よ。 For a general resampling effect with anti-imaging, see rate. See also downsample.

vad [options]

話声の検出。 (それなりの高解像度, 16 ビット, 44-48kHz の)話声の録音の端部からの,沈黙/静かな背景音のトリムを試みる。 現在の所、アルゴリズムでは,話声の検知に単純な ケプストラム パワー計測を利用しているので、特に楽曲においては 他の要素による誤検出も起こり得る。 このエフェクトによるトリムは 音声の開始部分からのみなので、末尾からのトリムが必要な場合は reverse エフェクトも併用する必要がある。 例えば: Voice Activity Detector. Attempts to trim silence and quiet background sounds from the ends of (fairly high resolution i.e. 16-bit, 44-48kHz) recordings of speech. The algorithm currently uses a simple cepstral power measurement to detect voice, so may be fooled by other things, especially music. The effect can trim only from the front of the audio, so in order to trim from the back, the reverse effect must also be used. E.g.

play speech.wav norm vad

は、先頭側からトリムする。 to trim from the front,

play speech.wav norm reverse vad reverse

は、末尾側からトリムする。 to trim from the back, and

play speech.wav norm vad reverse vad reverse

は両側からトリムする。 norm エフェクトの利用が推奨されるが、 reversenorm のいずれも,ストリーム音声には適さないことに注意。 to trim from both ends. The use of the norm effect is recommended, but remember that neither reverse nor norm is suitable for use with streamed audio.

オプション(括弧内は既定値): Options: Default values are shown in parenthesis.

-t num (7)

アクティブ状態の検出に利用される しきいレベル。 これは入力音声の雑音レベル, 信号レベル, その他の属性に依存して変更の必要が生じ得る。 The measurement level used to trigger activity detection. This might need to be changed depending on the noise level, signal level and other charactistics of the input audio.

-T num (0.25)

音の短いバーストを無視させるための補助に利用される時定数(秒)。 The time constant (in seconds) used to help ignore short bursts of sound.

-s num (1)

検出された trigger 地点に先立って含めるための、より静か/短い音声のバーストを探索する音声の長さ(秒)。 【?】 The amount of audio (in seconds) to search for quieter/shorter bursts of audio to include prior to the detected trigger point.

-g num (0.25)

検出された trigger 地点に先立って含めるための、より静か/短い音声のバーストの間に許容されるギャップ(秒)。 【?】 Allowed gap (in seconds) between quieter/shorter bursts of audio to include prior to the detected trigger point.

-p num (0)

trigger 地点や,見つかったより静か/短いバーストの前に 保持する,音声の長さ(秒)。 【?】 The amount of audio (in seconds) to preserve before the trigger point and any found quieter/shorter bursts.

詳細オプション: Advanced Options:

これらはアルゴリズムの内部パラメタの微調整を可能にする。 These allow fine tuning of the algorithm’s internal parameters.

-b num

アルゴリズムは音声の望ましい開始点を検出するために(内部的に)、適応性のあるノイズ評価/リダクションを利用する。 このオプションは初期ノイズ評価の時間長を設定する。 The algorithm (internally) uses adaptive noise estimation/reduction in order to detect the start of the wanted audio. This option sets the time for the initial noise estimate.

-N num

雑音レベルが増大した際に適応性のあるノイズ評価に利用される時定数。 Time constant used by the adaptive noise estimator for when the noise level is increasing.

-n num

雑音レベルが減少した際に適応性のあるノイズ評価に利用される時定数。 Time constant used by the adaptive noise estimator for when the noise level is decreasing.

-r num

検出アルゴリズムで用いるノイズリダクション量(例えば 0, 0.5, ... )。 Amount of noise reduction to use in the detection algorithm (e.g. 0, 0.5, ...).

-f num

アルゴリズムの処理/計測の頻度。 Frequency of the algorithm’s processing/measurements.

-m num

測定時間。 既定値は測定周期の2倍。 すなわち各測定は重なり合う。 Measurement duration; by default, twice the measurement period; i.e. with overlap.

-M num

smooth スペクトル計測に利用される時定数。 Time constant used to smooth spectral measurements.

-h num

検出アルゴリズムの入力に適用される ハイパスフィルタの ‘Brick-wall’ 周波数。 ‘Brick-wall’ frequency of high-pass filter applied at the input to the detector algorithm.

-l num

検出アルゴリズムの入力に適用される ローパスフィルタの ‘Brick-wall’ 周波数。 ‘Brick-wall’ frequency of low-pass filter applied at the input to the detector algorithm.

-H num

検出アルゴリズムに用いられる ハイパス lifter の ‘Brick-wall’ 周波数 。 【 lifter :ケプストラム上のフィルタ】 ‘Brick-wall’ frequency of high-pass lifter used in the detector algorithm.

-L num

検出アルゴリズムに用いられる ローパス lifter の ‘Brick-wall’ 周波数 。 ‘Brick-wall’ frequency of low-pass lifter used in the detector algorithm.

silence エフェクトも見よ。 See also the silence effect.

vol gain [type [limitergain]]

音声信号を増幅/減衰させる。 ( SoX エフェクト処理チェインに入る前に,複数の入力ファイルのバランスをとる) -v オプションとは異なり、 vol は他のエフェクトと同様に,処理チェインの中のどこでも必要に応じて何度でも適用できる。 Apply an amplification or an attenuation to the audio signal. Unlike the -v option (which is used for balancing multiple input files as they enter the SoX effects processing chain), vol is an effect like any other so can be applied anywhere, and several times if necessary, during the processing chain.

音量の変化量は gain で与えられ、 type に応じて次のように解釈される: typeamplitude の場合(または省略された場合)の gain は増幅率(すなわち電圧あるいは線形)を表し, power の場合は パワー(すなわちワット数 あるいは電圧2乗)率を表し, dB の場合は dB 単位のパワー変化を表す。 The amount to change the volume is given by gain which is interpreted, according to the given type, as follows: if type is amplitude (or is omitted), then gain is an amplitude (i.e. voltage or linear) ratio, if power, then a power (i.e. wattage or voltage-squared) ratio, and if dB, then a power change in dB.

typeamplitude または power の場合、 gain 1 は音量を変化させず, 1 より小さい値は減衰させ, 1 より大きい値は増幅させる。 負の gain は音量調整と同時に音声信号を反転させる。 When type is amplitude or power, a gain of 1 leaves the volume unchanged, less than 1 decreases it, and greater than 1 increases it; a negative gain inverts the audio signal in addition to adjusting its volume.

typedB の場合、 gain 0 は音量を変化させず, 0 より小さい値は減衰させ, 0 より大きい値は増幅させる。 When type is dB, a gain of 0 leaves the volume unchanged, less than 0 decreases it, and greater than 0 increases it.

電気的(したがって音声信号の)電圧およびパワー率についての詳細は [4] を参照のこと。 See [4] for a detailed discussion on electrical (and hence audio signal) voltage and power ratios.

音量を増幅させる際は クリッピング に注意。 Beware of Clipping when the increasing the volume.

gain および type パラメタは一緒にまとめられる:例えば vol 10dB The gain and the type parameters can be concatenated if desired, e.g. vol 10dB.

オプションで limitergain 値を指定できる。 これは 1 よりずっと小さい値にすべきもので(例えば 0.05 や 0.02 )、クリッピング防止の目的でピークに対してのみ利用される。 このパラメタを指定しなかった場合リミッターは適用されない。 冗長モードにおいては、このエフェクトにより,リミッターをかける必要がある音声の割合が表示される。 An optional limitergain value can be specified and should be a value much less than 1 (e.g. 0.05 or 0.02) and is used only on peaks to prevent clipping. Not specifying this parameter will cause no limiter to be used. In verbose mode, this effect will display the percentage of the audio that needed to be limited.

機能が異なる音量変更エフェクトについては gain を見よ。 ダイナミックレンジの圧縮/伸張/制限エフェクトについては compand を見よ。 See also gain for a volume-changing effect with different capabilities, and compand for a dynamic-range compression/expansion/limiting effect.

診断

終了ステータスはエラーが無ければ 0, コマンドライン引数に問題がある場合は 1, ファイル処理の中でエラーが生じた場合は 2 になる。 Exit status is 0 for no error, 1 if there is a problem with the command-line parameters, or 2 if an error occurs during file processing.

バグ

このバージョンの SoX に見つかったバグはメーリングリスト( sox-users@lists.sourceforge.net )に報告願います。 Please report any bugs found in this version of SoX to the mailing list (sox-users@lists.sourceforge.net).

関連項目

soxi(1), soxformat(7), libsox(3), audacity(1), gnuplot(1), octave(1), wget(1)

参照文献

利用許諾

このプログラムはフリーソフトウェアです。 あなたはこれを、フリーソフトウェア財団によって発行されたGNU 一般公衆利用許諾書(バージョン 2 または(あなたが望むなら)それ以降の任意のバージョン)が定める条件下で再頒布および改変することができます。 This program is free software; you can redistribute it and/or modify it under the terms of the GNU General Public License as published by the Free Software Foundation; either version 2, or (at your option) any later version.

このプログラムは有用であることを願って頒布されますが、全くの無保証です。 商品性および特定目的への適合性に対する保証は、言外に示されたものも含め,全く存在しません。 詳しくはGNU 一般公衆利用許諾書をご覧ください。 This program is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License for more details.

著作者

Chris Bagwell ( cbagwell@users.sourceforge.net )。 他の著作者と協力者たちはソースコードと伴に頒布されている ChangeLog ファイルに挙げられています。 Chris Bagwell (cbagwell@users.sourceforge.net). Other authors and contributors are listed in the ChangeLog file that is distributed with the source code.


SoXI

名前

SoXI — Sound eXchange Information,音声ファイルのメタデータを表示する SoXI — Sound eXchange Information, display sound file metadata

書式

  • soxi [-V[level]] [-T] [-t|-r|-c|-s|-d|-D|-b|-B|-p|-e|-a] infile1 ...

説明

与えられた音声ファイルのヘッダから情報を取得して表示する。 サポートされる音声ファイルタイプとその説明については soxformat(7) を参照。 ただし、 soxi は自己記述ヘッダを持つ音声ファイルに対してのみの利用が意図されていることに注意。 Displays information from the header of a given audio file or files. Supported audio file types are listed and described in soxformat(7). Note however, that soxi is intended for use only with audio files with a self-describing header.

既定では可能な限り取得できる情報を表示する。 (おそらくスクリプトやバッチファイルからの利用目的で)オプションを与えて単独の情報のみを取得させることもできる。 By default, as much information as is available is shown. An option may be given to select just a single piece of information (perhaps for use in a script or batch-file).

オプション

-V

メッセージの冗長度を設定する。 詳細は sox(1) の -V オプションを見よ。 Set verbosity. See sox(1) for details.

-T

複数ファイルと伴に用いる。 -s, -d, -D のふるまいを変更し、与えられたファイル全部の総計を表示するようにする。 ただし、 -s と伴用された場合、ファイルのサンプルレートがまちまちだと結果は不確かなものになることに注意。 Displays information from the header of a given audio file or files. Supported audio file types are listed and described in soxformat(7). Note however, that soxi is intended for use only with audio files with a self-describing header.

-t

推定されるファイルタイプを表示する。 Show detected file-type.

-r

サンプルレートを表示する。 Show sample-rate.

-c

チャンネル数を表示する。 Show number of channels.

-s

サンプル数を表示する(取得できない場合は 0 )。 Show number of samples (0 if unavailable).

-d

長さを時分秒で表示する(取得できない場合は 0 )。 サンプル数をサンプルレートで割ったものと等価。 Show duration in hours, minutes and seconds (0 if unavailable). Equivalent to number of samples divided by the sample-rate.

-D

長さを秒で表示する(取得できない場合は 0 )。 Show duration in seconds (0 if unavailable).

-b

ビット深度を表示する(適用できない場合は 0 )。 Show number of bits per sample (0 if not applicable).

-B

ファイル全体の平均ビットレートを表示する(取得できない場合は 0 )。 Show the bitrate averaged over the whole file (0 if unavailable).

-p

推定サンプル精度を表示する。 Show estimated sample precision in bits.

-e

音声符号化方式を表示する。 Show the name of the audio encoding.

-a

存在すればファイルコメント(注釈)を表示する。 Show file comments (annotations) if available.

バグ, 関連項目, 利用許諾, 著作者

【 SoX とほぼ同じなので省略。】

Copyright 2008-2013 by Chris Bagwell and SoX Contributors.


soxformat

説明

このマニュアルは SoX がサポートするファイル形式と音声デバイスの種類について述べる。 SoX マニュアルセットは sox(1) から始まる。 This manual describes SoX supported file formats and audio device types; the SoX manual set starts with sox(1).

以下に示す形式タイプの一覧において、ファイル名拡張子から SoX が決定可能な形式タイプには,先頭にドットが付けられている。 SoX への組み込みがオプションになっている形式タイプには、 ‘(オプション)’ と付記されている。 Format types that can SoX can determine by a filename extension are listed with their names preceded by a dot. Format types that are optionally built into SoX are marked ‘(optional)’.

オプションの疑似ファイルタイプ(現在の所 sndfile )を通して,外部ライブラリにより処理可能な形式タイプには、 ‘-t sndfile も可)’ 等と付記されている。 これは SoX の既定の形式リーダ/ライタが働かないファイルにも、その形式に対応する外部のリーダ/ライタがあれば有用になり得ることを表す。 Format types that can be handled by an external library via an optional pseudo file type (currently sndfile) are marked e.g. ‘(also with -t sndfile)’. This might be useful if you have a file that doesn’t work with SoX’s default format readers and writers, and there’s an external reader or writer for that format.

オプションの形式/デバイスが SoX でサポートされているかどうかを知るには、 sox -h と入力して,その名前が ‘AUDIO FILE FORMATS’ または ‘AUDIO DEVICE DRIVERS’ の項目以下のリストに挙っているかどうかを調べるとよい。 To see if SoX has support for an optional format or device, enter sox -h and look for its name under the list: ‘AUDIO FILE FORMATS’ or ‘AUDIO DEVICE DRIVERS’.

SoX の形式とデバイスドライバ

.raw-t sndfile も可), .f32, .f64, .s8, .s16, .s24, .s32,
.u8, .u16, .u24, .u32, .ul, .al, .lu, .la

raw (ヘッダレス)音声ファイル。 .raw に対しては、サンプルレートとデータ符号化方式がコマンドラインの形式オプションで与えられなければならない。 それ以外のタイプについては、サンプルレートの既定は 8kHz (上書き可能)でデータ符号化方式は拡張子から定められる:
.f32.f64 はそれぞれ 32, 64 ビット( IEEE 単精度, 倍精度)浮動小数点数 PCM,
.s8, .s16, .s24, .s32 はそれぞれ 8, 16, 24, 32 ビット符号付き整数 PCM,
.u8, .u16, .u24, .u32 はそれぞれ 8, 16, 24, 32 ビット符号なし整数 PCM,
.ul は ‘μ-law’ ( 8 ビット),
.al は ‘A-law’ ( 8 ビット),
.lu.la はそれぞれビット順序が逆の ‘μ-law’ と ‘A-law’
になる。 すべての raw 形式に対し、チャンネル数の既定は 1 である(上書き可能)。 Raw (headerless) audio files. For raw, the sample rate and the data encoding must be given using command-line format options; for the other listed types, the sample rate defaults to 8kHz (but may be overridden), and the data encoding is defined by the given suffix. Thus f32 and f64 indicate files encoded as 32 and 64-bit (IEEE single and double precision) floating point PCM respectively; s8, s16, s24, and s32 indicate 8, 16, 24, and 32-bit signed integer PCM respectively; u8, u16, u24, and u32 indicate 8, 16, 24, and 32-bit unsigned integer PCM respectively; ul indicates ‘μ-law’ (8-bit), al indicates ‘A-law’ (8-bit), and lu and la are inverse bit order ‘μ-law’ and inverse bit order ‘A-law’ respectively. For all raw formats, the number of channels defaults to 1 (but may be overridden).

SPARC コンピュータ上のヘッダレス音声ファイルは .ul 形式が推定され、 Mac ではサンプルレート 11025Hz または 22050Hz の .u8 が推定される。 Headerless audio files on a SPARC computer are likely to be of format ul; on a Mac, they’re likely to be u8 but with a sample rate of 11025 or 22050 Hz.

raw ADPCM 形式については .ima および .vox を, raw CD デジタル音声については .cdda を見よ。 See .ima and .vox for raw ADPCM formats, and .cdda for raw CD digital audio.

.f4, .f8, .s1, .s2, .s3, .s4,
.u1, .u2, .u3, .u4, .sb, .sw, .sl, .ub, .uw

それぞれ .f32, .f64, .s8, .s16, .s24, .s32, .u8, .u16, .u24, .u32, .s8, .s16, .s32, .u8, .u16 に対応する廃止予定のエイリアス。 Deprecated aliases for f32, f64, s8, s16, s24, s32,u8, u16, u24, u32, s8, s16, s32, u8, and u16 respectively.

.8svx-t sndfile も可)

Amiga 8SVX 楽器記述形式。 Amiga 8SVX musical instrument description format.

.aiff, .aif-t sndfile も可)

AIFF ファイルは 昔の Apple Mac, Apple IIc/IIgs, SGI で利用されてきたものである。 SoX では AIFF や 8SVX 楽器記述形式における複数の音声チャンクはサポートされない。 AIFF ファイルはマルチメディアアーカイブであり,複数の音声と画像チャンクを持ち得るので、その扱いには別途アーカイバが必要になる。 Mac OS X においては、 AIFF は CAF に取って代わられている。 AIFF files as used on old Apple Macs, Apple IIc/IIgs and SGI. SoX’s AIFF support does not include multiple audio chunks, or the 8SVX musical instrument description format. AIFF files are multimedia archives and can have multiple audio and picture chunks - you may need a separate archiver to work with them. With Mac OS X, AIFF has been superseded by CAF.

.aiffc, .aifc-t sndfile も可)

AIFF-C は AIFF を基に圧縮音声も扱えるようにした形式である。 これは sowt 符号化方式と呼ばれるリトルエンディアンの無圧縮リニアデータも扱える。 この符号化方式は、他のプラットフォームの iTunes も含め,現代の Mac で作成される事実上の標準形式にもなっている。 他のアプリケーションから作成された AIFF-C ファイルのファイル名拡張子は概して .aif であり、実際の形式を判別するためにはヘッダを調べる必要がある。 この形式において SoX が扱える符号化方式は sowt のみになる。 AIFF-C is a format based on AIFF that was created to allow handling compressed audio. It can also handle little endian uncompressed linear data that is often referred to as sowt encoding. This encoding has also become the defacto format produced by modern Macs as well as iTunes on any platform. AIFF-C files produced by other applications typically have the file extension .aif and require looking at its header to detect the true format. The sowt encoding is the only encoding that SoX can handle with this format.

AIFF-C の仕様は DAVIC 1.4 Part 9 Annex B で定められている。 この形式は日本のデータ放送に指定された ARIB STD-B24 でも利用されている。 プライベートチャンクはサポートされない。 AIFF-C is defined in DAVIC 1.4 Part 9 Annex B. This format is referred from ARIB STD-B24, which is specified for Japanese data broadcasting. Any private chunks are not supported.

alsa (オプション)

ALSA ( Advanced Linux Sound Architecture )デバイスドライバ。 再生と録音のいずれもサポートされる。 ALSA は Linux ベースの OS でのみ利用されている( Linux では OSS (後述)もサポートされていることが多いが)。 例: Advanced Linux Sound Architecture device driver; supports both playing and recording audio. ALSA is only used in Linux-based operating systems, though these often support OSS (see below) as well. Examples:

sox infile -t alsa
sox infile -t alsa default
sox infile -t alsa plughw:0,0
sox -b 16 -t alsa hw:1 outfile

play(1), rec(1), sox(1) -d も見よ。 See also play(1), rec(1), and sox(1) -d.

.amb

Ambisonic B-Format : Ambisonic デコーダによる利用が意図されている 3 〜 16 チャンネルの音声を持つ .wav を特化した形式。 詳細は http://www.ambisonia.com/Members/mleese/file-format-for-b-format を参照のこと。 正しいチャンネル順序と適切な amplitude の設定は利用者に委ねられている。 Ambisonic B-Format: a specialisation of .wav with between 3 and 16 channels of audio for use with an Ambisonic decoder. See http://www.ambisonia.com/Members/mleese/file-format-for-b-format for details. It is up to the user to get the channels together in the right order and at the correct amplitude.

.amr-nb (オプション)

Adaptive Multi Rate — 3GPP TS 26.071 他で定められた、第3世代携帯電話で利用される不可逆形式の狭帯域話声コーデック。 Adaptive Multi Rate - Narrow Band speech codec; a lossy format used in 3rd generation mobile telephony and defined in 3GPP TS 26.071 et al.

AMR-NB 音声はサンプルレートが 8 kHz 固定で、次に挙げるビットレート( -C オプションで選択される)への符号化がサポートされる: 0 = 4.75 kbit/s, 1 = 5.15 kbit/s, 2 = 5.9 kbit/s, 3 = 6.7 kbit/s, 4 = 7.4 kbit/s 5 = 7.95 kbit/s, 6 = 10.2 kbit/s, 7 = 12.2 kbit/s AMR-NB audio has a fixed sampling rate of 8 kHz and supports encoding to the following bit-rates (as selected by the -C option): 0 = 4.75 kbit/s, 1 = 5.15 kbit/s, 2 = 5.9 kbit/s, 3 = 6.7 kbit/s, 4 = 7.4 kbit/s 5 = 7.95 kbit/s, 6 = 10.2 kbit/s, 7 = 12.2 kbit/s.

.amr-wb (オプション)

Adaptive Multi Rate — 3GPP TS 26.171 他で定められた、第3世代携帯電話で利用される不可逆形式の広帯域話声コーデック。 Adaptive Multi Rate - Wide Band speech codec; a lossy format used in 3rd generation mobile telephony and defined in 3GPP TS 26.171 et al.

AMR-WB 音声はサンプルレートが 16 kHz 固定で、次に挙げるビットレート( -C オプションで選択される)への符号化がサポートされる: 0 = 6.6 kbit/s, 1 = 8.85 kbit/s, 2 = 12.65 kbit/s, 3 = 14.25 kbit/s, 4 = 15.85 kbit/s 5 = 18.25 kbit/s, 6 = 19.85 kbit/s, 7 = 23.05 kbit/s, 8 = 23.85 kbit/s. AMR-WB audio has a fixed sampling rate of 16 kHz and supports encoding to the following bit-rates (as selected by the -C option): 0 = 6.6 kbit/s, 1 = 8.85 kbit/s, 2 = 12.65 kbit/s, 3 = 14.25 kbit/s, 4 = 15.85 kbit/s 5 = 18.25 kbit/s, 6 = 19.85 kbit/s, 7 = 23.05 kbit/s, 8 = 23.85 kbit/s.

ao (オプション)

Xiph.org による音声出力デバイスドライバであり、再生のみに対応する。 広範囲の機器および音声システムがサポートされている。 どこまでの範囲かはその文書を参照のこと。 SoX はほとんどの部分において libao を直接的に設定できない。 代わりに libao の設定ファイルが利用されなければならない。 Xiph.org’s Audio Output device driver; works only for playing audio. It supports a wide range of devices and sound systems - see its documentation for the full range. For the most part, SoX’s use of libao cannot be configured directly; instead, libao configuration files must be used.

どの libao プラグイン利用するかは、ファイル名で指定する。 通常はファイル名として ‘default’ を指定すべきである。 望ましいふるまいが得られない場合はプラグインの短縮名を与えることができる( pulse オーディオプラグインであれば pulse 等)。 例: The filename specified is used to determine which libao plugin to use. Normally, you should specify ‘default’ as the filename. If that doesn’t give the desired behavior then you can specify the short name for a given plugin (such as pulse for pulse audio plugin). Examples:

sox infile -t ao
sox infile -t ao default
sox infile -t ao pulse

play(1) および sox(1) -d も見よ。 See also play(1) and sox(1) -d.

.au, .snd-t sndfile も可)

Sun Microsystems AU ファイル。 AU ファイルには多くの種類がある。 DEC は異なるマジックナンバーとバイト順を持つ独自の形式を開発した。 DEC ファイルを書き出すためには -L オプションを出力ファイルオプションと伴に用いる。 Sun Microsystems AU files. There are many types of AU file; DEC has invented its own with a different magic number and byte order. To write a DEC file, use the -L option with the output file options.

一部の .au ファイルは無効な AU ヘッダを持つことが知られている。 これらはおそらく,元々は Sun μ-law 8000Hz ファイルであり、 .ul 形式(後述)で処理できる。 Some .au files are known to have invalid AU headers; these are probably original Sun μ-law 8000 Hz files and can be dealt with using the .ul format (see below).

AU ファイルヘッダ情報は -r-c オプションにより上書きできる。 この場合、 SoX から警告が発せられる。 It is possible to override AU file header information with the -r and -c options, in which case SoX will issue a warning to that effect.

.avr

Audio Visual Research 形式。 いくつかの Mac の商用パッケージで利用されている。 Audio Visual Research format; used by a number of commercial packages on the Mac.

.caf (オプション)

Apple の Core Audio ファイル形式。 Apple’s Core Audio File format.

.cdda, .cdr

‘Red Book’ Compact Disc Digital Audio ( raw audio )。 CDDA はサンプルレート 44.1kHz, 16 ビット符号付き整数(ビッグエンディアン)形式の2つの音声チャンネルを持つ。 CDDA の各トラックの(ステレオ)サンプル数は常に 588 の倍数になる。 ‘Red Book’ Compact Disc Digital Audio (raw audio). CDDA has two audio channels formatted as 16-bit signed integers (big endian) at a sample rate of 44.1 kHz. The number of (stereo) samples in each CDDA track is always a multiple of 588.

coreaudio (オプション)

Mac OSX CoreAudio デバイスドライバ:再生と録音のいずれもサポートされる。 ファイル名が特定のものでないか,名前が "default" であれば既定の音声デバイスが選択される。 他の任意の名前も特定の機器の選択に用いられる。 有効な名前は システム環境設定:サウンド の出力と入力タブに現れる。 Mac OSX CoreAudio device driver: supports both playing and recording audio. If a filename is not specific or if the name is "default" then the default audio device is selected. Any other name will be used to select a specific device. The valid names can be seen in the System Preferences->Sound menu and then under the Output and Input tabs.

例: Examples:

sox infile -t coreaudio
sox infile -t coreaudio default
sox infile -t coreaudio "Internal Speakers"

play(1), rec(1), sox(1) -d も見よ。 See also play(1), rec(1), and sox(1) -d.

.cvsd, .cvs

Continuously Variable Slope Delta 変調(連続可変スロープ変調)。 ボイスメール等のための圧縮話声に利用されるヘッダレス形式。 この形式ではサンプル内のビット順が逆にされていることがある。 ビット順の設定は -X 形式オプションで行える。 Continuously Variable Slope Delta modulation. A headerless format used to compress speech audio for applications such as voice mail. This format is sometimes used with bit-reversed samples - the -X format option can be used to set the bit-order.

.cvu

(フィルタがかけられていない) Continuously Variable Slope Delta 変調。 これは CVSD の,フィルタがかけられていない別のハンドラであるが、任意のビットレートで利用できる。 例えば: Continuously Variable Slope Delta modulation (unfiltered). This is an alternative handler for CVSD that is unfiltered but can be used with any bit-rate. E.g.

sox infile outfile.cvu rate 28k
play -r 28k outfile.cvu sinc -3.4k
.dat

テキストデータファイル。 これらのファイルはサンプルデータのテキスト表現を内容に持つ。 冒頭の1行はサンプルレートを与え、次の行でチャンネル数を与える。 後続の各行は2個以上の数値データ:最初のサンプルからの経過時間と各チャンネルのサンプル値を与える。 Text Data files. These files contain a textual representation of the sample data. There is one line at the beginning that contains the sample rate, and one line that contains the number of channels. Subsequent lines contain two or more numeric data intems: the time since the beginning of the first sample and the sample value for each channel.

サンプル値は最大と最小が 1 と -1 になるように正規化されている。 このファイル形式は FFT 解析やグラフルーチンなどの外部プログラムのためのデータファイルにも利用できる。 SoX はこの形式のファイルを他のファイル形式に戻すこともできる。 Values are normalized so that the maximum and minimum are 1 and -1. This file format can be used to create data files for external programs such as FFT analysers or graph routines. SoX can also convert a file in this format back into one of the other file formats.

2個の静音ステレオサンプルのみを含む例: Example containing only 2 stereo samples of silence:

; Sample Rate 8012
; Channels 2
            0   0    0
0.00012481278   0    0
.dvms, .vms

ドイツで利用されているボイスメール用の圧縮話声。 .cvsd を自己記述形式にした変種。 Used in Germany to compress speech audio for voice mail. A self-describing variant of cvsd.

.fap (オプション)

.paf を見よ。 See .paf.

.flac (オプション, -t sndfile も可)

Xiph.org によるフリーの可逆圧縮音声コーデック( Free Lossless Audio CODEC )。 FLAC は音楽圧縮用に設計されたオープンかつ特許フリーのコーデックである。 MP3 や Ogg Vorbis と似ているがロスレスであり、 FLAC では品質を犠牲にせずに圧縮可能である。 Xiph.org’s Free Lossless Audio CODEC compressed audio. FLAC is an open, patent-free CODEC designed for compressing music. It is similar to MP3 and Ogg Vorbis, but lossless, meaning that audio is compressed in FLAC without any loss in quality.

SoX はネイティブの FLAC ファイル( .flac )を読み取れるが Ogg FLAC ファイル( .ogg )は読み取れない。 ただし、 Ogg Vorbis ファイルのサポートに関する情報は後述の .ogg を見よ。 SoX can read native FLAC files (.flac) but not Ogg FLAC files (.ogg). [But see .ogg below for information relating to support for Ogg Vorbis files.]

SoX は与えられた/または既定の圧縮レベルによる,ネイティブ FLAC ファイルへの書き出しをサポートする。 既定の圧縮レベルは 8 で圧縮率が最も高い(最も遅い)。 レベル 0 は圧縮率が最も低い(最も速い)。 圧縮レベルは sox(1) の -C オプションで 0 〜 8 の範囲の整数を選択できる。 SoX can write native FLAC files according to a given or default compression level. 8 is the default compression level and gives the best (but slowest) compression; 0 gives the least (but fastest) compression. The compression level is selected using the -C option [see sox(1)] with a whole number from 0 to 8.

.fssd

.u8 形式の別名。 An alias for the .u8 format.

.gsrt

Grandstream ring-tone ファイル。 このファイル形式は A-Law, μ-law, GSM, G.722, G.723, G.726, G.728, iLBC 符号化音声を持ち得るが、 SoX では A-Law と μ-law の読み取りと書き出しのみをサポートする。 例えば: Grandstream ring-tone files. Whilst this file format can contain A-Law, μ-law, GSM, G.722, G.723, G.726, G.728, or iLBC encoded audio, SoX supports reading and writing only A-Law and μ-law. E.g.

sox music.wav -t gsrt ring.bin
play ring.bin
.gsm (オプション, -t sndfile も可)

GSM 06.10 Lossy Speech Compression (不可逆話声圧縮)。 携帯電話のグローバル標準( GSM )で利用されている話声圧縮のための不可逆形式。 その用途や音声データサイズ低減には良い形式だが、音声信号のエンコードとデコードが繰り返されると多量のノイズが生じる。 この形式は一部のボイスメールアプリケーションでも利用されている。 比較的 CPU 依存度が高い。 GSM 06.10 Lossy Speech Compression. A lossy format for compressing speech which is used in the Global Standard for Mobile telecommunications (GSM). It’s good for its purpose, shrinking audio data size, but it will introduce lots of noise when a given audio signal is encoded and decoded multiple times. This format is used by some voice mail applications. It is rather CPU intensive.

.hcom

Macintosh HCOM ファイル。 これらはハフマン圧縮を伴う Mac FSSD ファイルである。 Macintosh HCOM files. These are Mac FSSD files with Huffman compression.

.htk

隠れマルコフモデル( Hidden Markov Model )話声処理ツールを組み上げるためのツールキット HTK で利用される単チャンネル 16 ビット PCM 形式。 Single channel 16-bit PCM format used by HTK, a toolkit for building Hidden Markov Model speech processing tools.

.ircam-t sndfile も可)

.sf の別名。 Another name for .sf.

.ima-t sndfile も可)

IMA ADPCM 音声データのヘッダレスファイル。 IMA ADPCM は 16 ビット精度をたった 4 ビットに詰め込めると主張しているが、実際には .vox を超えるものではない。 A headerless file of IMA ADPCM audio data. IMA ADPCM claims 16-bit precision packed into only 4 bits, but in fact sounds no better than .vox.

.lpc, .lpc10

LPC-10 は米国で開発された話声のための圧縮の枠組みである。 詳細は http://www.arl.wustl.edu/~jaf/lpc/ に。 関連付けられているファイル形式は存在しないので SoX の実装はヘッダレスである。 LPC-10 is a compression scheme for speech developed in the United States. See http://www.arl.wustl.edu/~jaf/lpc/ for details. There is no associated file format, so SoX’s implementation is headerless.

.mat, .mat4, .mat5 (オプション)

Matlab 4.2/5.0 (それぞれ GNU Octave 2.0/2.1 )形式( .mat は .mat4 と同じ)。 Matlab 4.2/5.0 (respectively GNU Octave 2.0/2.1) format (.mat is the same as .mat4).

.m3u

音声ファイルのリストを保持する M3U プレイリスト 形式。 SoX はこのファイル形式の読み取りをサポートするが,書き出しはサポートしない。 A playlist format; contains a list of audio files. SoX can read, but not write this file format. See [1] for details of this format.

.maud

MS MacroSystem Computer GmbH により登録された, IFF 適合音声ファイルタイプ。 Amiga の ‘Toccata’ サウンドカードと伴に公開された。 モノラルとステレオの 8 ビットリニア, 16 ビットリニア, A-Law, μ-law が許容される。 An IFF-conforming audio file type, registered by MS MacroSystem Computer GmbH, published along with the ‘Toccata’ sound-card on the Amiga. Allows 8bit linear, 16bit linear, A-Law, μ-law in mono and stereo.

.mp3, .mp2 (読み取りはオプション, 書き出しもオプション)

MP3 圧縮音声。 MP3 ( MPEG Layer 3 )は特許により保護された MPEG 標準の音声/ビデオ圧縮の一部である。 不可逆な圧縮形式であり、品質劣化が少ない割に良好な圧縮比が得られる。 MP3 compressed audio; MP3 (MPEG Layer 3) is a part of the patent-encumbered MPEG standards for audio and video compression. It is a lossy compression format that achieves good compression rates with little quality loss.

MP3 は特許で保護されているので、特許使用料を支払わない限り SoX を MP3 サポート付きで配布することはできない。 MP3 サポートを要する SoX 利用者は、現在の所、ソースコードから MP3 ライブラリ( LAME & MAD )と伴に SoX をコンパイルしてビルドするか,一部の環境ではビルド済みの動的読み込みライブラリを入手するか、のいずれかを行う必要がある。 Because MP3 is patented, SoX cannot be distributed with MP3 support without incurring the patent holder’s fees. Users who require SoX with MP3 support must currently compile and build SoX with the MP3 libraries (LAME & MAD) from source code, or, in some cases, obtain pre-built dynamically loadable libraries.

MP3 ファイルの読み取りでは、(利用者からは 16 ビットしか見えないが) 28 ビットまでの精度で保持される。 これは 16 ビット出力ファイルの書き出しを既定のふるまいとするためである。 利用者はこの追加の情報を失わないよう、より高精度の出力ファイルを指定できる。 MP3 出力ファイルは 24 ビットまでの精度で符号化できる。 When reading MP3 files, up to 28 bits of precision is stored although only 16 bits is reported to user. This is to allow default behavior of writing 16 bit output files. A user can specify a higher precision for the output file to prevent lossing this extra information. MP3 output files will use up to 24 bits of precision while encoding.

MP3 圧縮パラメタは 次のように SoX の -C オプションで選択できる(現在の構文は更新対象になっていることに注意)。 MP3 compression parameters can be selected using SoX’s -C option as follows (note that the current syntax is subject to change):

LAME エンコーダにあてがう主要なパラメタはビットレートである。 -C の値が正整数の場合、 kbps 単位によるビットレートと解釈される(例えば 128 と指定したなら 128 kbps になる)。 The primary parameter to the LAME encoder is the bit rate. If the value of the -C value is a positive integer, it’s taken as the bitrate in kbps (e.g. if you specify 128, it uses 128 kbps).

2番目に重要なパラメタはおそらく、符号化速度と品質のバランスを与える "品質"(実質的にはパフォーマンス)になる。 LAME では、 0 を与えると最高品質になるがとても遅く, 9 は低品質になるが高速である。 (既定は 5 。高品質符号化のための良好なトレードオフには 2 が推奨される。) The second most important parameter is probably "quality" (really performance), which allows balancing encoding speed vs. quality. In LAME, 0 specifies highest quality but is very slow, while 9 selects poor quality, but is fast. (5 is the default and 2 is recommended as a good trade-off for high quality encodes.)

-C 値は浮動小数点なので,小数部は品質の選択に利用される。 例えば 128.2 は品質 2 の 128 kbps エンコードになる。 このやり方には一つ問題がある。 既定品質の 128 kbps エンコードには 128 を指定する必要があり、 0 は既定を意味する。 したがって最高品質を指定するためには 0 を用いる代わりに .01 (または .99 )を用いななければならない( 128.01 や 128.99 等々)。 Because the -C value is a float, the fractional part is used to select quality. 128.2 selects 128 kbps encoding with a quality of 2. There is one problem with this approach. We need 128 to specify 128 kbps encoding with default quality, so 0 means use default. Instead of 0 you have to use .01 (or .99) to specify the highest quality (128.01 or 128.99).

LAME ではビットレートを与えると一定ビットレートの指定になるが、可変ビットレート( Variable Bit Rate — VBR )にするとより高品質になる。 VBR 品質(実質的にはサイズ)は 0 〜 9 の数を与えて選択できる。 より高品質で大きいファイルには 0 を用い、より低品質で小さいファイルには 9 を用いる。 既定は 4 である。 LAME uses bitrate to specify a constant bitrate, but higher quality can be achieved using Variable Bit Rate (VBR). VBR quality (really size) is selected using a number from 0 to 9. Use a value of 0 for high quality, larger files, and 9 for smaller files of lower quality. 4 is the default.

-C に与える浮動小数点値に VBR の選択も組み入れるため、 VBR は負数により選択されるようになっている。 例えば -4.2 ならば既定の高品質(または速度)の VBR 符号化(サイズ)になる。 0 は特殊な場合で、有効な VBR 符号化パラメタであるが,有効なビットレートではない。 圧縮値 0 は常に高品質 VBR に解釈され、 -0.2 と 0.2 のいずれも最高品質の VBR (サイズ)および高品質(速度)と解釈される。 In order to squeeze the selection of VBR into the the -C value float we use negative numbers to select VRR. -4.2 would select default VBR encoding (size) with high quality (speed). One special case is 0, which is a valid VBR encoding parameter but not a valid bitrate. Compression value of 0 is always treated as a high quality vbr, as a result both -0.2 and 0.2 are treated as highest quality VBR (size) and high quality (speed).

類似の形式としては Ogg Vorbis も見よ。 See also Ogg Vorbis for a similar format.

.nist-t sndfile も可)

.sph を見よ。 See .sph.

.ogg, .vorbis (オプション)

Xiph.org による Ogg Vorbis 圧縮音声は、楽曲やストリーミング音声のために設計されたオープンかつ特許フリーなコーデックである。 これは( MP3, VQF, AAC と同様に)不可逆な圧縮形式であり、最小限の品質劣化で良好な圧縮比が得られる。 Xiph.org’s Ogg Vorbis compressed audio; an open, patent-free CODEC designed for music and streaming audio. It is a lossy compression format (similar to MP3, VQF & AAC) that achieves good compression rates with a minimum amount of quality loss.

SoX はすべてのタイプの Ogg Vorbis ファイルに対し、そのデコードおよび -1 (最高圧縮比, 最低品質)〜 10 (最低圧縮比, 最高品質)の範囲の数による,異なる圧縮レベル/品質にエンコードできる。 既定の符号化品質レベルは 3 (おおよそ 112kbps の圧縮レート)だが、 -C オプション(上述)に -1 〜 10 の数を与えて変更できる。 小数(例えば 3.6 )も許容される。 デコードは多少 CPU 依存度が高く,エンコードはとても CPU 依存度が高い。 SoX can decode all types of Ogg Vorbis files, and can encode at different compression levels/qualities given as a number from -1 (highest compression/lowest quality) to 10 (lowest compression, highest quality). By default the encoding quality level is 3 (which gives an encoded rate of approx. 112kbps), but this can be changed using the -C option (see above) with a number from -1 to 10; fractional numbers (e.g. 3.6) are also allowed. Decoding is somewhat CPU intensive and encoding is very CPU intensive.

同様な形式として .mp3 も見よ。 See also .mp3 for a similar format.

.opus (オプション)

Xiph.org の Opus 圧縮音声。 不可逆, 低レイテンシのオープンなコーデックで,広範囲の圧縮レートを提供する。 これは Ogg コンテナを利用する。 Xiph.org’s Opus compressed audio; an open, lossy, low-latency codec offering a wide range of compression rates. It uses the Ogg container.

SoX では、 Opus ファイルからの読み取りはできるが、書き込みはできない。 SoX can only read Opus files, not write them.

oss (オプション)

Open Sound System /dev/dsp デバイスドライバ。 再生と録音のいずれもサポートされる。 OSS サポートは Unix 系の OS で利用でき,別のサウンドシステム( ALSA など)と併用できることもある。 例: Open Sound System /dev/dsp device driver; supports both playing and recording audio. OSS support is available in Unix-like operating systems, sometimes together with alternative sound systems (such as ALSA). Examples:

sox infile -t oss
sox infile -t oss /dev/dsp
sox -b 16 -t oss /dev/dsp outfile

play(1), rec(1), sox(1) -d も見よ。 See also play(1), rec(1), and sox(1) -d.

.paf, .fap (オプション)

Ensoniq PARIS ファイル形式(順にビッグ, リトルエンディアン)。 Ensoniq PARIS file format (big and little-endian respectively).

.pls

PLS プレイリスト 形式。 SoX はこのファイル形式の読み取りをサポートするが,書き出しはサポートしない。 A playlist format; contains a list of audio files. SoX can read, but not write this file format. See [2] for details of this format.

注記: SoX の SHOUTcast PLS に対するサポートは wget(1) に依存し、そのサポートも部分的であり、音声の種類は手動で指定する必要がある。 例えば: Note: SoX support for SHOUTcast PLS relies on wget(1) and is only partially supported: it’s necessary to specify the audio type manually, e.g.

play -t mp3 "http://a.server/pls?rn=265&file=filename.pls"

更に SoX は代替サーバも検知できない — 手早く終了させるには Ctrl-C を連打する。 and SoX does not know about alternative servers - hit Ctrl-C twice in quick succession to quit.

.prc

Psion Record 。 Psion EPOC PDA (シリーズ 5, Revo やその類似機種)において、システム警告音や組み込みの録音用アプリケーションで作成された録音に利用されている。 書き出しの際は A-law が SoX の既定であり,推奨になる。 ADPCM を用いなければならない場合は, -e ima-adpcm スイッチを利用する。 音質は悪い。 Psion Record はフレームを 800 以下のサンプルに制限しているらしく, ADPCM CODEC は毎 800 フレームごとにリセットされなければならず,音声が 10 秒ごとに乱れる。 【?】 Psion Record. Used in Psion EPOC PDAs (Series 5, Revo and similar) for System alarms and recordings made by the built-in Record application. When writing, SoX defaults to A-law, which is recommended; if you must use ADPCM, then use the -e ima-adpcm switch. The sound quality is poor because Psion Record seems to insist on frames of 800 samples or fewer, so that the ADPCM CODEC has to be reset at every 800 frames, which causes the sound to glitch every tenth of a second.

pulseaudio (オプション)

PulseAudio ドライバ。 再生と録音のいずれもサポートされる。 PulseAudio はクロスプラットフォームのネットワーク化されたサウンドサーバである。 このドライバと伴に指定されたファイル名は無視される。 例: PulseAudio driver; supports both playing and recording of audio. PulseAudio is a cross platform networked sound server. If a file name is specified with this driver, it is ignored. Examples:

sox infile -t pulseaudio
sox infile -t pulseaudio default

play(1), rec(1), sox(1) -d も見よ。 play(1), rec(1), and sox(1) -d.

.pvf (オプション)

Portable Voice Format 。 Portable Voice Format.

.sd2 (オプション)

Sound Designer 2 形式。 Sound Designer 2 format.

.sds (オプション)

MIDI Sample Dump Standard 。 MIDI Sample Dump Standard.

.sf-t sndfile も可)

IRCAM SDIF ( Institut de Recherche et Coordination Acoustique/Musique Sound Description Interchange Format )。 CSound パッケージや MixView 音声サンプルエディタなどの学術楽曲ソフトウェアで利用される。 IRCAM SDIF (Institut de Recherche et Coordination Acoustique/Musique Sound Description Interchange Format). Used by academic music software such as the CSound package, and the MixView sound sample editor.

.sln

Asterisk PBX ‘signed linear’ 8khz, 16 ビット符号付き整数, リトルエンディアン raw 形式。 Asterisk PBX ‘signed linear’ 8khz, 16-bit signed integer, little-endian raw format.

.sph, .nist-t sndfile も可)

SPHERE ( SPeech HEader Resources )は NIST ( National Institute of Standards and Technology )により定められたファイル形式で話声に利用されている。 SoX はこれらのファイルのうち μ-law および PCM データを含むものについては読み取ることができる。 データが shorten 圧縮により圧縮されていることを示すヘッダ情報は無視され、 μ-law または PCM として扱われる。 これにより、 SoX とコマンドライン shorten プログラムを、パイプを利用してデータを包み込んだ結果を SoX に渡して処理させるようにして,連携させられるようになる。 SPHERE (SPeech HEader Resources) is a file format defined by NIST (National Institute of Standards and Technology) and is used with speech audio. SoX can read these files when they contain μ-law and PCM data. It will ignore any header information that says the data is compressed using shorten compression and will treat the data as either μ-law or PCM. This will allow SoX and the command line shorten program to be run together using pipes to encompasses the data and then pass the result to SoX for processing.

.smp

Turtle Beach SampleVision ファイル。 SMP ファイルは Turtle Beach Softworks による PC-DOS パッケージ SampleVision のためのものである。 このパッケージは種々の MIDI サンプラと通信するためのソフトである。 パッケージではすべてのサンプルレートがサポートされているが、サンプラ自身ではそうでない。 現在の所 loop points は無視される。 Turtle Beach SampleVision files. SMP files are for use with the PC-DOS package SampleVision by Turtle Beach Softworks. This package is for communication to several MIDI samplers. All sample rates are supported by the package, although not all are supported by the samplers themselves. Currently loop points are ignored.

.snd

.au, .sndr, .sndt を見よ。 See .au, .sndr and .sndt.

sndfile (オプション)

この疑似タイプは libsndfile の利用を強制する。 実際のファイルタイプは、書き込み時には出力ファイル名から取得され,読み取り時には入力ファイルから推定される。 This is a pseudo-type that forces libsndfile to be used. For writing files, the actual file type is then taken from the output file name; for reading them, it is deduced from the file.

sndio (オプション)

OpenBSD 音声デバイスドライバ。 再生と録音のいずれもサポートされる。 OpenBSD audio device driver; supports both playing and recording audio.

sox infile -t sndio

play(1), rec(1), sox(1) -d も見よ。 See also play(1), rec(1), and sox(1) -d.

.sndr

Sounder ファイル。 90 年代初頭の MS-DOS/Windows 形式。 Sounder ファイルの拡張子は通常 ‘.SND’ である。 Sounder files. An MS-DOS/Windows format from the early ’90s. Sounder files usually have the extension ‘.SND’.

.sndt

SoundTool ファイル。 90 年代初頭の MS-DOS/Windows 形式。 SoundTool ファイルの拡張子は通常 ‘.SND’ である。 SoundTool files. An MS-DOS/Windows format from the early ’90s. SoundTool files usually have the extension ‘.SND’.

.sou

.u8 raw 形式のエイリアス。 An alias for the .u8 raw format.

.sox

SoX ネイティブの無圧縮 PCM 形式。 中間処理の段階(すなわち SoX の呼び出しと呼び出しの間)における,音声の保存(またはパイプ受け渡し)用途が意図されている。 無圧縮 PCM 形式は WAV, AIFF, AU がずっと一般的だが、これには次のような固有の特徴がある: PCM サンプルは常に 32 ビット符号付き整数に, サンプルは(既定で) ‘ネイティブのエンディアン’ に保存され,サンプル数は 64 ビット整数として記録される。 コメントもサポートされる。 SoX’s native uncompressed PCM format, intended for storing (or piping) audio at intermediate processing points (i.e. between SoX invocations). It has much in common with the popular WAV, AIFF, and AU uncompressed PCM formats, but has the following specific characteristics: the PCM samples are always stored as 32 bit signed integers, the samples are stored (by default) as ‘native endian’, and the number of samples in the file is recorded as a 64-bit integer. Comments are also supported.

‘パイプ’ を用いた .sox 形式の用例は sox(1) の 特殊ファイル名を見よ。 See ‘Special Filenames’ in sox(1) for examples of using the .sox format with ‘pipes’.

sunau (オプション)

Sun /dev/audio デバイスドライバ。 再生と録音のいずれもサポートされる。 例えば: Sun /dev/audio device driver; supports both playing and recording audio. For example:

sox infile -t sunau /dev/audio

あるいはより古い sun の装置では: or

sox infile -t sunau -e mu-law -c 1 /dev/audio

for older sun equipment.

play(1), rec(1), sox(1) -d も見よ。 See also play(1), rec(1), and sox(1) -d.

.txw

Yamaha TX-16W サンプラ。 Yamaha のサンプリングキーボードから IBM-PC format 3.5" フロッピーに保存されるファイル形式。 サンプルレートフィールドが予期されている値に設定されていないようなファイルについても、 attack/loop length フィールドを調べて補完した上で,読み取りを行う。 それでもサンプルレートが未知の場合、既定の 33kHz になる。 Yamaha TX-16W sampler. A file format from a Yamaha sampling keyboard which wrote IBM-PC format 3.5" floppies. Handles reading of files which do not have the sample rate field set to one of the expected by looking at some other bytes in the attack/loop length fields, and defaulting to 33 kHz if the sample rate is still unknown.

.vms

.dvms を見よ。 See .dvms.

.voc-t sndfile も可)

Sound Blaster VOC ファイル。 VOC ファイルはマルチパートであり、静音部, ループ, サンプルレートが個別に異なる一連のチャンクを含み得る。 入力の際には,静音部が充填され, ループは除外され, 新たなサンプルレートのサンプルデータも除外される。 異なるサンプルレートによる静音部は適切に充填される。 出力の際の静音部は、検知されず,レートのサンプルも不可能である 【?】 SoX は VOC ファイルの読み取りを、複数ブロックからなるものや, μ-law, A-law, 2/3/4 ビット ADPCM サンプルが含まれたファイルについても,サポートする(書き出しはサポートしない)。 Sound Blaster VOC files. VOC files are multi-part and contain silence parts, looping, and different sample rates for different chunks. On input, the silence parts are filled out, loops are rejected, and sample data with a new sample rate is rejected. Silence with a different sample rate is generated appropriately. On output, silence is not detected, nor are impossible sample rates. SoX supports reading (but not writing) VOC files with multiple blocks, and files containing μ-law, A-law, and 2/3/4-bit ADPCM samples.

.vorbis

.ogg を見よ。 See .ogg.

.vox-t sndfile も可)

Dialogic/OKI ADPCM 音声データのヘッダレスファイルであり、一般に拡張子 .vox 。 ADPCM データは 12 ビット精度がわずか 4 ビットに保持される。 A headerless file of Dialogic/OKI ADPCM audio data commonly comes with the extension .vox. This ADPCM data has 12-bit precision packed into only 4-bits.

注記:一部の初期の Dialogic ハードウェアでは、各 vox ファイルの開始の際に ADPCM エンコーダがリセットされないことがある。 これは、デコード時にクリッピングや DC オフセットの問題を生じさせる。 クリッピングに対してできることはあまりないが、 DC オフセットについては,デコードされた音声をハイパスフィルタに通せば除去できる。 例えば: Note: some early Dialogic hardware does not always reset the ADPCM encoder at the start of each vox file. This can result in clipping and/or DC offset problems when it comes to decoding the audio. Whilst little can be done about the clipping, a DC offset can be removed by passing the decoded audio through a high-pass filter, e.g.:

sox input.vox output.wav highpass 10
.w64 (オプション)

Sonic Foundry の 64-bit RIFF/WAV 形式。 Sonic Foundry’s 64-bit RIFF/WAV format.

.wav-t sndfile も可)

Microsoft .WAV RIFF ファイル。 これは Windows ネイティブのファイル形式であり、無圧縮音声に広く利用されている。 Microsoft .WAV RIFF files. This is the native audio file format of Windows, and widely used for uncompressed audio.

通常の .wav ファイルは すべての形式情報をヘッダに持つので、入力ファイルに形式オプションを指定する必要はない。 もし形式オプションがあればファイルヘッダより優先され,その旨の警告が発せられることになる。 何を行っているか知った上で行うこと。 出力形式オプションは形式変換をもたらし、 .wav は適切に書き出される。 Normally .wav files have all formatting information in their headers, and so do not need any format options specified for an input file. If any are, they will override the file header, and you will be warned to this effect. You had better know what you are doing! Output format options will cause a format conversion, and the .wav will written appropriately.

SoX はリニア PCM, 浮動小数点, μ-law, A-law, MS ADPCM, IMA (または DVI ) ADPCM の読み取りと書き出しを行える。 WAV ファイルは、他の多くの方式で符号化された音声を含み得る(現在の所 SoX ではサポートされない)。 例えば MP3 など。 場合によっては、その種のファイルでも,ファイルのタイプを上書きすれば 読み取れるようになる。 例えば: SoX can read and write linear PCM, floating point, μ-law, A-law, MS ADPCM, and IMA (or DVI) ADPCM. WAV files can also contain audio encoded in many other ways (not currently supported with SoX) e.g. MP3; in some cases such a file can still be read by SoX by overriding the file type, e.g.

   play -t mp3 mp3-encoded.wav

RIFX と呼ばれるビッグエンディアンバージョンの RIFF ファイルもサポートされる。 RIFX ファイルの書き出しには、出力ファイルオプションと伴に -B オプションを用いる。 Big endian versions of RIFF files, called RIFX, are also supported. To write a RIFX file, use the -B option with the output file options.

waveaudio (オプション)

MS-Windows ネイティブの音声デバイスドライバ。 例: MS-Windows native audio device driver. Examples:

sox infile -t waveaudio
sox infile -t waveaudio default
sox infile -t waveaudio 1
sox infile -t waveaudio "High Definition Audio Device ("

デバイス名が省略されている, あるいは -1, または default だった場合、 ‘Microsoft Wave Mapper’ デバイスになる。 Wave Mapper は ‘システム既定の音声デバイスの利用’ を意味する。 ‘default’ が意味するものは、OS のコントロールパネルから制御できる。 If the device name is omitted, -1, or default, then you get the ‘Microsoft Wave Mapper’ device. Wave Mapper means ‘use the system default audio devices’. You can control what ‘default’ means via the OS Control Panel.

与えられたデバイス名が他の何らかの番号の場合、音声デバイスはその番号のものになる。 したがって、デバイス名 0 による録音は 最初の入力デバイス(おそらくマイク入力), 1 は 2番目のデバイス(おそらくライン入力), 等々になる。 0 による再生は最初の出力デバイスになる(通常はただ1つの音声デバイス)。 If the device name given is some other number, you get that audio device by index; so recording with device name 0 would get the first input device (perhaps the microphone), 1 would get the second (perhaps line in), etc. Playback using 0 will get the first output device (usually the only audio device).

番号以外のデバイス名が与えられた場合、 SoX は利用可能なデバイスとの照合(最大 31 文字)を試みる。 If the device name given is something other than a number, SoX tries to match it (maximum 31 characters) against the names of the available devices.

play(1), rec(1), sox(1) -d も見よ。 See also play(1), rec(1), and sox(1) -d.

.wavpcm

非標準であるが広く利用されている .wav の変種。 一部のアプリケーションは、サンプルサイズが 16 ビットより大きいものやチャンネル数が2より多い PCM 符号化データの WAV ファイルからは 標準のヘッダを読み取れないが、非標準の WAV ヘッダは読み取れる。 その種のアプリケーションが標準のヘッダをサポートするようになることもあるが、当面の間はこの SoX 形式を,これらのアプリケーションでも扱える 非標準ヘッダを持つファイルの作成に利用できる。 ( SoX は 非標準ヘッダを持つ WAV ファイルの自動的な検出と読み取りを行えることに注意。) A non-standard, but widely used, variant of .wav. Some applications cannot read a standard WAV file header for PCM-encoded data with sample-size greater than 16-bits or with more than two channels, but can read a non-standard WAV header. It is likely that such applications will eventually be updated to support the standard header, but in the mean time, this SoX format can be used to create files with the non-standard header that should work with these applications. (Note that SoX will automatically detect and read WAV files with the non-standard header.)

このファイルタイプの最も一般的な利用は次のようなもになるだろう: The most common use of this file-type is likely to be along the following lines:

sox infile.any -t wavpcm -e signed-integer outfile.wav
.wv (オプション)

WavPack 可逆音声圧縮。 .wav をこの形式に変換したり元の形式に戻したりする場合、(音声は可逆であっても) RIFF ヘッダについては必ずしも可逆にならないことに注意。 WavPack lossless audio compression. Note that, when converting .wav to this format and back again, the RIFF header is not necessarily preserved losslessly (though the audio is).

.wve-t sndfile も可)

Psion 8 ビット A-law 。 Psion SIBO PDA (シリーズ 3 やその類似機種)で利用される。 この形式は SoX では廃止予定にあるが libsndfile での利用は継続される。 Psion 8-bit A-law. Used on Psion SIBO PDAs (Series 3 and similar). This format is deprecated in SoX, but will continue to be used in libsndfile.

.xa

Maxis XA ファイル。 Maxis のゲームで利用されている 16 ビット ADPCM 音声ファイルがある。 .xa ファイルの書き出しは現在サポートされていない。 サポート自体は難しいことではないが。 Maxis XA files. These are 16-bit ADPCM audio files used by Maxis games. Writing .xa files is currently not supported, although adding write support should not be very difficult.

.xi (オプション)

Fasttracker 2 Extended Instrument 形式。 Fasttracker 2 Extended Instrument format.

名前, 関連項目, 利用許諾, 著作者

【 soxformat の関連項目は SoX の当該章のサブセット(ただし、参照文献については本文内にリンク埋め込み)なので省略。 名前, 利用許諾, 著作者は SoX と同じなので省略。 】