mpegts: ARIB STD-B24 メタデータテキストのデコード #1

aimoff · 2022-04-09T17:36:08Z

aimoff
Apr 9, 2022
Maintainer

Opippi さんの FFmpeg でも ARIB STD-B24 メタデータテキスト → UTF-8 コンバートをしているが、専用のルーチンを使っていて upstream には取り込みづらい。
こちらの isdb/5.0 ブランチのコミットでは既存の getstr8() を拡張する形でなんとか互換を持たせようとしている。
（いずれにしても gconv-module-aribb24 は必要になるが…）

英数字やカタカナ等で始まる文字列であれば code set の切り替え文字が最初に来るので DVB との互換を保ちながらも自動認識できる。
ffprobe で表示される service_name で「TBS」や「テレビ朝日」等ならば自動認識で文字化けせずに出力される。
問題は「日テレ」のように漢字で始まる文字列で、これは自動認識できずに文字化けする。
※ 諸悪の根源は初期状態を漢字と定義した ARIB STD-B24 か。初期状態が英数字だったら ISO-2022-JP と同様に扱えるのに…

これをなんとかするために以下の２つの手を用意。

precede_arib というオプションを追加して、これを指定した場合には ARIB STD-B24 と仮定する。
ffprobe -precede_arib true ならば「日テレ」に見える
メタデータテキストの言語 (ISO_639_language_code) が指定されている場合は "jpn" であれば ARIB STD-B24 と仮定する。
プログラムのタイトルが入っている EIT short event descriptor は precede_arib 指定なしでもこのやり方で自動認識できる。

getstr8() の引数が 2 つも増えるので美しくはないが、このやり方でどうだろうか？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

mpegts: ARIB STD-B24 メタデータテキストのデコード #1

{{title}}

Replies: 0 comments

Select a reply

mpegts: ARIB STD-B24 メタデータテキストのデコード #1

aimoff Apr 9, 2022 Maintainer

Replies: 0 comments

aimoff
Apr 9, 2022
Maintainer