英文单词朗读基于音素预估时长的JS算法-工具盒子

音频波形封面占位图

本文属于工作技术实践经验分享。

一、先说下需求背景

目前TTS语音合成技术非常成熟，再配合一些静态图片，就能轻松合成一个MP4视频。

但有个问题，字幕。

为了节约成本，一个TTS语音包含的文字往往会有上百字，不可能全部一股脑作为字幕显示，需要进行分词，有一种简单的分词方法就是在逗号等标点位置进行分割。

如下图所示：

TTS语音分词

然后播放到对应时间，显示对应的字幕，就像下面这样：

分词与字幕

有的TTS语音供应商会返回每个分词的播放时间（见下图字段截图示意），例如字节的，这个就很方便，可以让我们精准控制语音和字幕的匹配时机。

分词时长占据示意

但有的TTS语音合成供应商只有一个总时长，没有分词时间，例如微软，这个就需要我们额外处理。

如果是中文还好，可以按照字数来处理，因为每个中文都会发音，最终的结果大差不差，用户通常无感知。

但是最近公司的海外平台也需要接入视频生成，用来投放引流，之前的算法就遇到了问题。

因为英文和中文不同，很多字母是不会发音的，或者连续几个字母只发一个音，此时，再根据字符数机械地处理，很容易会遇到视频发音和字幕不同步的问题。

英文分词字幕示意

所以，就需要额外的更精准的算法，在业界，称为"音素算法"。

二、音素算法与音频时长预估

开门见山，直接上JS代码：

// s 参数指英文单词
function getPhonemeCount(s) {
    let totalSyllables = 0;
`// qu to tq
s = s.replace(/qu/g, 'qw');

// replace endings
s = s.replace(/(es$)|(que$)|(gue$)/g, '');

s = s.replace(/^re/, 'ren');
s = s.replace(/^gua/, 'ga');
s = s.replace(/([aeiou])(l+e$)/g, '$1');
let syllables = (s.match(/([bcdfghjklmnpqrstvwxyz])(l+e$)/g) || []).length;
totalSyllables += syllables;
s = s.replace(/([bcdfghjklmnpqrstvwxyz])(l+e$)/g, '$1');

s = s.replace(/([aeiou])(ed$)/g, '$1');
syllables = (s.match(/([bcdfghjklmnpqrstvwxyz])(ed$)/g) || []).length;
totalSyllables += syllables;
s = s.replace(/([bcdfghjklmnpqrstvwxyz])(ed$)/g, '$1');

const endsp = /(ly$)|(ful$)|(ness$)|(ing$)|(est$)|(er$)|(ent$)|(ence$)/g;
syllables = (s.match(endsp) || []).length;
totalSyllables += syllables;
s = s.replace(endsp, '');

syllables = (s.match(endsp) || []).length;
totalSyllables += syllables;
s = s.replace(endsp, '');

s = s.replace(/(^y)([aeiou][aeiou]*)/, '$2');
s = s.replace(/([aeiou])(y)/g, '$1t');
s = s.replace(/aa+/g, 'a');
s = s.replace(/ee+/g, 'e');
s = s.replace(/ii+/g, 'i');
s = s.replace(/oo+/g, 'o');
s = s.replace(/uu+/g, 'u');

// Dipthongs
const dipthongs = /(eau)|(iou)|(are)|(ai)|(au)|(ea)|(ei)|(eu)|(ie)|(io)|(oa)|(oe)|(oi)|(ou)|(ue)|(ui)/g;
syllables = (s.match(dipthongs) || []).length;
totalSyllables += syllables;
s = s.replace(dipthongs, '');

// Remove silent 'e' if length is greater than 3
if (s.length &gt; 3) {
    s = s.replace(/([bcdfghjklmnpqrstvwxyz])(e$)/g, '$1');
}

// Count vowels
syllables = (s.match(/[aeiouy]/g) || []).length;
totalSyllables += syllables;

return totalSyllables;
`
}

这段代码参考后端同事那里的Python算法代码，我改成了JavaScript版本，所以，原出处是哪里，我也不清楚哈。

如何使用？

使用的时候非常简单，假设音频时长是ttsTime，文本内容是textContent，则下面的代码可以返回所有单词的音素总数：

function splitSentenceIntoWords(sentence) {
    return sentence.match(/\b\w+\b/g) || [];
}
// 计算音素数量
let allPhonemeCount = 0;
const words = splitSentenceIntoWords(textContent);
// 累加count
for (const word of words) {
    allPhonemeCount += getPhonemeCount(word);
}
// allPhonemeCount 就是音素总数

此时，每个单词占据的播放时长，就可以根据音素数量的比例进行精准分配了。

有对应的演示页面，您可以狠狠地点击这里：英文语音基于音素估算字幕时间demo

点击音频播放按钮，可以感受下声音和最下面的字幕是否同步。

播放与字幕时长控制