Google Deepmind Cloud Text-to-Speech чете текстове с почти nat; истински звук

С невронните мрежи вече е възможно да имате часове за четене с естествен звук. Екипът на Google Deepmind разработи алгоритъм за преобразуване на текст в реч, който разработчиците могат лесно да включат в своите проекти - включително 32 гласа на много езици като английски, немски и японски.

Google представи своята услуга за преобразуване на текст в реч в облак в бета версия. Тази система е предназначена да конвертира писмени текстове в език, който звучи възможно най-естествено. За целта Google използва Deepmind, отдел, който се занимава с невронни мрежи за различни задачи - в допълнение към Go games и Starcraft 2, също говорещи текстове.

Разработчиците трябва да могат да използват Cloud Text-to-Speech за собствени проекти. За тази цел Google предоставя интерфейс за програмиране (API), който може да получи и адресира предварително обучени модели от облака. Компанията използва технологията Wavenet, за да генерира реч, която звучи възможно най-естествено. Това е невронна мрежа, която генерира аудио сигнали от различни неврони. В момента това е достъпно само за гласове в САЩ.

Видео: Google TTS изпробва [1:26]

Повечето гласове на английски

Услугата работи на мобилни устройства като смартфони и на персонални компютри, високоговорители и телевизори. В момента предлага и избор от 30 различни гласа. Голяма част от него обаче е свързана с британски или американски английски. Друг диалект на САЩ също може да се използва със самия Wavenet. Разликата е незначителна. На немски, от друга страна, има само два гласа без подкрепа на Wavenet: един женски и един мъжки. Забавен страничен ефект: Четенето на английски текстове с немски глас работи с типично немски звучащ акцент. Други езици включват испански, португалски, френски, турски и японски. Качеството може да бъде изпробвано в уеб инструмент с тестови текстове.

В допълнение към избора на глас могат да се променят и други параметри. Потребителите могат да регулират височината и скоростта на речта. И двата контрола също така фалшифицират гласовия звук, така че например бързо говорещият четец звучи по-скоро като компютър. Изходните текстове на JSON също могат да се показват в уеб инструмента, така че разработчиците да могат лесно да интегрират текстове в своите приложения. Текстовете могат да бъдат експортирани в различни аудио файлове като MP3, Linear16 и Ogg Opus. Предоставя се и SSML поддръжка. В допълнение, интонацията и паузите по време на говорене могат да се регулират ръчно с помощта на тагове.

Cloud Text-to-Speech може да бъде тестван безплатно. Това обаче изисква акаунт в Google и членство в Google Cloud Platform, които също могат да бъдат тествани в продължение на дванадесет месеца с кредит от 300 щатски долара.