You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
An officially supported task in the examples folder (such as GLUE/SQuAD, ...)
My own task or dataset (give details below)
Reproduction
Running the transformers pipeline for the original whisper-large-v3 model returns the correct timestamps of all chunks for files of any duration. For example, for a file with a duration of 33 seconds, the code below gives the following result:
{'text': ' Глаза Степана Аркадьевича весело заблестели, и он задумался, улыбаясь. Да, хорошо было, очень хорошо. Много еще что-то там было отличного. Да не скажешь словами, и мыслями даже наяву не выразишь. И, заметив полосу света, пробившую сбоку одной из суконных стор, он весело скинул ноги с дивана, отыскал ими, шитые женой, подарок о дню рождения в прошлом году, обделанный в золотистые Софьян туфли, и по старой девятилетней привычке, не вставая, потянулся рукой к тому месту, где в спальне у него висел халат. И тут он вспомнил вдруг, как и почему он спит не в спальне жены, а в кабинете. Улыбка исчезла с его лица, он сморщил лоб.', 'chunks': [{'timestamp': (0.0, 3.52), 'text': ' Глаза Степана Аркадьевича весело заблестели, и он задумался, улыбаясь.'}, {'timestamp': (3.66, 5.34), 'text': ' Да, хорошо было, очень хорошо.'}, {'timestamp': (5.9, 7.2), 'text': ' Много еще что-то там было отличного.'}, {'timestamp': (7.26, 9.56), 'text': ' Да не скажешь словами, и мыслями даже наяву не выразишь.'}, {'timestamp': (9.92, 13.4), 'text': ' И, заметив полосу света, пробившую сбоку одной из суконных стор,'}, {'timestamp': (13.72, 15.46), 'text': ' он весело скинул ноги с дивана,'}, {'timestamp': (15.54, 18.58), 'text': ' отыскал ими, шитые женой, подарок о дню рождения в прошлом году,'}, {'timestamp': (19.1, 20.82), 'text': ' обделанный в золотистые Софьян туфли,'}, {'timestamp': (21.02, 23.34), 'text': ' и по старой девятилетней привычке, не вставая,'}, {'timestamp': (23.68, 26.26), 'text': ' потянулся рукой к тому месту, где в спальне у него висел халат.'}, {'timestamp': (26.68, 30.0), 'text': ' И тут он вспомнил вдруг, как и почему он спит не в спальне жены, а в кабинете.'}, {'timestamp': (30.42, 32.52), 'text': ' Улыбка исчезла с его лица, он сморщил лоб.'}]}
The transcript contains None instead of the end timestamp for the last chunk, although there is no word cut off in the middle: Output
{'text': ' Глаза Степана Аркадьевича весело заблестели, и он задумался, улыбаясь. Да, хорошо было, очень хорошо. Много еще что-то там было отличного, да не скажешь словами и мыслями даже наяву не выразишь. И, заметив полосу света, пробившую сбоку одной из суконных стор, он весело скинул ноги с дивана, отыскал ими, шитые женой, подарок о дню рождения в прошлом году, обделанный в золотистые Софьян туфли, и по старой девятилетней привычке, не вставая, потянулся рукой к тому месту, где в спальне у него висел халат. И тут он вспомнил вдруг, как и почему он спит не в спальне жены, а в кабинете. Улыбка исчезла с его лица, он сморщил лоб.', 'chunks': [{'timestamp': (0.0, 9.56), 'text': ' Глаза Степана Аркадьевича весело заблестели, и он задумался, улыбаясь. Да, хорошо было, очень хорошо. Много еще что-то там было отличного, да не скажешь словами и мыслями даже наяву не выразишь.'}, {'timestamp': (9.92, None), 'text': ' И, заметив полосу света, пробившую сбоку одной из суконных стор, он весело скинул ноги с дивана, отыскал ими, шитые женой, подарок о дню рождения в прошлом году, обделанный в золотистые Софьян туфли, и по старой девятилетней привычке, не вставая, потянулся рукой к тому месту, где в спальне у него висел халат. И тут он вспомнил вдруг, как и почему он спит не в спальне жены, а в кабинете. Улыбка исчезла с его лица, он сморщил лоб.'}]}
In the case of files with a duration of less than 30 seconds, the ONNX model does not return timestamps at all:
{'text': ' Обдумал я все это и вроде бы даже облегчение почувствовал, что в зону мне сегодня идти не надо. Только как это все поделикатнее сообщить Кириллу?', 'chunks': [{'timestamp': (None, None), 'text': ' Обдумал я все это и вроде бы даже облегчение почувствовал, что в зону мне сегодня идти не надо. Только как это все поделикатнее сообщить Кириллу?'}]}
Expected:
{'text': ' обдумал я все это и вроде бы даже облегчение почувствовал, что в зону мне сегодня идти не надо. Только как это все поделикатнее сообщить Кириллу?', 'chunks': [{'timestamp': (0.0, 3.92), 'text': ' обдумал я все это и вроде бы даже облегчение почувствовал,'}, {'timestamp': (4.02, 6.54), 'text': ' что в зону мне сегодня идти не надо.'}, {'timestamp': (6.54, 9.86), 'text': ' Только как это все поделикатнее сообщить Кириллу?'}]}
So now there are 2 problems:
If the audio is less than 30 seconds, there are no timestamps at all.
If it is longer, then there are no timestamps for the last chunk.
System Info
Who can help?
@JingyaHuang @echarlaix @michaelbenayoun
Information
Tasks
examples
folder (such as GLUE/SQuAD, ...)Reproduction
Running the transformers pipeline for the original whisper-large-v3 model returns the correct timestamps of all chunks for files of any duration. For example, for a file with a duration of 33 seconds, the code below gives the following result:
Output
After converting to onnx using this command:
and running the equivalent code:
The transcript contains None instead of the end timestamp for the last chunk, although there is no word cut off in the middle:
Output
In the case of files with a duration of less than 30 seconds, the ONNX model does not return timestamps at all:
Expected:
So now there are 2 problems:
Audio files:
audio_files.zip
Expected behavior
The code which uses the ONNX model should work the same as the version using the pytorch model.
The text was updated successfully, but these errors were encountered: