Thursday, July 18, 2013

Hebrew encoding

Fix encoding

node-iconv -t UTF-8 -f ISO-8859-8 in.srt > out.srt

Here are some guidelines to choose the from (-f) encoding 



בשלוש הדוגמאות האלו רואים עברית הפוכה. שימו לב שבדוגמה הראשונה סימן הקריאה הוא בצד ימין ובשתי הדוגמאות האחרונות הוא בצד שמאל. 
 זה קידוד CP-1255 הוצג כ- ISO-8859-8 
 זה ISO-8859-8 הוצג כ- CP-1255 
 זה ISO-8859-8 הוצג כ- MacHebrew 
בעית קידוד נוספת שגורמת לתופעה דומה היא ציון ISO-8859-8 במקום ISO-8859-8-I או להפך. אז תבדקו גם את האפשרות הזאת.

ארבע הדוגמות הבאות כוללות ביתים שגויים, לכן הופעת סימן היהלום. שימו לב שרק בדוגמה האחרונה מופיע סימן הקריאה בצד שמאל. 
 זה UTF-8 הוצג כ- CP-1255 
 זה UTF-8 הוצג כ- ISO-8859-8 
 זה CP-1255 הוצג כ- UTF-8 
 זה ISO-8859-8 הוצג כ- UTF-8

המצב הזה קל לזיהוי בגלל הצלבים המפרידים בין סימן לסימן. 
 זה UTF-8 הוצג כ- ISO-8859-1

הכתב ה"שבדי" הוא תוצאה של הצגת קידודים אחרים בתור קידוד לטיני: 
 זה CP-1255 הוצג כ- ISO-8859-1 
 זה ISO-8859-8 הוצג כ- ISO-8859-1

מצב זה הוא די נדיר. כאן רואים קידודים שונים המוצגים כקידוד של י.ב.מ.
 זה CP-1255 הוצג כ- IBM-862 
 זה ISO-8859-8 הוצג כ- IBM-862

שני מצבים אלו גם כן נדירים. שניהם נגרמים כתוצאה מהצגת UTF-8 בתור קידודים שונים. 
 זה UTF-8 הוצג כ- IBM-862 
 זה UTF-8 הוצג כ- MacHebrew



No comments: