יום שישי, 24 באפריל 2015

קידוד קובץ טקסט (למשל כתוביות) בעברית מ-Windows-1255 ל- UTF-8

לפעמים אנו נתקלים בקובץ כתוביות בעברית (srt) שמוצג כג'יבריש בעת הצפיה בסרט.
בדרך זה קורה בגלל שמי שיצר את הקובץ שמר אותו בקידוד של חלונות (windows-1255) ולא בקידוד אוניברסאלי כגון utf-8.
התיקון מאוד פשוט ומתבצע בעזרת הפקודה הזו מהטרמינל:

iconv -f WINDOWS-1255 -t UTF-8 [filename] > [newfilename]

הסבר:
  • הפקודה היא iconv אשר מקבלת 4 פרמטרים:
    • סוג  הקידוד בו נמצא הקובץ אותו רוצים להמיר - windows-1255
    • סוג  הקידוד אליו רוצים לקודד - utf-8
    • שם הקובץ אותו רוצים להמיר - ללא סוגריים מרובעים.
    • שם הקובץ החדש - ללא סוגריים מרובעים.
  • דגש - השם החדש חייב להיות שונה משם הקובץ הקיים, כיוון שהקובץ הקיים יהרס.
  • את הפקודה צריך להריץ באותה תיקיה בה נמצא קובץ הכתוביות. כדי לעבור לתיקייה זו נשתמש  בפקודה CD.
  • דוגמא:
cd /home/myuser/Videos/

iconv -f WINDOWS-1255 -t UTF-8 bond.srt > bond_utf-8.srt

אין תגובות:

הוסף רשומת תגובה