Untitled

#!/usr/bin/python
# -*- coding: latin-1 -*-

import struct
import codecs

def readBits(bits, currentByte, bitCount, file):
  num = 0
  for i in range(0, bits):
    if bitCount > 7:
      currentByte = struct.unpack('B', file.read(1))[0]
      bitCount = 0

    newBit = (currentByte >> (7 - bitCount)) & 1
    bitCount += 1

    num = (num << 1) + newBit
  return num, currentByte, bitCount

def numberToLetter(num, spanish=False):
  if spanish:
    return {
      0x00: ' ',
      0x01: 'c', # c1 = HERO c2 = HEROINE
      0x02: 'A',
      0x03: 'B',
      0x04: 'C',
      0x05: 'D',
      0x06: 'E',
      0x07: 'F',
      0x08: 'G',
      0x09: 'H',
      0x0A: 'I',
      0x0B: 'J',
      0x0C: 'K',
      0x0D: 'L',
      0x0E: 'M',
      0x0F: 'N',
      0x10: 'O',
      0x11: 'P',
      0x12: 'Q',
      0x13: 'R',
      0x14: 'S',
      0x15: 'T',
      0x16: 'U',
      0x17: 'V',
      0x18: 'W',
      0x19: 'X',
      0x1A: 'Y',
      0x1B: 'Z',
      0x1C: '?',
      0x1D: '0',
      0x1E: '1',
      0x1F: '2',
      0x20: '3',
      0x21: '4',
      0x22: '5',
      0x23: '6',
      0x24: '7',
      0x25: '8',
      0x26: '9',
      0x27: '!',
      0x28: ',',
      0x29: '.',
      0x2A: "'",
      0x2B: 'b', #clear box
      0x2C: 'c', #carriage return
      0x2D: 'd', #string end
      0x2E: 'e', #todo
      0x2F: unichr(0x00C4), #Ä
      0x30: unichr(0x00DA), #Ú
      0x31: unichr(0x00D3), #Ó
      0x32: unichr(0x00CD), #Í
      0x33: '-',
      0x34: unichr(0x00C9), #É
      0x35: unichr(0x00D1), #Ñ
      0x36: unichr(0x00C1), #Á
      0x37: unichr(0x00D6), #Ö
      0x38: unichr(0x00DC), #Ü
      0x39: unichr(0x00CA), #Ê
      0x3A: unichr(0x00BF), #¿
      0x3B: unichr(0x00A1), #¡
      }.get(num, '?')

  return {
    0x00: ' ',
    0x01: 'c', # c1 = HERO c2 = HEROINE
    0x02: 'A',
    0x03: 'B',
    0x04: 'C',
    0x05: 'D',
    0x06: 'E',
    0x07: 'F',
    0x08: 'G',
    0x09: 'H',
    0x0A: 'I',
    0x0B: 'J',
    0x0C: 'K',
    0x0D: 'L',
    0x0E: 'M',
    0x0F: 'N',
    0x10: 'O',
    0x11: 'P',
    0x12: 'Q',
    0x13: 'R',
    0x14: 'S',
    0x15: 'T',
    0x16: 'U',
    0x17: 'V',
    0x18: 'W',
    0x19: 'X',
    0x1A: 'Y',
    0x1B: 'Z',
    0x1C: '?',
    0x1D: '0',
    0x1E: '1',
    0x1F: '2',
    0x20: '3',
    0x21: '4',
    0x22: '5',
    0x23: '6',
    0x24: '7',
    0x25: '8',
    0x26: '9',
    0x27: '!',
    0x28: ',',
    0x29: '.',
    0x2A: "'",
    0x2B: 'b', #clear box
    0x2C: 'c', #carriage return
    0x2D: 'd', #string end
    0x2E: 'e', #todo
    0x2F: unichr(0x00C4), #Ä
    0x30: unichr(0x00C8), #È for Spanish 0x00DA Ú
    0x31: unichr(0x00C2), #Â for Spanish 0x00D3 Ó
    0x32: unichr(0x00DF), #ß for Spanish 0x00CD Í
    0x33: '-',
    0x34: unichr(0x00C9), #É
    0x35: unichr(0x00D1), #Ñ
    0x36: unichr(0x00C0), #À for Spanish 0x00C1 Á
    0x37: unichr(0x00D6), #Ö
    0x38: unichr(0x00DC), #Ü
    0x39: unichr(0x00CA), #Ê
    0x3A: unichr(0x00BF), #¿
    0x3B: unichr(0x00A1), #¡
    }.get(num, '?')

def dumpTable(num, infile, outfile):
  if num > 3:
    bank = 0xC
  else:
    bank = 0x3

  infile.seek(0xC026 + 2*num)
  pointer = struct.unpack('H', infile.read(2))[0]
  infile.seek(pointer + 0x4000 * (bank - 1))

  currentByte = 0
  bitCount = 8

  for i in range(0, 256):
    wordLength, currentByte, bitCount = readBits(5, currentByte, bitCount, infile)
    word = ""
    for j in range(0, wordLength):
      letter, currentByte, bitCount = readBits(6, currentByte, bitCount, infile)
      word += numberToLetter(letter, (num == 4))

    outfile.write(word.encode('UTF-8') + "\n")

#main
with open("rom.gb", "rb") as rom:
  for i in range(0, 5):
    with open("table"+str(i)+".txt", "wb") as words:
      dumpTable(i, rom, words)

words = []
for i in range(0,5):
  with codecs.open("table"+str(i)+".txt", "r", 'utf-8') as f:
    words.append(f.readlines())

with open("rom.gb", "rb") as rom:
  for lang in range(0, 5):
    with codecs.open("strings"+str(lang)+".txt", "wb", 'utf-8') as out:
      for i in range(0, 139):
    rom.seek(0x2C000 + i * 5 * 2 + lang * 2)
    pointer = struct.unpack('H', rom.read(2))[0]
    if lang < 2:
      bank = 0x0B
    elif lang < 3:
      bank = 0x0D
    else:
      bank = 0x0C
    rom.seek(pointer + 0x4000 * (bank - 1))

    currentByte = 0
    bitCount = 8
    currentLetter = 0x00
    bit = 0
    sentence = ""

    while True:
      bit, currentByte, bitCount = readBits(1, currentByte, bitCount, rom)
      if bit == 0:
        currentLetter, currentByte, bitCount = readBits(6, currentByte, bitCount, rom)
        if currentLetter == 0x2D:
          break

        sentence += numberToLetter(currentLetter, (lang == 4))
      else:
        currentLetter, currentByte, bitCount = readBits(8, currentByte, bitCount, rom)
        sentence += words[lang][currentLetter][:-1]

    out.write(sentence + "\n")