INVENTORY = """\
1997,van,Ford,E350
2000,car,Mercury,Cougar
1999,car,Chevy,Venture\
"""


print(process_inventory(INVENTORY))

We have a Ford E350 van from 1997 vintage.
It is an old but reliable model!
We have a Mercury Cougar car from 2000 vintage.
It is an old but reliable model!
We have a Chevy Venture car from 1999 vintage.
It is an old but reliable model!


VEHICLES = INVENTORY.split('\n')


INVENTORY_METHODS = {
    'process_inventory',
    'process_vehicle',
    'process_van',
    'process_car'}


class Tracer(Coverage):
    def traceit(self, frame, event, arg):
        method_name = inspect.getframeinfo(frame).function
        if method_name not in INVENTORY_METHODS:
            return
        file_name = inspect.getframeinfo(frame).filename

        param_names = inspect.getargvalues(frame).args
        lineno = inspect.getframeinfo(frame).lineno
        local_vars = inspect.getargvalues(frame).locals
        print(event, file_name, lineno, method_name, param_names, local_vars)
        return self.traceit


with Tracer() as tracer:
    process_vehicle(VEHICLES[0])

call Parser.ipynb 29 process_vehicle ['vehicle'] {'vehicle': '1997,van,Ford,E350'}
line Parser.ipynb 30 process_vehicle ['vehicle'] {'vehicle': '1997,van,Ford,E350'}
line Parser.ipynb 31 process_vehicle ['vehicle'] {'vehicle': '1997,van,Ford,E350', 'year': '1997', 'kind': 'van', 'company': 'Ford', 'model': 'E350', '_': []}
line Parser.ipynb 32 process_vehicle ['vehicle'] {'vehicle': '1997,van,Ford,E350', 'year': '1997', 'kind': 'van', 'company': 'Ford', 'model': 'E350', '_': []}
call Parser.ipynb 40 process_van ['year', 'company', 'model'] {'year': '1997', 'company': 'Ford', 'model': 'E350'}
line Parser.ipynb 40 process_van ['year', 'company', 'model'] {'year': '1997', 'company': 'Ford', 'model': 'E350'}
line Parser.ipynb 41 process_van ['year', 'company', 'model'] {'year': '1997', 'company': 'Ford', 'model': 'E350'}
line Parser.ipynb 42 process_van ['year', 'company', 'model'] {'year': '1997', 'company': 'Ford', 'model': 'E350', 'res': ['We have a Ford E350 van from 1997 vintage.']}
line Parser.ipynb 43 process_van ['year', 'company', 'model'] {'year': '1997', 'company': 'Ford', 'model': 'E350', 'res': ['We have a Ford E350 van from 1997 vintage.'], 'iyear': 1997}
line Parser.ipynb 46 process_van ['year', 'company', 'model'] {'year': '1997', 'company': 'Ford', 'model': 'E350', 'res': ['We have a Ford E350 van from 1997 vintage.'], 'iyear': 1997}
line Parser.ipynb 47 process_van ['year', 'company', 'model'] {'year': '1997', 'company': 'Ford', 'model': 'E350', 'res': ['We have a Ford E350 van from 1997 vintage.', 'It is an old but reliable model!'], 'iyear': 1997}
return Parser.ipynb 47 process_van ['year', 'company', 'model'] {'year': '1997', 'company': 'Ford', 'model': 'E350', 'res': ['We have a Ford E350 van from 1997 vintage.', 'It is an old but reliable model!'], 'iyear': 1997}
return Parser.ipynb 32 process_vehicle ['vehicle'] {'vehicle': '1997,van,Ford,E350', 'year': '1997', 'kind': 'van', 'company': 'Ford', 'model': 'E350', '_': []}


class Context:
    def __init__(self, frame, track_caller=True):
        self.method = inspect.getframeinfo(frame).function
        self.parameter_names = inspect.getargvalues(frame).args
        self.file_name = inspect.getframeinfo(frame).filename
        self.line_no = inspect.getframeinfo(frame).lineno

    def _t(self):
        return (self.file_name, self.line_no, self.method,
                ','.join(self.parameter_names))

    def __repr__(self):
        return "%s:%d:%s(%s)" % self._t()


class Context(Context):
    def extract_vars(self, frame):
        return inspect.getargvalues(frame).locals

    def parameters(self, all_vars):
        return {k: v for k, v in all_vars.items() if k in self.parameter_names}

    def qualified(self, all_vars):
        return {"%s:%s" % (self.method, k): v for k, v in all_vars.items()}


def log_event(event, var):
    print({'call': '->', 'return': '<-'}.get(event, '  '), var)


class Tracer(Tracer):
    def traceit(self, frame, event, arg):
        log_event(event, Context(frame))
        return self.traceit


with Tracer() as tracer:
    process_vehicle(VEHICLES[0])

-> Parser.ipynb:29:process_vehicle(vehicle)
   Parser.ipynb:30:process_vehicle(vehicle)
   Parser.ipynb:31:process_vehicle(vehicle)
   Parser.ipynb:32:process_vehicle(vehicle)
-> Parser.ipynb:40:process_van(year,company,model)
   Parser.ipynb:40:process_van(year,company,model)
   Parser.ipynb:41:process_van(year,company,model)
   Parser.ipynb:42:process_van(year,company,model)
   Parser.ipynb:43:process_van(year,company,model)
   Parser.ipynb:46:process_van(year,company,model)
   Parser.ipynb:47:process_van(year,company,model)
<- Parser.ipynb:47:process_van(year,company,model)
<- Parser.ipynb:32:process_vehicle(vehicle)
-> Coverage.ipynb:102:__exit__(self,exc_type,exc_value,tb)
   Coverage.ipynb:105:__exit__(self,exc_type,exc_value,tb)


class Tracer(Tracer):
    def __init__(self, my_input, **kwargs):
        self.options(kwargs)
        self.my_input, self.trace = my_input, []


class Tracer(Tracer):
    def options(self, kwargs):
        self.files = kwargs.get('files', [])
        self.methods = kwargs.get('methods', [])
        self.log = log_event if kwargs.get('log') else lambda _evt, _var: None


class Tracer(Tracer):
    def tracing_context(self, cxt, event, arg):
        fres = not self.files or any(
            cxt.file_name.endswith(f) for f in self.files)
        mres = not self.methods or any(cxt.method == m for m in self.methods)
        return fres and mres


class Tracer(Tracer):
    def tracing_var(self, k, v):
        return isinstance(v, str)


class Tracer(Tracer):
    def on_event(self, event, arg, cxt, my_vars):
        self.trace.append((event, arg, cxt, my_vars))
        
    def create_context(self, frame):
        return Context(frame)

    def traceit(self, frame, event, arg):
        cxt = self.create_context(frame)
        if not self.tracing_context(cxt, event, arg):
            return self.traceit
        self.log(event, cxt)

        my_vars = {
            k: v
            for k, v in cxt.extract_vars(frame).items()
            if self.tracing_var(k, v)
        }
        self.on_event(event, arg, cxt, my_vars)
        return self.traceit


with Tracer(VEHICLES[0], methods=INVENTORY_METHODS, log=True) as tracer:
    process_vehicle(VEHICLES[0])

-> Parser.ipynb:29:process_vehicle(vehicle)
   Parser.ipynb:30:process_vehicle(vehicle)
   Parser.ipynb:31:process_vehicle(vehicle)
   Parser.ipynb:32:process_vehicle(vehicle)
-> Parser.ipynb:40:process_van(year,company,model)
   Parser.ipynb:40:process_van(year,company,model)
   Parser.ipynb:41:process_van(year,company,model)
   Parser.ipynb:42:process_van(year,company,model)
   Parser.ipynb:43:process_van(year,company,model)
   Parser.ipynb:46:process_van(year,company,model)
   Parser.ipynb:47:process_van(year,company,model)
<- Parser.ipynb:47:process_van(year,company,model)
<- Parser.ipynb:32:process_vehicle(vehicle)


for t in tracer.trace:
    print(t[0], t[2].method, dict(t[3]))

call process_vehicle {'vehicle': '1997,van,Ford,E350'}
line process_vehicle {'vehicle': '1997,van,Ford,E350'}
line process_vehicle {'vehicle': '1997,van,Ford,E350', 'year': '1997', 'kind': 'van', 'company': 'Ford', 'model': 'E350'}
line process_vehicle {'vehicle': '1997,van,Ford,E350', 'year': '1997', 'kind': 'van', 'company': 'Ford', 'model': 'E350'}
call process_van {'year': '1997', 'company': 'Ford', 'model': 'E350'}
line process_van {'year': '1997', 'company': 'Ford', 'model': 'E350'}
line process_van {'year': '1997', 'company': 'Ford', 'model': 'E350'}
line process_van {'year': '1997', 'company': 'Ford', 'model': 'E350'}
line process_van {'year': '1997', 'company': 'Ford', 'model': 'E350'}
line process_van {'year': '1997', 'company': 'Ford', 'model': 'E350'}
line process_van {'year': '1997', 'company': 'Ford', 'model': 'E350'}
return process_van {'year': '1997', 'company': 'Ford', 'model': 'E350'}
return process_vehicle {'vehicle': '1997,van,Ford,E350', 'year': '1997', 'kind': 'van', 'company': 'Ford', 'model': 'E350'}


with Tracer(VEHICLES[0], methods=INVENTORY_METHODS, log=True) as tracer:
    process_vehicle(tracer.my_input)

-> Parser.ipynb:29:process_vehicle(vehicle)
   Parser.ipynb:30:process_vehicle(vehicle)
   Parser.ipynb:31:process_vehicle(vehicle)
   Parser.ipynb:32:process_vehicle(vehicle)
-> Parser.ipynb:40:process_van(year,company,model)
   Parser.ipynb:40:process_van(year,company,model)
   Parser.ipynb:41:process_van(year,company,model)
   Parser.ipynb:42:process_van(year,company,model)
   Parser.ipynb:43:process_van(year,company,model)
   Parser.ipynb:46:process_van(year,company,model)
   Parser.ipynb:47:process_van(year,company,model)
<- Parser.ipynb:47:process_van(year,company,model)
<- Parser.ipynb:32:process_vehicle(vehicle)


class DefineTracker:
    def __init__(self, my_input, trace, **kwargs):
        self.options(kwargs)
        self.my_input = my_input
        self.trace = trace
        self.my_assignments = {}
        self.process()


FRAGMENT_LEN = 3


class DefineTracker(DefineTracker):
    def options(self, kwargs):
        self.log = log_event if kwargs.get('log') else lambda _evt, _var: None
        self.fragment_len = kwargs.get('fragment_len', FRAGMENT_LEN)


class DefineTracker(DefineTracker):
    def is_input_fragment(self, var, value):
        return len(value) >= self.fragment_len and value in self.my_input


class DefineTracker(DefineTracker):
    def fragments(self, variables):
        return {k: v for k, v in variables.items(
        ) if self.is_input_fragment(k, v)}


class DefineTracker(DefineTracker):
    def track_event(self, event, arg, cxt, my_vars):
        self.log(event, (cxt.method, my_vars))
        self.my_assignments.update(self.fragments(my_vars))

    def process(self):
        for event, arg, cxt, my_vars in self.trace:
            self.track_event(event, arg, cxt, my_vars)


tracker = DefineTracker(tracer.my_input, tracer.trace, fragment_len=5)
for k, v in tracker.my_assignments.items():
    print(k, '=', repr(v))

vehicle = '1997,van,Ford,E350'


tracker = DefineTracker(tracer.my_input, tracer.trace)
for k, v in tracker.my_assignments.items():
    print(k, '=', repr(v))

vehicle = '1997,van,Ford,E350'
year = '1997'
kind = 'van'
company = 'Ford'
model = 'E350'


class DefineTracker(DefineTracker):
    def assignments(self):
        return self.my_assignments.items()

"1997,van,Ford,E350"


derivation_tree: DerivationTree = (START_SYMBOL, [("1997,van,Ford,E350", [])])


display_tree(derivation_tree)

vehicle = "1997,van,Ford,E350"


derivation_tree: DerivationTree = (START_SYMBOL, 
                                   [('<vehicle>', [("1997,van,Ford,E350", [])],
                                                   [])])


display_tree(derivation_tree)

year = '1997'


derivation_tree: DerivationTree = (START_SYMBOL, 
                                   [('<vehicle>', [('<year>', [('1997', [])]),
                                                   (",van,Ford,E350", [])], [])])


display_tree(derivation_tree)

company = 'Ford'


derivation_tree: DerivationTree = (START_SYMBOL, 
                                   [('<vehicle>', [('<year>', [('1997', [])]),
                                                   (",van,", []),
                                                   ('<company>', [('Ford', [])]),
                                                   (",E350", [])], [])])


display_tree(derivation_tree)

kind = 'van'


derivation_tree: DerivationTree = (START_SYMBOL, 
                                   [('<vehicle>', [('<year>', [('1997', [])]),
                                                   (",", []),
                                                   ("<kind>", [('van', [])]),
                                                   (",", []),
                                                   ('<company>', [('Ford', [])]),
                                                   (",", []),
                                                   ("<model>", [('E350', [])])
                                                   ], [])])


display_tree(derivation_tree)


class TreeMiner:
    def __init__(self, my_input, my_assignments, **kwargs):
        self.options(kwargs)
        self.my_input = my_input
        self.my_assignments = my_assignments
        self.tree = self.get_derivation_tree()

    def options(self, kwargs):
        self.log = log_call if kwargs.get('log') else lambda _i, _v: None

    def get_derivation_tree(self):
        return (START_SYMBOL, [])


def log_call(indent, var):
    print('\t' * indent, var)


def to_nonterminal(var):
    return "<" + var.lower() + ">"


class TreeMiner(TreeMiner):
    def string_part_of_value(self, part, value):
        return (part in value)


class TreeMiner(TreeMiner):
    def partition(self, part, value):
        return value.partition(part)


class TreeMiner(TreeMiner):
    def partition_by_part(self, pair, value):
        k, part = pair
        prefix_k_suffix = [
                    (k, [[part, []]]) if i == 1 else (e, [])
                    for i, e in enumerate(self.partition(part, value))
                    if e]
        return prefix_k_suffix


class TreeMiner(TreeMiner):
    def insert_into_tree(self, my_tree, pair):
        var, values = my_tree
        k, v = pair
        self.log(1, "- Node: %s\t\t? (%s:%s)" % (var, k, repr(v)))
        applied = False
        for i, value_ in enumerate(values):
            value, arr = value_
            self.log(2, "-> [%d] %s" % (i, repr(value)))
            if is_nonterminal(value):
                applied = self.insert_into_tree(value_, pair)
                if applied:
                    break
            elif self.string_part_of_value(v, value):
                prefix_k_suffix = self.partition_by_part(pair, value)
                del values[i]
                for j, rep in enumerate(prefix_k_suffix):
                    values.insert(j + i, rep)
                applied = True

                self.log(2, " > %s" % (repr([i[0] for i in prefix_k_suffix])))
                break
            else:
                continue
        return applied


tree: DerivationTree = (START_SYMBOL, [("1997,van,Ford,E350", [])])
m = TreeMiner('', {}, log=True)


display_tree(tree)


v = m.insert_into_tree(tree, ('<vehicle>', "1997,van,Ford,E350"))

	 - Node: <start>		? (<vehicle>:'1997,van,Ford,E350')
		 -> [0] '1997,van,Ford,E350'
		  > ['<vehicle>']


display_tree(tree)


v = m.insert_into_tree(tree, ('<model>', 'E350'))

	 - Node: <start>		? (<model>:'E350')
		 -> [0] '<vehicle>'
	 - Node: <vehicle>		? (<model>:'E350')
		 -> [0] '1997,van,Ford,E350'
		  > ['1997,van,Ford,', '<model>']


display_tree((tree))


v = m.insert_into_tree(tree, ('<company>', 'Ford'))

	 - Node: <start>		? (<company>:'Ford')
		 -> [0] '<vehicle>'
	 - Node: <vehicle>		? (<company>:'Ford')
		 -> [0] '1997,van,Ford,'
		  > ['1997,van,', '<company>', ',']


display_tree(tree)


v = m.insert_into_tree(tree, ('<kind>', 'van'))

	 - Node: <start>		? (<kind>:'van')
		 -> [0] '<vehicle>'
	 - Node: <vehicle>		? (<kind>:'van')
		 -> [0] '1997,van,'
		  > ['1997,', '<kind>', ',']


display_tree(tree)


v = m.insert_into_tree(tree, ('<year>', '1997'))

	 - Node: <start>		? (<year>:'1997')
		 -> [0] '<vehicle>'
	 - Node: <vehicle>		? (<year>:'1997')
		 -> [0] '1997,'
		  > ['<year>', ',']


display_tree(tree)


class TreeMiner(TreeMiner):
    def nt_var(self, var):
        return var if is_nonterminal(var) else to_nonterminal(var)


class TreeMiner(TreeMiner):
    def apply_new_definition(self, tree, var, value):
        nt_var = self.nt_var(var)
        return self.insert_into_tree(tree, (nt_var, value))


class TreeMiner(TreeMiner):
    def get_derivation_tree(self):
        tree = (START_SYMBOL, [(self.my_input, [])])

        for var, value in self.my_assignments:
            self.log(0, "%s=%s" % (var, repr(value)))
            self.apply_new_definition(tree, var, value)
        return tree


with Tracer(VEHICLES[0]) as tracer:
    process_vehicle(tracer.my_input)
assignments = DefineTracker(tracer.my_input, tracer.trace).assignments()
dt = TreeMiner(tracer.my_input, assignments, log=True)
dt.tree

 vehicle='1997,van,Ford,E350'
	 - Node: <start>		? (<vehicle>:'1997,van,Ford,E350')
		 -> [0] '1997,van,Ford,E350'
		  > ['<vehicle>']
 year='1997'
	 - Node: <start>		? (<year>:'1997')
		 -> [0] '<vehicle>'
	 - Node: <vehicle>		? (<year>:'1997')
		 -> [0] '1997,van,Ford,E350'
		  > ['<year>', ',van,Ford,E350']
 kind='van'
	 - Node: <start>		? (<kind>:'van')
		 -> [0] '<vehicle>'
	 - Node: <vehicle>		? (<kind>:'van')
		 -> [0] '<year>'
	 - Node: <year>		? (<kind>:'van')
		 -> [0] '1997'
		 -> [1] ',van,Ford,E350'
		  > [',', '<kind>', ',Ford,E350']
 company='Ford'
	 - Node: <start>		? (<company>:'Ford')
		 -> [0] '<vehicle>'
	 - Node: <vehicle>		? (<company>:'Ford')
		 -> [0] '<year>'
	 - Node: <year>		? (<company>:'Ford')
		 -> [0] '1997'
		 -> [1] ','
		 -> [2] '<kind>'
	 - Node: <kind>		? (<company>:'Ford')
		 -> [0] 'van'
		 -> [3] ',Ford,E350'
		  > [',', '<company>', ',E350']
 model='E350'
	 - Node: <start>		? (<model>:'E350')
		 -> [0] '<vehicle>'
	 - Node: <vehicle>		? (<model>:'E350')
		 -> [0] '<year>'
	 - Node: <year>		? (<model>:'E350')
		 -> [0] '1997'
		 -> [1] ','
		 -> [2] '<kind>'
	 - Node: <kind>		? (<model>:'E350')
		 -> [0] 'van'
		 -> [3] ','
		 -> [4] '<company>'
	 - Node: <company>		? (<model>:'E350')
		 -> [0] 'Ford'
		 -> [5] ',E350'
		  > [',', '<model>']

('<start>',
 [('<vehicle>',
   [('<year>', [['1997', []]]),
    (',', []),
    ('<kind>', [['van', []]]),
    (',', []),
    ('<company>', [['Ford', []]]),
    (',', []),
    ('<model>', [['E350', []]])])])


display_tree(TreeMiner(tracer.my_input, assignments).tree)


trees = []
for vehicle in VEHICLES:
    print(vehicle)
    with Tracer(vehicle) as tracer:
        process_vehicle(tracer.my_input)
    assignments = DefineTracker(tracer.my_input, tracer.trace).assignments()
    trees.append((tracer.my_input, assignments))
    for var, val in assignments:
        print(var + " = " + repr(val))
    print()

1997,van,Ford,E350
vehicle = '1997,van,Ford,E350'
year = '1997'
kind = 'van'
company = 'Ford'
model = 'E350'

2000,car,Mercury,Cougar
vehicle = '2000,car,Mercury,Cougar'
year = '2000'
kind = 'car'
company = 'Mercury'
model = 'Cougar'

1999,car,Chevy,Venture
vehicle = '1999,car,Chevy,Venture'
year = '1999'
kind = 'car'
company = 'Chevy'
model = 'Venture'


csv_dt = []
for inputstr, assignments in trees:
    print(inputstr)
    dt = TreeMiner(inputstr, assignments)
    csv_dt.append(dt)
    display_tree(dt.tree)

1997,van,Ford,E350
2000,car,Mercury,Cougar
1999,car,Chevy,Venture


class GrammarMiner:
    def __init__(self):
        self.grammar = {}


class GrammarMiner(GrammarMiner):
    def tree_to_grammar(self, tree):
        node, children = tree
        one_alt = [ck for ck, gc in children]
        hsh = {node: [one_alt] if one_alt else []}
        for child in children:
            if not is_nonterminal(child[0]):
                continue
            chsh = self.tree_to_grammar(child)
            for k in chsh:
                if k not in hsh:
                    hsh[k] = chsh[k]
                else:
                    hsh[k].extend(chsh[k])
        return hsh


gm = GrammarMiner()
gm.tree_to_grammar(csv_dt[0].tree)

{'<start>': [['<vehicle>']],
 '<vehicle>': [['<year>', ',', '<kind>', ',', '<company>', ',', '<model>']],
 '<year>': [['1997']],
 '<kind>': [['van']],
 '<company>': [['Ford']],
 '<model>': [['E350']]}


def readable(grammar):
    def readable_rule(rule):
        return ''.join(rule)

    return {k: list(set(readable_rule(a) for a in grammar[k]))
            for k in grammar}


syntax_diagram(readable(gm.tree_to_grammar(csv_dt[0].tree)))

start

vehicle

year

kind

company

model


class GrammarMiner(GrammarMiner):
    def add_tree(self, t):
        t_grammar = self.tree_to_grammar(t.tree)
        self.grammar = {
            key: self.grammar.get(key, []) + t_grammar.get(key, [])
            for key in itertools.chain(self.grammar.keys(), t_grammar.keys())
        }


inventory_grammar_miner = GrammarMiner()
for dt in csv_dt:
    inventory_grammar_miner.add_tree(dt)


syntax_diagram(readable(inventory_grammar_miner.grammar))

start

vehicle

year

kind

company

model


class GrammarMiner(GrammarMiner):
    def update_grammar(self, inputstr, trace):
        at = self.create_tracker(inputstr, trace)
        dt = self.create_tree_miner(inputstr, at.assignments())
        self.add_tree(dt)
        return self.grammar

    def create_tracker(self, *args):
        return DefineTracker(*args)

    def create_tree_miner(self, *args):
        return TreeMiner(*args)


def recover_grammar(fn: Callable, inputs: Iterable[str], 
                    **kwargs: Any) -> Grammar:
    miner = GrammarMiner()

    for inputstr in inputs:
        with Tracer(inputstr, **kwargs) as tracer:
            fn(tracer.my_input)
        miner.update_grammar(tracer.my_input, tracer.trace)

    return readable(miner.grammar)


inventory_grammar = recover_grammar(process_vehicle, VEHICLES)


inventory_grammar

{'<start>': ['<vehicle>'],
 '<vehicle>': ['<year>,<kind>,<company>,<model>'],
 '<year>': ['1999', '2000', '1997'],
 '<kind>': ['car', 'van'],
 '<company>': ['Mercury', 'Chevy', 'Ford'],
 '<model>': ['E350', 'Cougar', 'Venture']}


URLS = [
    'http://user:pass@www.google.com:80/?q=path#ref',
    'https://www.cispa.saarland:80/',
    'http://www.fuzzingbook.org/#News',
]


def url_parse(url):
    clear_cache()
    urlparse(url)


trees = []
for url in URLS:
    print(url)
    with Tracer(url) as tracer:
        url_parse(tracer.my_input)
    assignments = DefineTracker(tracer.my_input, tracer.trace).assignments()
    trees.append((tracer.my_input, assignments))
    for var, val in assignments:
        print(var + " = " + repr(val))
    print()


url_dt = []
for inputstr, assignments in trees:
    print(inputstr)
    dt = TreeMiner(inputstr, assignments)
    url_dt.append(dt)
    display_tree(dt.tree)

http://user:pass@www.google.com:80/?q=path#ref
url = 'http://user:pass@www.google.com:80/?q=path#ref'
scheme = 'http'
netloc = 'user:pass@www.google.com:80'
fragment = 'ref'
query = 'q=path'

https://www.cispa.saarland:80/
url = 'https://www.cispa.saarland:80/'
scheme = 'https'
netloc = 'www.cispa.saarland:80'

http://www.fuzzingbook.org/#News
url = 'http://www.fuzzingbook.org/#News'
scheme = 'http'
netloc = 'www.fuzzingbook.org'
fragment = 'News'

http://user:pass@www.google.com:80/?q=path#ref
https://www.cispa.saarland:80/
http://www.fuzzingbook.org/#News


url_grammar = recover_grammar(url_parse, URLS, files=['urllib/parse.py'])


syntax_diagram(url_grammar)

start

url

scheme

netloc

query

fragment


f = GrammarFuzzer(inventory_grammar)
for _ in range(10):
    print(f.fuzz())

1997,car,Mercury,E350
2000,car,Chevy,Cougar
1997,van,Mercury,Venture
1999,car,Ford,Venture
2000,car,Mercury,E350
2000,car,Mercury,Cougar
1997,car,Chevy,E350
1997,car,Chevy,E350
1997,car,Mercury,Cougar
1999,car,Chevy,E350


f = GrammarFuzzer(url_grammar)
for _ in range(10):
    print(f.fuzz())

https://user:pass@www.google.com:80/
http://www.cispa.saarland:80/?q=path#News
https://user:pass@www.google.com:80/
https://user:pass@www.google.com:80/#ref
http://user:pass@www.google.com:80/
http://user:pass@www.google.com:80/#ref
http://user:pass@www.google.com:80/?q=path#News
http://www.fuzzingbook.org/?q=path#News
http://www.fuzzingbook.org/?q=path#ref
http://www.cispa.saarland:80/


URLS_X = URLS + ['ftp://freebsd.org/releases/5.8']


url_grammar = recover_grammar(url_parse, URLS_X, files=['urllib/parse.py'])


syntax_diagram(url_grammar)

start

url

scheme

netloc

query

fragment


clear_cache()
with Tracer(URLS_X[0]) as tracer:
    urlparse(tracer.my_input)
for i, t in enumerate(tracer.trace):
    if t[0] in {'call', 'line'} and 'parse.py' in str(t[2]) and t[3]:
        print(i, t[2]._t()[1], t[3:])

0 374 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': ''},)
1 394 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': ''},)
5 129 ({'arg': ''},)
6 126 ({'arg': ''},)
7 131 ({'arg': ''},)
8 132 ({'arg': ''},)
10 395 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': ''},)
11 452 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': ''},)
12 474 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': ''},)
16 129 ({'arg': ''},)
17 126 ({'arg': ''},)
18 131 ({'arg': ''},)
19 132 ({'arg': ''},)
21 477 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': ''},)
22 478 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': ''},)
23 480 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': ''},)
24 481 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': '', 'b': '\t'},)
25 482 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': '', 'b': '\t'},)
26 480 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': '', 'b': '\t'},)
27 481 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': '', 'b': '\r'},)
28 482 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': '', 'b': '\r'},)
29 480 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': '', 'b': '\r'},)
30 481 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': '', 'b': '\n'},)
31 482 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': '', 'b': '\n'},)
32 480 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': '', 'b': '\n'},)
33 484 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': '', 'b': '\n'},)
34 485 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': '', 'b': '\n'},)
35 486 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': '', 'b': '\n', 'netloc': '', 'query': '', 'fragment': ''},)
36 487 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': '', 'b': '\n', 'netloc': '', 'query': '', 'fragment': ''},)
37 488 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': '', 'b': '\n', 'netloc': '', 'query': '', 'fragment': ''},)
38 489 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': '', 'b': '\n', 'netloc': '', 'query': '', 'fragment': '', 'c': 'h'},)
39 488 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': '', 'b': '\n', 'netloc': '', 'query': '', 'fragment': '', 'c': 'h'},)
40 489 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': '', 'b': '\n', 'netloc': '', 'query': '', 'fragment': '', 'c': 't'},)
41 488 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': '', 'b': '\n', 'netloc': '', 'query': '', 'fragment': '', 'c': 't'},)
42 489 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': '', 'b': '\n', 'netloc': '', 'query': '', 'fragment': '', 'c': 't'},)
43 488 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': '', 'b': '\n', 'netloc': '', 'query': '', 'fragment': '', 'c': 't'},)
44 489 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': '', 'b': '\n', 'netloc': '', 'query': '', 'fragment': '', 'c': 'p'},)
45 488 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': '', 'b': '\n', 'netloc': '', 'query': '', 'fragment': '', 'c': 'p'},)
46 492 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': '', 'b': '\n', 'netloc': '', 'query': '', 'fragment': '', 'c': 'p'},)
47 493 ({'url': '//user:pass@www.google.com:80/?q=path#ref', 'scheme': 'http', 'b': '\n', 'netloc': '', 'query': '', 'fragment': '', 'c': 'p'},)
48 494 ({'url': '//user:pass@www.google.com:80/?q=path#ref', 'scheme': 'http', 'b': '\n', 'netloc': '', 'query': '', 'fragment': '', 'c': 'p'},)
49 413 ({'url': '//user:pass@www.google.com:80/?q=path#ref'},)
50 414 ({'url': '//user:pass@www.google.com:80/?q=path#ref'},)
51 415 ({'url': '//user:pass@www.google.com:80/?q=path#ref'},)
52 416 ({'url': '//user:pass@www.google.com:80/?q=path#ref', 'c': '/'},)
53 417 ({'url': '//user:pass@www.google.com:80/?q=path#ref', 'c': '/'},)
54 418 ({'url': '//user:pass@www.google.com:80/?q=path#ref', 'c': '/'},)
55 415 ({'url': '//user:pass@www.google.com:80/?q=path#ref', 'c': '/'},)
56 416 ({'url': '//user:pass@www.google.com:80/?q=path#ref', 'c': '?'},)
57 417 ({'url': '//user:pass@www.google.com:80/?q=path#ref', 'c': '?'},)
58 418 ({'url': '//user:pass@www.google.com:80/?q=path#ref', 'c': '?'},)
59 415 ({'url': '//user:pass@www.google.com:80/?q=path#ref', 'c': '?'},)
60 416 ({'url': '//user:pass@www.google.com:80/?q=path#ref', 'c': '#'},)
61 417 ({'url': '//user:pass@www.google.com:80/?q=path#ref', 'c': '#'},)
62 418 ({'url': '//user:pass@www.google.com:80/?q=path#ref', 'c': '#'},)
63 415 ({'url': '//user:pass@www.google.com:80/?q=path#ref', 'c': '#'},)
64 419 ({'url': '//user:pass@www.google.com:80/?q=path#ref', 'c': '#'},)
66 495 ({'url': '/?q=path#ref', 'scheme': 'http', 'b': '\n', 'netloc': 'user:pass@www.google.com:80', 'query': '', 'fragment': '', 'c': 'p'},)
67 496 ({'url': '/?q=path#ref', 'scheme': 'http', 'b': '\n', 'netloc': 'user:pass@www.google.com:80', 'query': '', 'fragment': '', 'c': 'p'},)
68 498 ({'url': '/?q=path#ref', 'scheme': 'http', 'b': '\n', 'netloc': 'user:pass@www.google.com:80', 'query': '', 'fragment': '', 'c': 'p'},)
69 501 ({'url': '/?q=path#ref', 'scheme': 'http', 'b': '\n', 'netloc': 'user:pass@www.google.com:80', 'query': '', 'fragment': '', 'c': 'p'},)
70 502 ({'url': '/?q=path#ref', 'scheme': 'http', 'b': '\n', 'netloc': 'user:pass@www.google.com:80', 'query': '', 'fragment': '', 'c': 'p'},)
71 503 ({'url': '/?q=path', 'scheme': 'http', 'b': '\n', 'netloc': 'user:pass@www.google.com:80', 'query': '', 'fragment': 'ref', 'c': 'p'},)
72 504 ({'url': '/?q=path', 'scheme': 'http', 'b': '\n', 'netloc': 'user:pass@www.google.com:80', 'query': '', 'fragment': 'ref', 'c': 'p'},)
73 505 ({'url': '/', 'scheme': 'http', 'b': '\n', 'netloc': 'user:pass@www.google.com:80', 'query': 'q=path', 'fragment': 'ref', 'c': 'p'},)
74 421 ({'netloc': 'user:pass@www.google.com:80'},)
75 422 ({'netloc': 'user:pass@www.google.com:80'},)
76 423 ({'netloc': 'user:pass@www.google.com:80'},)
78 506 ({'url': '/', 'scheme': 'http', 'b': '\n', 'netloc': 'user:pass@www.google.com:80', 'query': 'q=path', 'fragment': 'ref', 'c': 'p'},)
82 507 ({'url': '/', 'scheme': 'http', 'b': '\n', 'netloc': 'user:pass@www.google.com:80', 'query': 'q=path', 'fragment': 'ref', 'c': 'p'},)
87 396 ({'url': 'http://user:pass@www.google.com:80/?q=path#ref', 'scheme': ''},)
88 397 ({'url': '/', 'scheme': 'http', 'netloc': 'user:pass@www.google.com:80', 'query': 'q=path', 'fragment': 'ref'},)
89 400 ({'url': '/', 'scheme': 'http', 'netloc': 'user:pass@www.google.com:80', 'query': 'q=path', 'fragment': 'ref'},)
90 401 ({'url': '/', 'scheme': 'http', 'netloc': 'user:pass@www.google.com:80', 'query': 'q=path', 'fragment': 'ref', 'params': ''},)
94 402 ({'url': '/', 'scheme': 'http', 'netloc': 'user:pass@www.google.com:80', 'query': 'q=path', 'fragment': 'ref', 'params': ''},)


def C(cp_1):
    c_2 = cp_1 + '@2'
    c_3 = c_2 + '@3'
    return c_3


def B(bp_7):
    b_8 = bp_7 + '@8'
    return C(b_8)


def A(ap_12):
    a_13 = ap_12 + '@13'
    a_14 = B(a_13) + '@14'
    a_14 = a_14 + '@15'
    a_13 = a_14 + '@16'
    a_14 = B(a_13) + '@17'
    a_14 = B(a_13) + '@18'


with Tracer('____') as tracer:
    A(tracer.my_input)

for t in tracer.trace:
    print(t[0], "%d:%s" % (t[2].line_no, t[2].method), t[3])

call 1:A {'ap_12': '____'}
line 2:A {'ap_12': '____'}
line 3:A {'ap_12': '____', 'a_13': '____@13'}
call 1:B {'bp_7': '____@13'}
line 2:B {'bp_7': '____@13'}
line 3:B {'bp_7': '____@13', 'b_8': '____@13@8'}
call 1:C {'cp_1': '____@13@8'}
line 2:C {'cp_1': '____@13@8'}
line 3:C {'cp_1': '____@13@8', 'c_2': '____@13@8@2'}
line 4:C {'cp_1': '____@13@8', 'c_2': '____@13@8@2', 'c_3': '____@13@8@2@3'}
return 4:C {'cp_1': '____@13@8', 'c_2': '____@13@8@2', 'c_3': '____@13@8@2@3'}
return 3:B {'bp_7': '____@13', 'b_8': '____@13@8'}
line 4:A {'ap_12': '____', 'a_13': '____@13', 'a_14': '____@13@8@2@3@14'}
line 5:A {'ap_12': '____', 'a_13': '____@13', 'a_14': '____@13@8@2@3@14@15'}
line 6:A {'ap_12': '____', 'a_13': '____@13@8@2@3@14@15@16', 'a_14': '____@13@8@2@3@14@15'}
call 1:B {'bp_7': '____@13@8@2@3@14@15@16'}
line 2:B {'bp_7': '____@13@8@2@3@14@15@16'}
line 3:B {'bp_7': '____@13@8@2@3@14@15@16', 'b_8': '____@13@8@2@3@14@15@16@8'}
call 1:C {'cp_1': '____@13@8@2@3@14@15@16@8'}
line 2:C {'cp_1': '____@13@8@2@3@14@15@16@8'}
line 3:C {'cp_1': '____@13@8@2@3@14@15@16@8', 'c_2': '____@13@8@2@3@14@15@16@8@2'}
line 4:C {'cp_1': '____@13@8@2@3@14@15@16@8', 'c_2': '____@13@8@2@3@14@15@16@8@2', 'c_3': '____@13@8@2@3@14@15@16@8@2@3'}
return 4:C {'cp_1': '____@13@8@2@3@14@15@16@8', 'c_2': '____@13@8@2@3@14@15@16@8@2', 'c_3': '____@13@8@2@3@14@15@16@8@2@3'}
return 3:B {'bp_7': '____@13@8@2@3@14@15@16', 'b_8': '____@13@8@2@3@14@15@16@8'}
line 7:A {'ap_12': '____', 'a_13': '____@13@8@2@3@14@15@16', 'a_14': '____@13@8@2@3@14@15@16@8@2@3@17'}
call 1:B {'bp_7': '____@13@8@2@3@14@15@16'}
line 2:B {'bp_7': '____@13@8@2@3@14@15@16'}
line 3:B {'bp_7': '____@13@8@2@3@14@15@16', 'b_8': '____@13@8@2@3@14@15@16@8'}
call 1:C {'cp_1': '____@13@8@2@3@14@15@16@8'}
line 2:C {'cp_1': '____@13@8@2@3@14@15@16@8'}
line 3:C {'cp_1': '____@13@8@2@3@14@15@16@8', 'c_2': '____@13@8@2@3@14@15@16@8@2'}
line 4:C {'cp_1': '____@13@8@2@3@14@15@16@8', 'c_2': '____@13@8@2@3@14@15@16@8@2', 'c_3': '____@13@8@2@3@14@15@16@8@2@3'}
return 4:C {'cp_1': '____@13@8@2@3@14@15@16@8', 'c_2': '____@13@8@2@3@14@15@16@8@2', 'c_3': '____@13@8@2@3@14@15@16@8@2@3'}
return 3:B {'bp_7': '____@13@8@2@3@14@15@16', 'b_8': '____@13@8@2@3@14@15@16@8'}
return 7:A {'ap_12': '____', 'a_13': '____@13@8@2@3@14@15@16', 'a_14': '____@13@8@2@3@14@15@16@8@2@3@18'}
call 102:__exit__ {}
line 105:__exit__ {}


class CallStack:
    def __init__(self, **kwargs):
        self.options(kwargs)
        self.method_id = (START_SYMBOL, 0)
        self.method_register = 0
        self.mstack = [self.method_id]

    def enter(self, method):
        self.method_register += 1
        self.method_id = (method, self.method_register)
        self.log('call', "%s%s" % (self.indent(), str(self)))
        self.mstack.append(self.method_id)

    def leave(self):
        self.mstack.pop()
        self.log('return', "%s%s" % (self.indent(), str(self)))
        self.method_id = self.mstack[-1]


class CallStack(CallStack):
    def options(self, kwargs):
        self.log = log_event if kwargs.get('log') else lambda _evt, _var: None

    def indent(self):
        return len(self.mstack) * "\t"

    def at(self, n):
        return self.mstack[n]

    def __len__(self):
        return len(mstack) - 1

    def __str__(self):
        return "%s:%d" % self.method_id

    def __repr__(self):
        return repr(self.method_id)


def display_stack(istack):
    def stack_to_tree(stack):
        current, *rest = stack
        if not rest:
            return (repr(current), [])
        return (repr(current), [stack_to_tree(rest)])
    display_tree(stack_to_tree(istack.mstack), graph_attr=lr_graph)


cs = CallStack()
display_stack(cs)
cs

('<start>', 0)


cs.enter('hello')
display_stack(cs)
cs

('hello', 1)


cs.enter('world')
display_stack(cs)
cs

('world', 2)


cs.leave()
display_stack(cs)
cs

('hello', 1)


cs.enter('world')
display_stack(cs)
cs

('world', 3)


cs.leave()
display_stack(cs)
cs

('hello', 1)


class Vars:
    def __init__(self, original):
        self.defs = {}
        self.my_input = original


class Vars(Vars):
    def _set_kv(self, k, v):
        self.defs[k] = v

    def __setitem__(self, k, v):
        self._set_kv(k, v)

    def update(self, v):
        for k, v in v.items():
            self._set_kv(k, v)


v = Vars('')
v.defs

{}


v['x'] = 'X'
v.defs

{'x': 'X'}


v.update({'x': 'x', 'y': 'y'})
v.defs

{'x': 'x', 'y': 'y'}


class AssignmentVars(Vars):
    def __init__(self, original):
        super().__init__(original)
        self.accessed_seq_var = {}
        self.var_def_lines = {}
        self.current_event = None
        self.new_vars = set()
        self.method_init()


class AssignmentVars(AssignmentVars):
    def method_init(self):
        self.call_stack = CallStack()
        self.event_locations = {self.call_stack.method_id: []}


class AssignmentVars(AssignmentVars):
    def update(self, v):
        for k, v in v.items():
            self._set_kv(k, v)
        self.var_location_register(self.new_vars)
        self.new_vars = set()


class AssignmentVars(AssignmentVars):
    def var_name(self, var):
        return (var, self.accessed_seq_var[var])


class AssignmentVars(AssignmentVars):
    def var_access(self, var):
        if var not in self.accessed_seq_var:
            self.accessed_seq_var[var] = 0
        return self.var_name(var)


class AssignmentVars(AssignmentVars):
    def var_assign(self, var):
        self.accessed_seq_var[var] += 1
        self.new_vars.add(self.var_name(var))
        return self.var_name(var)


sav = AssignmentVars('')
sav.defs

{}


sav.var_access('v1')

('v1', 0)


sav.var_assign('v1')

('v1', 1)


sav.var_assign('v1')

('v1', 2)


class AssignmentVars(AssignmentVars):
    def _set_kv(self, var, val):
        s_var = self.var_access(var)
        if s_var in self.defs and self.defs[s_var] == val:
            return
        self.defs[self.var_assign(var)] = val


sav = AssignmentVars('')
sav['x'] = 'X'
sav.defs

{('x', 1): 'X'}


sav['x'] = 'X'
sav.defs

{('x', 1): 'X'}


sav['x'] = 'Y'
sav.defs

{('x', 1): 'X', ('x', 2): 'Y'}


class AssignmentVars(AssignmentVars):
    def method_enter(self, cxt, my_vars):
        self.current_event = 'call'
        self.call_stack.enter(cxt.method)
        self.event_locations[self.call_stack.method_id] = []
        self.register_event(cxt)
        self.update(my_vars)

    def method_exit(self, cxt, my_vars):
        self.current_event = 'return'
        self.register_event(cxt)
        self.update(my_vars)
        self.call_stack.leave()

    def method_statement(self, cxt, my_vars):
        self.current_event = 'line'
        self.register_event(cxt)
        self.update(my_vars)


class AssignmentVars(AssignmentVars):
    def register_event(self, cxt):
        self.event_locations[self.call_stack.method_id].append(cxt.line_no)


class AssignmentVars(AssignmentVars):
    def var_location_register(self, my_vars):
        def loc(mid):
            if self.current_event == 'call':
                return self.event_locations[mid][-1]
            elif self.current_event == 'line':
                return self.event_locations[mid][-2]
            elif self.current_event == 'return':
                return self.event_locations[mid][-2]
            else:
                assert False

        my_loc = loc(self.call_stack.method_id)
        for var in my_vars:
            self.var_def_lines[var] = my_loc


class AssignmentVars(AssignmentVars):
    def defined_vars(self, formatted=True):
        def fmt(k):
            v = (k[0], self.var_def_lines[k])
            return "%s@%s" % v if formatted else v

        return [(fmt(k), v) for k, v in self.defs.items()]


class AssignmentVars(AssignmentVars):
    def seq_vars(self, formatted=True):
        def fmt(k):
            v = (k[0], self.var_def_lines[k], k[1])
            return "%s@%s:%s" % v if formatted else v

        return {fmt(k): v for k, v in self.defs.items()}


class AssignmentTracker(DefineTracker):
    def __init__(self, my_input, trace, **kwargs):
        self.options(kwargs)
        self.my_input = my_input

        self.my_assignments = self.create_assignments(my_input)

        self.trace = trace
        self.process()

    def create_assignments(self, *args):
        return AssignmentVars(*args)


class AssignmentTracker(AssignmentTracker):
    def options(self, kwargs):
        self.track_return = kwargs.get('track_return', False)
        super().options(kwargs)


class AssignmentTracker(AssignmentTracker):
    def on_call(self, arg, cxt, my_vars):
        my_vars = cxt.parameters(my_vars)
        self.my_assignments.method_enter(cxt, self.fragments(my_vars))

    def on_line(self, arg, cxt, my_vars):
        self.my_assignments.method_statement(cxt, self.fragments(my_vars))

    def on_return(self, arg, cxt, my_vars):
        self.on_line(arg, cxt, my_vars)
        my_vars = {'<-%s' % cxt.method: arg} if self.track_return else {}
        self.my_assignments.method_exit(cxt, my_vars)

    def on_exception(self, arg, cxt, my_vara):
        return

    def track_event(self, event, arg, cxt, my_vars):
        self.current_event = event
        dispatch = {
            'call': self.on_call,
            'return': self.on_return,
            'line': self.on_line,
            'exception': self.on_exception
        }
        dispatch[event](arg, cxt, my_vars)


def C(cp_1):  # type: ignore
    c_2 = cp_1
    c_3 = c_2
    return c_3


def B(bp_7):  # type: ignore
    b_8 = bp_7
    return C(b_8)


def A(ap_12):  # type: ignore
    a_13 = ap_12
    a_14 = B(a_13)
    a_14 = a_14
    a_13 = a_14
    a_14 = B(a_13)
    a_14 = B(a_14)[3:]


with Tracer('---xxx') as tracer:
    A(tracer.my_input)
tracker = AssignmentTracker(tracer.my_input, tracer.trace, log=True)
for k, v in tracker.my_assignments.seq_vars().items():
    print(k, '=', repr(v))
print()
for k, v in tracker.my_assignments.defined_vars(formatted=True):
    print(k, '=', repr(v))

ap_12@1:1 = '---xxx'
a_13@2:1 = '---xxx'
bp_7@1:1 = '---xxx'
b_8@2:1 = '---xxx'
cp_1@1:1 = '---xxx'
c_2@2:1 = '---xxx'
c_3@3:1 = '---xxx'
a_14@3:1 = '---xxx'
a_14@7:2 = 'xxx'

ap_12@1 = '---xxx'
a_13@2 = '---xxx'
bp_7@1 = '---xxx'
b_8@2 = '---xxx'
cp_1@1 = '---xxx'
c_2@2 = '---xxx'
c_3@3 = '---xxx'
a_14@3 = '---xxx'
a_14@7 = 'xxx'


traces = []
for inputstr in URLS_X:
    clear_cache()
    with Tracer(inputstr, files=['urllib/parse.py']) as tracer:
        urlparse(tracer.my_input)
    traces.append((tracer.my_input, tracer.trace))

    tracker = AssignmentTracker(tracer.my_input, tracer.trace, log=True)
    for k, v in tracker.my_assignments.defined_vars():
        print(k, '=', repr(v))
    print()

url@374 = 'http://user:pass@www.google.com:80/?q=path#ref'
url@492 = '//user:pass@www.google.com:80/?q=path#ref'
scheme@492 = 'http'
url@494 = '/?q=path#ref'
netloc@494 = 'user:pass@www.google.com:80'
url@502 = '/?q=path'
fragment@502 = 'ref'
query@504 = 'q=path'
url@395 = 'http://user:pass@www.google.com:80/?q=path#ref'

url@374 = 'https://www.cispa.saarland:80/'
url@492 = '//www.cispa.saarland:80/'
scheme@492 = 'https'
netloc@494 = 'www.cispa.saarland:80'
url@395 = 'https://www.cispa.saarland:80/'

url@374 = 'http://www.fuzzingbook.org/#News'
url@492 = '//www.fuzzingbook.org/#News'
scheme@492 = 'http'
url@494 = '/#News'
netloc@494 = 'www.fuzzingbook.org'
fragment@502 = 'News'
url@395 = 'http://www.fuzzingbook.org/#News'

url@374 = 'ftp://freebsd.org/releases/5.8'
url@492 = '//freebsd.org/releases/5.8'
scheme@492 = 'ftp'
url@494 = '/releases/5.8'
netloc@494 = 'freebsd.org'
url@395 = 'ftp://freebsd.org/releases/5.8'
url@396 = '/releases/5.8'


class TreeMiner(TreeMiner):
    def get_derivation_tree(self):
        tree = (START_SYMBOL, [(self.my_input, [])])
        for var, value in self.my_assignments:
            self.log(0, "%s=%s" % (var, repr(value)))
            self.apply_new_definition(tree, var, value)
        return tree


clear_cache()
with Tracer(URLS_X[0], files=['urllib/parse.py']) as tracer:
    urlparse(tracer.my_input)
sm = AssignmentTracker(tracer.my_input, tracer.trace)
dt = TreeMiner(tracer.my_input, sm.my_assignments.defined_vars())
display_tree(dt.tree)


clear_cache()
with Tracer(URLS_X[-1], files=['urllib/parse.py']) as tracer:
    urlparse(tracer.my_input)
sm = AssignmentTracker(tracer.my_input, tracer.trace)
dt = TreeMiner(tracer.my_input, sm.my_assignments.defined_vars())
display_tree(dt.tree)


class GrammarMiner(GrammarMiner):
    def update_grammar(self, inputstr, trace):
        at = self.create_tracker(inputstr, trace)
        dt = self.create_tree_miner(inputstr, at.my_assignments.defined_vars())
        self.add_tree(dt)
        return self.grammar

    def create_tracker(self, *args):
        return AssignmentTracker(*args)

    def create_tree_miner(self, *args):
        return TreeMiner(*args)


url_grammar = recover_grammar(url_parse, URLS_X, files=['urllib/parse.py'])


syntax_diagram(url_grammar)

start

url@374

scheme@492

url@492

netloc@494

url@494

url@502

query@504

fragment@502

url@396


f = GrammarFuzzer(url_grammar)
for _ in range(10):
    print(f.fuzz())

http://freebsd.org/
ftp://freebsd.org/releases/5.8
http://www.cispa.saarland:80/
ftp://freebsd.org/releases/5.8
https://user:pass@www.google.com:80/releases/5.8
https://freebsd.org/
ftp://www.cispa.saarland:80/?q=path#News
http://www.fuzzingbook.org/
https://www.cispa.saarland:80/
ftp://user:pass@www.google.com:80/


inventory_grammar = recover_grammar(process_vehicle, VEHICLES)


syntax_diagram(inventory_grammar)

start

vehicle@29

year@30

kind@30

company@30

model@30


f = GrammarFuzzer(inventory_grammar)
for _ in range(10):
    print(f.fuzz())

1997,van,Chevy,E350
1999,van,Mercury,E350
2000,van,Chevy,Venture
2000,van,Ford,E350
1997,van,Mercury,Cougar
1997,car,Ford,E350
1997,car,Mercury,Venture
1997,car,Mercury,E350
2000,van,Mercury,Cougar
1997,car,Chevy,Venture


with Tracer(INVENTORY) as tracer:
    process_inventory(tracer.my_input)
sm = AssignmentTracker(tracer.my_input, tracer.trace)
dt = TreeMiner(tracer.my_input, sm.my_assignments.defined_vars())
display_tree(dt.tree, graph_attr=lr_graph)


dt = TreeMiner(tracer.my_input, sm.my_assignments.defined_vars(), log=True)

 inventory@22='1997,van,Ford,E350\n2000,car,Mercury,Cougar\n1999,car,Chevy,Venture'
	 - Node: <start>		? (<inventory@22>:'1997,van,Ford,E350\n2000,car,Mercury,Cougar\n1999,car,Chevy,Venture')
		 -> [0] '1997,van,Ford,E350\n2000,car,Mercury,Cougar\n1999,car,Chevy,Venture'
		  > ['<inventory@22>']
 vehicle@24='1997,van,Ford,E350'
	 - Node: <start>		? (<vehicle@24>:'1997,van,Ford,E350')
		 -> [0] '<inventory@22>'
	 - Node: <inventory@22>		? (<vehicle@24>:'1997,van,Ford,E350')
		 -> [0] '1997,van,Ford,E350\n2000,car,Mercury,Cougar\n1999,car,Chevy,Venture'
		  > ['<vehicle@24>', '\n2000,car,Mercury,Cougar\n1999,car,Chevy,Venture']
 year@30='1997'
	 - Node: <start>		? (<year@30>:'1997')
		 -> [0] '<inventory@22>'
	 - Node: <inventory@22>		? (<year@30>:'1997')
		 -> [0] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<year@30>:'1997')
		 -> [0] '1997,van,Ford,E350'
		  > ['<year@30>', ',van,Ford,E350']
 kind@30='van'
	 - Node: <start>		? (<kind@30>:'van')
		 -> [0] '<inventory@22>'
	 - Node: <inventory@22>		? (<kind@30>:'van')
		 -> [0] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<kind@30>:'van')
		 -> [0] '<year@30>'
	 - Node: <year@30>		? (<kind@30>:'van')
		 -> [0] '1997'
		 -> [1] ',van,Ford,E350'
		  > [',', '<kind@30>', ',Ford,E350']
 company@30='Ford'
	 - Node: <start>		? (<company@30>:'Ford')
		 -> [0] '<inventory@22>'
	 - Node: <inventory@22>		? (<company@30>:'Ford')
		 -> [0] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<company@30>:'Ford')
		 -> [0] '<year@30>'
	 - Node: <year@30>		? (<company@30>:'Ford')
		 -> [0] '1997'
		 -> [1] ','
		 -> [2] '<kind@30>'
	 - Node: <kind@30>		? (<company@30>:'Ford')
		 -> [0] 'van'
		 -> [3] ',Ford,E350'
		  > [',', '<company@30>', ',E350']
 model@30='E350'
	 - Node: <start>		? (<model@30>:'E350')
		 -> [0] '<inventory@22>'
	 - Node: <inventory@22>		? (<model@30>:'E350')
		 -> [0] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<model@30>:'E350')
		 -> [0] '<year@30>'
	 - Node: <year@30>		? (<model@30>:'E350')
		 -> [0] '1997'
		 -> [1] ','
		 -> [2] '<kind@30>'
	 - Node: <kind@30>		? (<model@30>:'E350')
		 -> [0] 'van'
		 -> [3] ','
		 -> [4] '<company@30>'
	 - Node: <company@30>		? (<model@30>:'E350')
		 -> [0] 'Ford'
		 -> [5] ',E350'
		  > [',', '<model@30>']
 vehicle@24='2000,car,Mercury,Cougar'
	 - Node: <start>		? (<vehicle@24>:'2000,car,Mercury,Cougar')
		 -> [0] '<inventory@22>'
	 - Node: <inventory@22>		? (<vehicle@24>:'2000,car,Mercury,Cougar')
		 -> [0] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<vehicle@24>:'2000,car,Mercury,Cougar')
		 -> [0] '<year@30>'
	 - Node: <year@30>		? (<vehicle@24>:'2000,car,Mercury,Cougar')
		 -> [0] '1997'
		 -> [1] ','
		 -> [2] '<kind@30>'
	 - Node: <kind@30>		? (<vehicle@24>:'2000,car,Mercury,Cougar')
		 -> [0] 'van'
		 -> [3] ','
		 -> [4] '<company@30>'
	 - Node: <company@30>		? (<vehicle@24>:'2000,car,Mercury,Cougar')
		 -> [0] 'Ford'
		 -> [5] ','
		 -> [6] '<model@30>'
	 - Node: <model@30>		? (<vehicle@24>:'2000,car,Mercury,Cougar')
		 -> [0] 'E350'
		 -> [1] '\n2000,car,Mercury,Cougar\n1999,car,Chevy,Venture'
		  > ['\n', '<vehicle@24>', '\n1999,car,Chevy,Venture']
 year@30='2000'
	 - Node: <start>		? (<year@30>:'2000')
		 -> [0] '<inventory@22>'
	 - Node: <inventory@22>		? (<year@30>:'2000')
		 -> [0] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<year@30>:'2000')
		 -> [0] '<year@30>'
	 - Node: <year@30>		? (<year@30>:'2000')
		 -> [0] '1997'
		 -> [1] ','
		 -> [2] '<kind@30>'
	 - Node: <kind@30>		? (<year@30>:'2000')
		 -> [0] 'van'
		 -> [3] ','
		 -> [4] '<company@30>'
	 - Node: <company@30>		? (<year@30>:'2000')
		 -> [0] 'Ford'
		 -> [5] ','
		 -> [6] '<model@30>'
	 - Node: <model@30>		? (<year@30>:'2000')
		 -> [0] 'E350'
		 -> [1] '\n'
		 -> [2] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<year@30>:'2000')
		 -> [0] '2000,car,Mercury,Cougar'
		  > ['<year@30>', ',car,Mercury,Cougar']
 kind@30='car'
	 - Node: <start>		? (<kind@30>:'car')
		 -> [0] '<inventory@22>'
	 - Node: <inventory@22>		? (<kind@30>:'car')
		 -> [0] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<kind@30>:'car')
		 -> [0] '<year@30>'
	 - Node: <year@30>		? (<kind@30>:'car')
		 -> [0] '1997'
		 -> [1] ','
		 -> [2] '<kind@30>'
	 - Node: <kind@30>		? (<kind@30>:'car')
		 -> [0] 'van'
		 -> [3] ','
		 -> [4] '<company@30>'
	 - Node: <company@30>		? (<kind@30>:'car')
		 -> [0] 'Ford'
		 -> [5] ','
		 -> [6] '<model@30>'
	 - Node: <model@30>		? (<kind@30>:'car')
		 -> [0] 'E350'
		 -> [1] '\n'
		 -> [2] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<kind@30>:'car')
		 -> [0] '<year@30>'
	 - Node: <year@30>		? (<kind@30>:'car')
		 -> [0] '2000'
		 -> [1] ',car,Mercury,Cougar'
		  > [',', '<kind@30>', ',Mercury,Cougar']
 company@30='Mercury'
	 - Node: <start>		? (<company@30>:'Mercury')
		 -> [0] '<inventory@22>'
	 - Node: <inventory@22>		? (<company@30>:'Mercury')
		 -> [0] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<company@30>:'Mercury')
		 -> [0] '<year@30>'
	 - Node: <year@30>		? (<company@30>:'Mercury')
		 -> [0] '1997'
		 -> [1] ','
		 -> [2] '<kind@30>'
	 - Node: <kind@30>		? (<company@30>:'Mercury')
		 -> [0] 'van'
		 -> [3] ','
		 -> [4] '<company@30>'
	 - Node: <company@30>		? (<company@30>:'Mercury')
		 -> [0] 'Ford'
		 -> [5] ','
		 -> [6] '<model@30>'
	 - Node: <model@30>		? (<company@30>:'Mercury')
		 -> [0] 'E350'
		 -> [1] '\n'
		 -> [2] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<company@30>:'Mercury')
		 -> [0] '<year@30>'
	 - Node: <year@30>		? (<company@30>:'Mercury')
		 -> [0] '2000'
		 -> [1] ','
		 -> [2] '<kind@30>'
	 - Node: <kind@30>		? (<company@30>:'Mercury')
		 -> [0] 'car'
		 -> [3] ',Mercury,Cougar'
		  > [',', '<company@30>', ',Cougar']
 model@30='Cougar'
	 - Node: <start>		? (<model@30>:'Cougar')
		 -> [0] '<inventory@22>'
	 - Node: <inventory@22>		? (<model@30>:'Cougar')
		 -> [0] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<model@30>:'Cougar')
		 -> [0] '<year@30>'
	 - Node: <year@30>		? (<model@30>:'Cougar')
		 -> [0] '1997'
		 -> [1] ','
		 -> [2] '<kind@30>'
	 - Node: <kind@30>		? (<model@30>:'Cougar')
		 -> [0] 'van'
		 -> [3] ','
		 -> [4] '<company@30>'
	 - Node: <company@30>		? (<model@30>:'Cougar')
		 -> [0] 'Ford'
		 -> [5] ','
		 -> [6] '<model@30>'
	 - Node: <model@30>		? (<model@30>:'Cougar')
		 -> [0] 'E350'
		 -> [1] '\n'
		 -> [2] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<model@30>:'Cougar')
		 -> [0] '<year@30>'
	 - Node: <year@30>		? (<model@30>:'Cougar')
		 -> [0] '2000'
		 -> [1] ','
		 -> [2] '<kind@30>'
	 - Node: <kind@30>		? (<model@30>:'Cougar')
		 -> [0] 'car'
		 -> [3] ','
		 -> [4] '<company@30>'
	 - Node: <company@30>		? (<model@30>:'Cougar')
		 -> [0] 'Mercury'
		 -> [5] ',Cougar'
		  > [',', '<model@30>']
 vehicle@24='1999,car,Chevy,Venture'
	 - Node: <start>		? (<vehicle@24>:'1999,car,Chevy,Venture')
		 -> [0] '<inventory@22>'
	 - Node: <inventory@22>		? (<vehicle@24>:'1999,car,Chevy,Venture')
		 -> [0] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<vehicle@24>:'1999,car,Chevy,Venture')
		 -> [0] '<year@30>'
	 - Node: <year@30>		? (<vehicle@24>:'1999,car,Chevy,Venture')
		 -> [0] '1997'
		 -> [1] ','
		 -> [2] '<kind@30>'
	 - Node: <kind@30>		? (<vehicle@24>:'1999,car,Chevy,Venture')
		 -> [0] 'van'
		 -> [3] ','
		 -> [4] '<company@30>'
	 - Node: <company@30>		? (<vehicle@24>:'1999,car,Chevy,Venture')
		 -> [0] 'Ford'
		 -> [5] ','
		 -> [6] '<model@30>'
	 - Node: <model@30>		? (<vehicle@24>:'1999,car,Chevy,Venture')
		 -> [0] 'E350'
		 -> [1] '\n'
		 -> [2] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<vehicle@24>:'1999,car,Chevy,Venture')
		 -> [0] '<year@30>'
	 - Node: <year@30>		? (<vehicle@24>:'1999,car,Chevy,Venture')
		 -> [0] '2000'
		 -> [1] ','
		 -> [2] '<kind@30>'
	 - Node: <kind@30>		? (<vehicle@24>:'1999,car,Chevy,Venture')
		 -> [0] 'car'
		 -> [3] ','
		 -> [4] '<company@30>'
	 - Node: <company@30>		? (<vehicle@24>:'1999,car,Chevy,Venture')
		 -> [0] 'Mercury'
		 -> [5] ','
		 -> [6] '<model@30>'
	 - Node: <model@30>		? (<vehicle@24>:'1999,car,Chevy,Venture')
		 -> [0] 'Cougar'
		 -> [3] '\n1999,car,Chevy,Venture'
		  > ['\n', '<vehicle@24>']
 year@30='1999'
	 - Node: <start>		? (<year@30>:'1999')
		 -> [0] '<inventory@22>'
	 - Node: <inventory@22>		? (<year@30>:'1999')
		 -> [0] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<year@30>:'1999')
		 -> [0] '<year@30>'
	 - Node: <year@30>		? (<year@30>:'1999')
		 -> [0] '1997'
		 -> [1] ','
		 -> [2] '<kind@30>'
	 - Node: <kind@30>		? (<year@30>:'1999')
		 -> [0] 'van'
		 -> [3] ','
		 -> [4] '<company@30>'
	 - Node: <company@30>		? (<year@30>:'1999')
		 -> [0] 'Ford'
		 -> [5] ','
		 -> [6] '<model@30>'
	 - Node: <model@30>		? (<year@30>:'1999')
		 -> [0] 'E350'
		 -> [1] '\n'
		 -> [2] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<year@30>:'1999')
		 -> [0] '<year@30>'
	 - Node: <year@30>		? (<year@30>:'1999')
		 -> [0] '2000'
		 -> [1] ','
		 -> [2] '<kind@30>'
	 - Node: <kind@30>		? (<year@30>:'1999')
		 -> [0] 'car'
		 -> [3] ','
		 -> [4] '<company@30>'
	 - Node: <company@30>		? (<year@30>:'1999')
		 -> [0] 'Mercury'
		 -> [5] ','
		 -> [6] '<model@30>'
	 - Node: <model@30>		? (<year@30>:'1999')
		 -> [0] 'Cougar'
		 -> [3] '\n'
		 -> [4] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<year@30>:'1999')
		 -> [0] '1999,car,Chevy,Venture'
		  > ['<year@30>', ',car,Chevy,Venture']
 company@30='Chevy'
	 - Node: <start>		? (<company@30>:'Chevy')
		 -> [0] '<inventory@22>'
	 - Node: <inventory@22>		? (<company@30>:'Chevy')
		 -> [0] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<company@30>:'Chevy')
		 -> [0] '<year@30>'
	 - Node: <year@30>		? (<company@30>:'Chevy')
		 -> [0] '1997'
		 -> [1] ','
		 -> [2] '<kind@30>'
	 - Node: <kind@30>		? (<company@30>:'Chevy')
		 -> [0] 'van'
		 -> [3] ','
		 -> [4] '<company@30>'
	 - Node: <company@30>		? (<company@30>:'Chevy')
		 -> [0] 'Ford'
		 -> [5] ','
		 -> [6] '<model@30>'
	 - Node: <model@30>		? (<company@30>:'Chevy')
		 -> [0] 'E350'
		 -> [1] '\n'
		 -> [2] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<company@30>:'Chevy')
		 -> [0] '<year@30>'
	 - Node: <year@30>		? (<company@30>:'Chevy')
		 -> [0] '2000'
		 -> [1] ','
		 -> [2] '<kind@30>'
	 - Node: <kind@30>		? (<company@30>:'Chevy')
		 -> [0] 'car'
		 -> [3] ','
		 -> [4] '<company@30>'
	 - Node: <company@30>		? (<company@30>:'Chevy')
		 -> [0] 'Mercury'
		 -> [5] ','
		 -> [6] '<model@30>'
	 - Node: <model@30>		? (<company@30>:'Chevy')
		 -> [0] 'Cougar'
		 -> [3] '\n'
		 -> [4] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<company@30>:'Chevy')
		 -> [0] '<year@30>'
	 - Node: <year@30>		? (<company@30>:'Chevy')
		 -> [0] '1999'
		 -> [1] ',car,Chevy,Venture'
		  > [',car,', '<company@30>', ',Venture']
 model@30='Venture'
	 - Node: <start>		? (<model@30>:'Venture')
		 -> [0] '<inventory@22>'
	 - Node: <inventory@22>		? (<model@30>:'Venture')
		 -> [0] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<model@30>:'Venture')
		 -> [0] '<year@30>'
	 - Node: <year@30>		? (<model@30>:'Venture')
		 -> [0] '1997'
		 -> [1] ','
		 -> [2] '<kind@30>'
	 - Node: <kind@30>		? (<model@30>:'Venture')
		 -> [0] 'van'
		 -> [3] ','
		 -> [4] '<company@30>'
	 - Node: <company@30>		? (<model@30>:'Venture')
		 -> [0] 'Ford'
		 -> [5] ','
		 -> [6] '<model@30>'
	 - Node: <model@30>		? (<model@30>:'Venture')
		 -> [0] 'E350'
		 -> [1] '\n'
		 -> [2] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<model@30>:'Venture')
		 -> [0] '<year@30>'
	 - Node: <year@30>		? (<model@30>:'Venture')
		 -> [0] '2000'
		 -> [1] ','
		 -> [2] '<kind@30>'
	 - Node: <kind@30>		? (<model@30>:'Venture')
		 -> [0] 'car'
		 -> [3] ','
		 -> [4] '<company@30>'
	 - Node: <company@30>		? (<model@30>:'Venture')
		 -> [0] 'Mercury'
		 -> [5] ','
		 -> [6] '<model@30>'
	 - Node: <model@30>		? (<model@30>:'Venture')
		 -> [0] 'Cougar'
		 -> [3] '\n'
		 -> [4] '<vehicle@24>'
	 - Node: <vehicle@24>		? (<model@30>:'Venture')
		 -> [0] '<year@30>'
	 - Node: <year@30>		? (<model@30>:'Venture')
		 -> [0] '1999'
		 -> [1] ',car,'
		 -> [2] '<company@30>'
	 - Node: <company@30>		? (<model@30>:'Venture')
		 -> [0] 'Chevy'
		 -> [3] ',Venture'
		  > [',', '<model@30>']


class InputStack(CallStack):
    def __init__(self, i, fragment_len=FRAGMENT_LEN):
        self.inputs = [{START_SYMBOL: i}]
        self.fragment_len = fragment_len
        super().__init__()


class InputStack(InputStack):
    def in_current_record(self, val):
        return any(val in var for var in self.inputs[-1].values())


my_istack = InputStack('hello my world')


my_istack.in_current_record('hello')

True


my_istack.in_current_record('bye')

False


my_istack.inputs.append({'greeting': 'hello', 'location': 'world'})


my_istack.in_current_record('hello')

True


my_istack.in_current_record('my')

False


class InputStack(InputStack):
    def ignored(self, val):
        return not (isinstance(val, str) and len(val) >= self.fragment_len)


my_istack = InputStack('hello world')
my_istack.ignored(1)

True


my_istack.ignored('a')

True


my_istack.ignored('help')

False


class InputStack(InputStack):
    def in_scope(self, k, val):
        if self.ignored(val):
            return False
        return self.in_current_record(val)


class InputStack(InputStack):
    def enter(self, method, inputs):
        my_inputs = {k: v for k, v in inputs.items() if self.in_scope(k, v)}
        self.inputs.append(my_inputs)
        super().enter(method)


class InputStack(InputStack):
    def leave(self):
        self.inputs.pop()
        super().leave()


class ScopedVars(AssignmentVars):
    def method_init(self):
        self.call_stack = self.create_call_stack(self.my_input)
        self.event_locations = {self.call_stack.method_id: []}

    def create_call_stack(self, i):
        return InputStack(i)


class ScopedVars(ScopedVars):
    def method_enter(self, cxt, my_vars):
        self.current_event = 'call'
        self.call_stack.enter(cxt.method, my_vars)
        self.accessed_seq_var[self.call_stack.method_id] = {}
        self.event_locations[self.call_stack.method_id] = []
        self.register_event(cxt)
        self.update(my_vars)


class ScopedVars(ScopedVars):
    def update(self, v):
        if self.current_event == 'call':
            context = -2
        elif self.current_event == 'line':
            context = -1
        else:
            context = -1
        for k, v in v.items():
            self._set_kv(k, (v, self.call_stack.at(context)))
        self.var_location_register(self.new_vars)
        self.new_vars = set()


class ScopedVars(ScopedVars):
    def var_name(self, var):
        return (var, self.call_stack.method_id,
                self.accessed_seq_var[self.call_stack.method_id][var])


class ScopedVars(ScopedVars):
    def var_access(self, var):
        if var not in self.accessed_seq_var[self.call_stack.method_id]:
            self.accessed_seq_var[self.call_stack.method_id][var] = 0
        return self.var_name(var)


class ScopedVars(ScopedVars):
    def var_assign(self, var):
        self.accessed_seq_var[self.call_stack.method_id][var] += 1
        self.new_vars.add(self.var_name(var))
        return self.var_name(var)


class ScopedVars(ScopedVars):
    def defined_vars(self, formatted=True):
        def fmt(k):
            method, i = k[1]
            v = (method, i, k[0], self.var_def_lines[k])
            return "%s[%d]:%s@%s" % v if formatted else v

        return [(fmt(k), v) for k, v in self.defs.items()]


class ScopedVars(ScopedVars):
    def seq_vars(self, formatted=True):
        def fmt(k):
            method, i = k[1]
            v = (method, i, k[0], self.var_def_lines[k], k[2])
            return "%s[%d]:%s@%s:%s" % v if formatted else v

        return {fmt(k): v for k, v in self.defs.items()}


class ScopeTracker(AssignmentTracker):
    def __init__(self, my_input, trace, **kwargs):
        self.current_event = None
        super().__init__(my_input, trace, **kwargs)

    def create_assignments(self, *args):
        return ScopedVars(*args)


class ScopeTracker(ScopeTracker):
    def is_input_fragment(self, var, value):
        return self.my_assignments.call_stack.in_scope(var, value)


vehicle_traces = []
with Tracer(INVENTORY) as tracer:
    process_inventory(tracer.my_input)
sm = ScopeTracker(tracer.my_input, tracer.trace)
vehicle_traces.append((tracer.my_input, sm))
for k, v in sm.my_assignments.seq_vars().items():
    print(k, '=', repr(v))

process_inventory[1]:inventory@22:1 = ('1997,van,Ford,E350\n2000,car,Mercury,Cougar\n1999,car,Chevy,Venture', ('<start>', 0))
process_inventory[1]:inventory@22:2 = ('1997,van,Ford,E350\n2000,car,Mercury,Cougar\n1999,car,Chevy,Venture', ('process_inventory', 1))
process_inventory[1]:vehicle@24:1 = ('1997,van,Ford,E350', ('process_inventory', 1))
process_vehicle[2]:vehicle@29:1 = ('1997,van,Ford,E350', ('process_inventory', 1))
process_vehicle[2]:vehicle@29:2 = ('1997,van,Ford,E350', ('process_vehicle', 2))
process_vehicle[2]:year@30:1 = ('1997', ('process_vehicle', 2))
process_vehicle[2]:kind@30:1 = ('van', ('process_vehicle', 2))
process_vehicle[2]:company@30:1 = ('Ford', ('process_vehicle', 2))
process_vehicle[2]:model@30:1 = ('E350', ('process_vehicle', 2))
process_van[3]:year@40:1 = ('1997', ('process_vehicle', 2))
process_van[3]:company@40:1 = ('Ford', ('process_vehicle', 2))
process_van[3]:model@40:1 = ('E350', ('process_vehicle', 2))
process_van[3]:year@40:2 = ('1997', ('process_van', 3))
process_van[3]:company@40:2 = ('Ford', ('process_van', 3))
process_van[3]:model@40:2 = ('E350', ('process_van', 3))
process_inventory[1]:vehicle@24:2 = ('2000,car,Mercury,Cougar', ('process_inventory', 1))
process_vehicle[4]:vehicle@29:1 = ('2000,car,Mercury,Cougar', ('process_inventory', 1))
process_vehicle[4]:vehicle@29:2 = ('2000,car,Mercury,Cougar', ('process_vehicle', 4))
process_vehicle[4]:year@30:1 = ('2000', ('process_vehicle', 4))
process_vehicle[4]:kind@30:1 = ('car', ('process_vehicle', 4))
process_vehicle[4]:company@30:1 = ('Mercury', ('process_vehicle', 4))
process_vehicle[4]:model@30:1 = ('Cougar', ('process_vehicle', 4))
process_car[5]:year@49:1 = ('2000', ('process_vehicle', 4))
process_car[5]:company@49:1 = ('Mercury', ('process_vehicle', 4))
process_car[5]:model@49:1 = ('Cougar', ('process_vehicle', 4))
process_car[5]:year@49:2 = ('2000', ('process_car', 5))
process_car[5]:company@49:2 = ('Mercury', ('process_car', 5))
process_car[5]:model@49:2 = ('Cougar', ('process_car', 5))
process_inventory[1]:vehicle@24:3 = ('1999,car,Chevy,Venture', ('process_inventory', 1))
process_vehicle[6]:vehicle@29:1 = ('1999,car,Chevy,Venture', ('process_inventory', 1))
process_vehicle[6]:vehicle@29:2 = ('1999,car,Chevy,Venture', ('process_vehicle', 6))
process_vehicle[6]:year@30:1 = ('1999', ('process_vehicle', 6))
process_vehicle[6]:kind@30:1 = ('car', ('process_vehicle', 6))
process_vehicle[6]:company@30:1 = ('Chevy', ('process_vehicle', 6))
process_vehicle[6]:model@30:1 = ('Venture', ('process_vehicle', 6))
process_car[7]:year@49:1 = ('1999', ('process_vehicle', 6))
process_car[7]:company@49:1 = ('Chevy', ('process_vehicle', 6))
process_car[7]:model@49:1 = ('Venture', ('process_vehicle', 6))
process_car[7]:year@49:2 = ('1999', ('process_car', 7))
process_car[7]:company@49:2 = ('Chevy', ('process_car', 7))
process_car[7]:model@49:2 = ('Venture', ('process_car', 7))

def my_fn(stringval):
    partA, partB = stringval.split('/')
    return partA, partB

svalue = ...
v1, v2 = my_fn(svalue)


class ScopeTreeMiner(TreeMiner):
    def mseq(self, key):
        method, seq, var, lno = key
        return seq


class ScopeTreeMiner(ScopeTreeMiner):
    def nt_var(self, key):
        method, seq, var, lno = key
        return to_nonterminal("%s@%d:%s" % (method, lno, var))


class ScopeTreeMiner(ScopeTreeMiner):
    def partition(self, part, value):
        return value.partition(part)
    def partition_by_part(self, pair, value):
        (nt_var, nt_seq), (v, v_scope) = pair
        prefix_k_suffix = [
                    (nt_var, [(v, [], nt_seq)]) if i == 1 else (e, [])
                    for i, e in enumerate(self.partition(v, value))
                    if e]
        return prefix_k_suffix
    
    def insert_into_tree(self, my_tree, pair):
        var, values, my_scope = my_tree
        (nt_var, nt_seq), (v, v_scope) = pair
        applied = False
        for i, value_ in enumerate(values):
            key, arr, scope = value_
            self.log(2, "-> [%d] %s" % (i, repr(value_)))
            if is_nonterminal(key):
                applied = self.insert_into_tree(value_, pair)
                if applied:
                    break
            else:
                if v_scope != scope:
                    if nt_seq > scope:
                        continue
                if not v or not self.string_part_of_value(v, key):
                    continue
                prefix_k_suffix = [(k, children, scope) for k, children
                                   in self.partition_by_part(pair, key)]
                del values[i]
                for j, rep in enumerate(prefix_k_suffix):
                    values.insert(j + i, rep)

                applied = True
                self.log(2, " > %s" % (repr([i[0] for i in prefix_k_suffix])))
                break
        return applied


class ScopeTreeMiner(ScopeTreeMiner):
    def apply_new_definition(self, tree, var, value_):
        nt_var = self.nt_var(var)
        seq = self.mseq(var)
        val, (smethod, mseq) = value_
        return self.insert_into_tree(tree, ((nt_var, seq), (val, mseq)))


class ScopeTreeMiner(ScopeTreeMiner):
    def get_derivation_tree(self):
        tree = (START_SYMBOL, [(self.my_input, [], 0)], 0)
        for var, value in self.my_assignments:
            self.log(0, "%s=%s" % (var, repr(value)))
            self.apply_new_definition(tree, var, value)
        return tree


url_dts = []
for inputstr in URLS_X:
    clear_cache()
    with Tracer(inputstr, files=['urllib/parse.py']) as tracer:
        urlparse(tracer.my_input)
    sm = ScopeTracker(tracer.my_input, tracer.trace)
    for k, v in sm.my_assignments.defined_vars(formatted=False):
        print(k, '=', repr(v))
    dt = ScopeTreeMiner(
        tracer.my_input,
        sm.my_assignments.defined_vars(
            formatted=False))
    display_tree(dt.tree, graph_attr=lr_graph)
    url_dts.append(dt)

('urlparse', 1, 'url', 374) = ('http://user:pass@www.google.com:80/?q=path#ref', ('<start>', 0))
('urlparse', 1, 'url', 374) = ('http://user:pass@www.google.com:80/?q=path#ref', ('urlparse', 1))
('urlsplit', 3, 'url', 452) = ('http://user:pass@www.google.com:80/?q=path#ref', ('urlparse', 1))
('urlsplit', 3, 'url', 452) = ('http://user:pass@www.google.com:80/?q=path#ref', ('urlsplit', 3))
('urlsplit', 3, 'url', 492) = ('//user:pass@www.google.com:80/?q=path#ref', ('urlsplit', 3))
('urlsplit', 3, 'scheme', 492) = ('http', ('urlsplit', 3))
('_splitnetloc', 5, 'url', 413) = ('//user:pass@www.google.com:80/?q=path#ref', ('urlsplit', 3))
('_splitnetloc', 5, 'url', 413) = ('//user:pass@www.google.com:80/?q=path#ref', ('_splitnetloc', 5))
('urlsplit', 3, 'url', 494) = ('/?q=path#ref', ('urlsplit', 3))
('urlsplit', 3, 'netloc', 494) = ('user:pass@www.google.com:80', ('urlsplit', 3))
('urlsplit', 3, 'url', 502) = ('/?q=path', ('urlsplit', 3))
('urlsplit', 3, 'fragment', 502) = ('ref', ('urlsplit', 3))
('urlsplit', 3, 'query', 504) = ('q=path', ('urlsplit', 3))
('_checknetloc', 6, 'netloc', 421) = ('user:pass@www.google.com:80', ('urlsplit', 3))
('_checknetloc', 6, 'netloc', 421) = ('user:pass@www.google.com:80', ('_checknetloc', 6))
('urlparse', 1, 'scheme', 396) = ('http', ('urlparse', 1))
('urlparse', 1, 'netloc', 396) = ('user:pass@www.google.com:80', ('urlparse', 1))
('urlparse', 1, 'query', 396) = ('q=path', ('urlparse', 1))
('urlparse', 1, 'fragment', 396) = ('ref', ('urlparse', 1))
('urlparse', 1, 'url', 374) = ('https://www.cispa.saarland:80/', ('<start>', 0))
('urlparse', 1, 'url', 374) = ('https://www.cispa.saarland:80/', ('urlparse', 1))
('urlsplit', 3, 'url', 452) = ('https://www.cispa.saarland:80/', ('urlparse', 1))
('urlsplit', 3, 'url', 452) = ('https://www.cispa.saarland:80/', ('urlsplit', 3))
('urlsplit', 3, 'url', 492) = ('//www.cispa.saarland:80/', ('urlsplit', 3))
('urlsplit', 3, 'scheme', 492) = ('https', ('urlsplit', 3))
('_splitnetloc', 5, 'url', 413) = ('//www.cispa.saarland:80/', ('urlsplit', 3))
('_splitnetloc', 5, 'url', 413) = ('//www.cispa.saarland:80/', ('_splitnetloc', 5))
('urlsplit', 3, 'netloc', 494) = ('www.cispa.saarland:80', ('urlsplit', 3))
('_checknetloc', 6, 'netloc', 421) = ('www.cispa.saarland:80', ('urlsplit', 3))
('_checknetloc', 6, 'netloc', 421) = ('www.cispa.saarland:80', ('_checknetloc', 6))
('urlparse', 1, 'scheme', 396) = ('https', ('urlparse', 1))
('urlparse', 1, 'netloc', 396) = ('www.cispa.saarland:80', ('urlparse', 1))
('urlparse', 1, 'url', 374) = ('http://www.fuzzingbook.org/#News', ('<start>', 0))
('urlparse', 1, 'url', 374) = ('http://www.fuzzingbook.org/#News', ('urlparse', 1))
('urlsplit', 3, 'url', 452) = ('http://www.fuzzingbook.org/#News', ('urlparse', 1))
('urlsplit', 3, 'url', 452) = ('http://www.fuzzingbook.org/#News', ('urlsplit', 3))
('urlsplit', 3, 'url', 492) = ('//www.fuzzingbook.org/#News', ('urlsplit', 3))
('urlsplit', 3, 'scheme', 492) = ('http', ('urlsplit', 3))
('_splitnetloc', 5, 'url', 413) = ('//www.fuzzingbook.org/#News', ('urlsplit', 3))
('_splitnetloc', 5, 'url', 413) = ('//www.fuzzingbook.org/#News', ('_splitnetloc', 5))
('urlsplit', 3, 'url', 494) = ('/#News', ('urlsplit', 3))
('urlsplit', 3, 'netloc', 494) = ('www.fuzzingbook.org', ('urlsplit', 3))
('urlsplit', 3, 'fragment', 502) = ('News', ('urlsplit', 3))
('_checknetloc', 6, 'netloc', 421) = ('www.fuzzingbook.org', ('urlsplit', 3))
('_checknetloc', 6, 'netloc', 421) = ('www.fuzzingbook.org', ('_checknetloc', 6))
('urlparse', 1, 'scheme', 396) = ('http', ('urlparse', 1))
('urlparse', 1, 'netloc', 396) = ('www.fuzzingbook.org', ('urlparse', 1))
('urlparse', 1, 'fragment', 396) = ('News', ('urlparse', 1))
('urlparse', 1, 'url', 374) = ('ftp://freebsd.org/releases/5.8', ('<start>', 0))
('urlparse', 1, 'url', 374) = ('ftp://freebsd.org/releases/5.8', ('urlparse', 1))
('urlsplit', 3, 'url', 452) = ('ftp://freebsd.org/releases/5.8', ('urlparse', 1))
('urlsplit', 3, 'url', 452) = ('ftp://freebsd.org/releases/5.8', ('urlsplit', 3))
('urlsplit', 3, 'url', 492) = ('//freebsd.org/releases/5.8', ('urlsplit', 3))
('urlsplit', 3, 'scheme', 492) = ('ftp', ('urlsplit', 3))
('_splitnetloc', 5, 'url', 413) = ('//freebsd.org/releases/5.8', ('urlsplit', 3))
('_splitnetloc', 5, 'url', 413) = ('//freebsd.org/releases/5.8', ('_splitnetloc', 5))
('urlsplit', 3, 'url', 494) = ('/releases/5.8', ('urlsplit', 3))
('urlsplit', 3, 'netloc', 494) = ('freebsd.org', ('urlsplit', 3))
('_checknetloc', 6, 'netloc', 421) = ('freebsd.org', ('urlsplit', 3))
('_checknetloc', 6, 'netloc', 421) = ('freebsd.org', ('_checknetloc', 6))
('urlparse', 1, 'url', 396) = ('/releases/5.8', ('urlparse', 1))
('urlparse', 1, 'scheme', 396) = ('ftp', ('urlparse', 1))
('urlparse', 1, 'netloc', 396) = ('freebsd.org', ('urlparse', 1))


with Tracer(INVENTORY) as tracer:
    process_inventory(tracer.my_input)

sm = ScopeTracker(tracer.my_input, tracer.trace)
for k, v in sm.my_assignments.defined_vars():
    print(k, '=', repr(v))
inventory_dt = ScopeTreeMiner(
    tracer.my_input,
    sm.my_assignments.defined_vars(
        formatted=False))
display_tree(inventory_dt.tree, graph_attr=lr_graph)

process_inventory[1]:inventory@22 = ('1997,van,Ford,E350\n2000,car,Mercury,Cougar\n1999,car,Chevy,Venture', ('<start>', 0))
process_inventory[1]:inventory@22 = ('1997,van,Ford,E350\n2000,car,Mercury,Cougar\n1999,car,Chevy,Venture', ('process_inventory', 1))
process_inventory[1]:vehicle@24 = ('1997,van,Ford,E350', ('process_inventory', 1))
process_vehicle[2]:vehicle@29 = ('1997,van,Ford,E350', ('process_inventory', 1))
process_vehicle[2]:vehicle@29 = ('1997,van,Ford,E350', ('process_vehicle', 2))
process_vehicle[2]:year@30 = ('1997', ('process_vehicle', 2))
process_vehicle[2]:kind@30 = ('van', ('process_vehicle', 2))
process_vehicle[2]:company@30 = ('Ford', ('process_vehicle', 2))
process_vehicle[2]:model@30 = ('E350', ('process_vehicle', 2))
process_van[3]:year@40 = ('1997', ('process_vehicle', 2))
process_van[3]:company@40 = ('Ford', ('process_vehicle', 2))
process_van[3]:model@40 = ('E350', ('process_vehicle', 2))
process_van[3]:year@40 = ('1997', ('process_van', 3))
process_van[3]:company@40 = ('Ford', ('process_van', 3))
process_van[3]:model@40 = ('E350', ('process_van', 3))
process_inventory[1]:vehicle@24 = ('2000,car,Mercury,Cougar', ('process_inventory', 1))
process_vehicle[4]:vehicle@29 = ('2000,car,Mercury,Cougar', ('process_inventory', 1))
process_vehicle[4]:vehicle@29 = ('2000,car,Mercury,Cougar', ('process_vehicle', 4))
process_vehicle[4]:year@30 = ('2000', ('process_vehicle', 4))
process_vehicle[4]:kind@30 = ('car', ('process_vehicle', 4))
process_vehicle[4]:company@30 = ('Mercury', ('process_vehicle', 4))
process_vehicle[4]:model@30 = ('Cougar', ('process_vehicle', 4))
process_car[5]:year@49 = ('2000', ('process_vehicle', 4))
process_car[5]:company@49 = ('Mercury', ('process_vehicle', 4))
process_car[5]:model@49 = ('Cougar', ('process_vehicle', 4))
process_car[5]:year@49 = ('2000', ('process_car', 5))
process_car[5]:company@49 = ('Mercury', ('process_car', 5))
process_car[5]:model@49 = ('Cougar', ('process_car', 5))
process_inventory[1]:vehicle@24 = ('1999,car,Chevy,Venture', ('process_inventory', 1))
process_vehicle[6]:vehicle@29 = ('1999,car,Chevy,Venture', ('process_inventory', 1))
process_vehicle[6]:vehicle@29 = ('1999,car,Chevy,Venture', ('process_vehicle', 6))
process_vehicle[6]:year@30 = ('1999', ('process_vehicle', 6))
process_vehicle[6]:kind@30 = ('car', ('process_vehicle', 6))
process_vehicle[6]:company@30 = ('Chevy', ('process_vehicle', 6))
process_vehicle[6]:model@30 = ('Venture', ('process_vehicle', 6))
process_car[7]:year@49 = ('1999', ('process_vehicle', 6))
process_car[7]:company@49 = ('Chevy', ('process_vehicle', 6))
process_car[7]:model@49 = ('Venture', ('process_vehicle', 6))
process_car[7]:year@49 = ('1999', ('process_car', 7))
process_car[7]:company@49 = ('Chevy', ('process_car', 7))
process_car[7]:model@49 = ('Venture', ('process_car', 7))


class ScopedGrammarMiner(GrammarMiner):
    def tree_to_grammar(self, tree):
        key, children, scope = tree
        one_alt = [ckey for ckey, gchildren, cscope in children if ckey != key]
        hsh = {key: [one_alt] if one_alt else []}
        for child in children:
            (ckey, _gc, _cscope) = child
            if not is_nonterminal(ckey):
                continue
            chsh = self.tree_to_grammar(child)
            for k in chsh:
                if k not in hsh:
                    hsh[k] = chsh[k]
                else:
                    hsh[k].extend(chsh[k])
        return hsh


si = ScopedGrammarMiner()
si.add_tree(inventory_dt)
syntax_diagram(readable(si.grammar))

start

process_inventory@22:inventory

process_inventory@24:vehicle

process_vehicle@29:vehicle

process_vehicle@30:year

process_van@40:year

process_vehicle@30:kind

process_vehicle@30:company

process_van@40:company

process_vehicle@30:model


su = ScopedGrammarMiner()
for t in url_dts:
    su.add_tree(t)
syntax_diagram(readable(su.grammar))

start

urlparse@374:url

urlsplit@452:url

urlsplit@492:scheme

urlparse@396:scheme

urlsplit@492:url

_splitnetloc@413:url

urlsplit@494:netloc

_checknetloc@421:netloc

urlparse@396:netloc


class ScopedGrammarMiner(ScopedGrammarMiner):
    def get_replacements(self, grammar):
        replacements = {}
        for k in grammar:
            if k == START_SYMBOL:
                continue
            alts = grammar[k]
            if len(set([str(i) for i in alts])) != 1:
                continue
            rule = alts[0]
            if len(rule) != 1:
                continue
            tok = rule[0]
            if not is_nonterminal(tok):
                continue
            replacements[k] = tok
        return replacements


class ScopedGrammarMiner(ScopedGrammarMiner):
    def clean_grammar(self):
        replacements = self.get_replacements(self.grammar)

        while True:
            changed = set()
            for k in self.grammar:
                if k in replacements:
                    continue
                new_alts = []
                for alt in self.grammar[k]:
                    new_alt = []
                    for t in alt:
                        if t in replacements:
                            new_alt.append(replacements[t])
                            changed.add(t)
                        else:
                            new_alt.append(t)
                    new_alts.append(new_alt)
                self.grammar[k] = new_alts
            if not changed:
                break
            for k in changed:
                self.grammar.pop(k, None)
        return readable(self.grammar)


si = ScopedGrammarMiner()
si.add_tree(inventory_dt)
syntax_diagram(readable(si.clean_grammar()))

start

process_inventory@22:inventory

process_vehicle@29:vehicle

process_vehicle@30:year

process_van@40:year

process_vehicle@30:kind

process_vehicle@30:company

process_van@40:company

process_vehicle@30:model

process_van@40:model


class ScopedGrammarMiner(ScopedGrammarMiner):
    def update_grammar(self, inputstr, trace):
        at = self.create_tracker(inputstr, trace)
        dt = self.create_tree_miner(
            inputstr, at.my_assignments.defined_vars(
                formatted=False))
        self.add_tree(dt)
        return self.grammar

    def create_tracker(self, *args):
        return ScopeTracker(*args)

    def create_tree_miner(self, *args):
        return ScopeTreeMiner(*args)


def recover_grammar(fn, inputs, **kwargs):  # type: ignore
    miner = ScopedGrammarMiner()
    for inputstr in inputs:
        with Tracer(inputstr, **kwargs) as tracer:
            fn(tracer.my_input)
        miner.update_grammar(tracer.my_input, tracer.trace)
    return readable(miner.clean_grammar())


url_grammar = recover_grammar(url_parse, URLS_X, files=['urllib/parse.py'])


syntax_diagram(url_grammar)

start

urlsplit@452:url

urlparse@396:scheme

_splitnetloc@413:url

urlparse@396:netloc

urlsplit@494:url

urlsplit@502:url

urlparse@396:query

urlparse@396:fragment

urlparse@396:url


f = GrammarFuzzer(url_grammar)
for _ in range(10):
    print(f.fuzz())

ftp://user:pass@www.google.com:80/
ftp://freebsd.org/?q=path#News
ftp://freebsd.org/
ftp://www.fuzzingbook.org/?q=path#News
https://www.fuzzingbook.org/
ftp://www.fuzzingbook.org/#News
ftp://www.fuzzingbook.org/releases/5.8
http://www.fuzzingbook.org/?q=path#ref
http://freebsd.org/
ftp://user:pass@www.google.com:80/


inventory_grammar = recover_grammar(process_inventory, [INVENTORY])


syntax_diagram(inventory_grammar)

start

process_inventory@22:inventory

process_vehicle@29:vehicle

process_vehicle@30:year

process_van@40:year

process_vehicle@30:kind

process_vehicle@30:company

process_van@40:company

process_vehicle@30:model

process_van@40:model


f = GrammarFuzzer(inventory_grammar)
for _ in range(10):
    print(f.fuzz())

1997,van,Mercury,E350
1999,car,Ford,Venture
2000,car,Ford,Cougar
2000,van,Chevy,Venture
1999,car,Mercury,E350
1997,van,Ford,Venture
1997,car,Chevy,Cougar
1999,car,Ford,E350
1999,car,Chevy,Cougar
1997,car,Chevy,Venture
1997,car,Ford,E350
2000,car,Mercury,E350
1999,van,Chevy,E350
1997,van,Ford,Cougar
1999,van,Chevy,Venture
1999,car,Ford,E350
1999,van,Mercury,Venture
1997,car,Ford,Cougar
1999,car,Mercury,Venture
1997,van,Mercury,E350
1999,car,Chevy,Cougar
2000,van,Chevy,Venture
2000,car,Ford,Venture
1997,car,Mercury,E350
1997,van,Chevy,E350
1997,van,Ford,E350
2000,car,Ford,E350
1997,car,Chevy,Venture
1997,van,Ford,E350
2000,van,Chevy,Cougar


url_parse('https://www.fuzzingbook.org/')


URLS

['http://user:pass@www.google.com:80/?q=path#ref',
 'https://www.cispa.saarland:80/',
 'http://www.fuzzingbook.org/#News']


grammar = recover_grammar(url_parse, URLS, files=['urllib/parse.py'])
grammar

{'<start>': ['<urlsplit@452:url>'],
 '<urlsplit@452:url>': ['<urlparse@396:scheme>:<_splitnetloc@413:url>'],
 '<urlparse@396:scheme>': ['http', 'https'],
 '<_splitnetloc@413:url>': ['//<urlparse@396:netloc>/',
  '//<urlparse@396:netloc><urlsplit@494:url>'],
 '<urlparse@396:netloc>': ['www.cispa.saarland:80',
  'www.fuzzingbook.org',
  'user:pass@www.google.com:80'],
 '<urlsplit@494:url>': ['<urlsplit@502:url>#<urlparse@396:fragment>',
  '/#<urlparse@396:fragment>'],
 '<urlsplit@502:url>': ['/?<urlparse@396:query>'],
 '<urlparse@396:query>': ['q=path'],
 '<urlparse@396:fragment>': ['News', 'ref']}


syntax_diagram(grammar)

start

urlsplit@452:url

urlparse@396:scheme

_splitnetloc@413:url

urlparse@396:netloc

urlsplit@494:url

urlsplit@502:url

urlparse@396:query

urlparse@396:fragment


fuzzer = GrammarCoverageFuzzer(grammar)
[fuzzer.fuzz() for i in range(5)]

['https://www.cispa.saarland:80/#ref',
 'http://www.fuzzingbook.org/',
 'http://user:pass@www.google.com:80/?q=path#News',
 'https://www.fuzzingbook.org/?q=path#ref',
 'http://www.cispa.saarland:80/#News']


class Vehicle:
    def __init__(self, vehicle: str):
        year, kind, company, model, *_ = vehicle.split(',')
        self.year, self.kind, self.company, self.model = year, kind, company, model


def process_inventory_with_obj(inventory: str) -> str:
    res = []
    for vehicle in inventory.split('\n'):
        ret = process_vehicle(vehicle)
        res.extend(ret)

    return '\n'.join(res)


def process_vehicle_with_obj(vehicle: str) -> List[str]:
    v = Vehicle(vehicle)
    if v.kind == 'van':
        return process_van_with_obj(v)

    elif v.kind == 'car':
        return process_car_with_obj(v)

    else:
        raise Exception('Invalid entry')


def process_van_with_obj(vehicle: Vehicle) -> List[str]:
    res = [
        "We have a %s %s van from %s vintage." % (vehicle.company,
                                                  vehicle.model, vehicle.year)
    ]
    iyear = int(vehicle.year)
    if iyear > 2010:
        res.append("It is a recent model!")
    else:
        res.append("It is an old but reliable model!")
    return res


def process_car_with_obj(vehicle: Vehicle) -> List[str]:
    res = [
        "We have a %s %s car from %s vintage." % (vehicle.company,
                                                  vehicle.model, vehicle.year)
    ]
    iyear = int(vehicle.year)
    if iyear > 2016:
        res.append("It is a recent model!")
    else:
        res.append("It is an old but reliable model!")
    return res


vehicle_grammar = recover_grammar(
    process_inventory_with_obj,
    [INVENTORY],
    methods=INVENTORY_METHODS)


syntax_diagram(vehicle_grammar)

start

process_vehicle@29:vehicle

process_vehicle@30:year

process_van@40:year

process_vehicle@30:kind

process_vehicle@30:company

process_van@40:company

process_vehicle@30:model

process_van@40:model

process_car@49:year

Mining Input Grammars¶

A Grammar Challenge¶

A Simple Grammar Miner¶

Tracer¶

Context¶

DefineTracker¶

Assembling a Derivation Tree¶

Recovering Grammars from Derivation Trees¶

Example 1. Recovering the Inventory Grammar¶

Example 2. Recovering URL Grammar¶

Fuzzing¶

Problems with the Simple Miner¶

Grammar Miner with Reassignment¶

Tracking variable assignment locations¶

CallStack¶

Vars¶

AssignmentVars¶

AssignmentTracker¶

Recovering a Derivation Tree¶

Example 1: Recovering URL Derivation Tree¶

URL 1 derivation tree¶

URL 4 derivation tree¶

Recover Grammar¶

Example 2: Recovering Inventory Grammar¶

Problems with the Grammar Miner with Reassignment¶

A Grammar Miner with Scope¶

Input Stack¶

ScopedVars¶

Scope Tracker¶

Recovering a Derivation Tree¶

Example 1: Recovering URL Parse Tree¶

Example 2: Recovering Inventory Parse Tree¶

Grammar Mining¶

Synopsis¶

Lessons Learned¶

Next Steps¶

Background¶

Exercises¶

Exercise 1: Flattening complex objects¶

Exercise 2: Incorporating Taints from InformationFlow¶