Extrayendo datos de files txt

Ok estoy usando este git de Git Bash. Después de ejecutarlo, tengo los files txt del txt datos de la Comisión de Bolsa y Valores que es EDGAR en este formatting en mi disco duro. Estoy usando Win 7. Los files txt tienen tags HTML dentro.

Me pregunto porque los files en el text están en este formatting estricto de la agencia SEC desde principios de los noventa si hay una forma de extraer un determinado elemento, digamos

 <us-gaap:IncomeTaxExpenseBenefit contextRef="eol_PE9523----1310-K0013_STD_365_20131231_0" decimals="-3" id="id_3914012_7F3BEF88-8CD1-49E7-8A78-91A091178D1B_1_13" unitRef="iso4217_USD">40315000</us-gaap:IncomeTaxExpenseBenefit> 

Ya sea mediante el uso de un script o un repository git con precisión ya que el formatting es estricto? ¿Cómo, por ejemplo, alguien puede extraer una tabla de agujeros del file txt? Bibliotecas, gits, scripts, cualquier cosa que con un poco de trabajo y modificación puedan ser recogidos estará bien para mí tener un comienzo.

¿Puede alguno de estos gits entrar y hacer tal trabajo? Leo las instrucciones (siempre que las haya) pero no entiendo muchas cosas.

Solutions Collecting From Web of "Extrayendo datos de files txt"