LangExtract es una biblioteca de Python que utiliza LLMs para extraer información estructurada de texto no estructurado según instrucciones definidas por el usuario. Procesa materiales específicos de dominio, como notas y reportes clínicos, identificando y organizando detalles clave mientras mantiene cada dato extraído trazable a su fuente. Las entidades extraídas pueden exportarse como un archivo .jsonl, un formato estándar para datos de modelos de lenguaje, y visualizarse mediante una interfaz HTML interactiva para revisión contextual. Nuestros equipos evaluaron LangExtract para extraer entidades destinadas a poblar un grafo de conocimiento de dominio y lo encontraron eficaz para transformar documentos complejos en representaciones estructuradas y legibles por máquina.