LangExtract é uma biblioteca Python que usa LLMs para extrair informações estruturadas de texto não estruturado com base em instruções definidas pela pessoa usuária. Ela processa materiais de domínio específico — como anotações e relatórios clínicos — identificando e organizando detalhes importantes, ao mesmo tempo em que mantém cada ponto de dado extraído rastreável até sua fonte. As entidades extraídas podem ser exportadas como um arquivo .jsonl, um formato padrão para dados de modelo de linguagem, e visualizadas por meio de uma interface HTML interativa para revisão contextual. Nossos times avaliaram o LangExtract para extrair entidades para preencher um grafo de conhecimento de domínio e o consideraram eficaz para transformar documentos complexos em representações estruturadas e legíveis por máquina.