archaeo_super_prompt.modeling.pdf_to_text.chunking

[docs] module archaeo_super_prompt.modeling.pdf_to_text.chunking
"""Scanned document splitting into text chunks with layout metadata."""import functools as fntfrom collections.abc importIteratorfrom functools importreducefrom pathlib importPathfrom typing importcastimport pandas as pdfrom docling.datamodel.settings importPageRangefrom docling_core.transforms.chunker.base importBaseChunkfrom docling_core.transforms.chunker.hybrid_chunker importHybridChunkerfrom docling_core.transforms.chunker.tokenizer.huggingface import(HuggingFaceTokenizer,)from docling_core.types.doc.document importDocItemfrom transformers importAutoTokenizerfrom ...types.intervention_id importInterventionIdfrom ...types.pdfchunks importPDFChunkDataset,PDFChunkDatasetSchemafrom ...utils.cache importget_memory_forfrom .types importCorrectlyConvertedDocumentEMBED_MODEL_ID="nomic-ai/nomic-embed-text-v1.5"def get_chunker(embed_model_id:str,max_chunk_size:int):[docs]
    """Return a Docling Chunker model according to the tokenizer of one embedding model.    This tokenizer is fast even on the CPU, but must be fetch from the    HuggingFace's repositories.    """# the tokenizer must be the same as the embedding modeltokenizer=HuggingFaceTokenizer(tokenizer=AutoTokenizer.from_pretrained(embed_model_id),max_tokens=max_chunk_size,)returnHybridChunker(tokenizer=tokenizer,merge_peers=True)@get_memory_for("interim").cachedef _get_chunk_from_document(chunker:HybridChunker,document:CorrectlyConvertedDocument,page_range:PageRange,)->list[tuple[PageRange,BaseChunk]]:return[(page_range,chunk)forchunkinchunker.chunk(dl_doc=document)]def get_chunks([docs]
chunker:HybridChunker,document:Iterator[tuple[PageRange,CorrectlyConvertedDocument]],)->list[tuple[PageRange,BaseChunk]]:    """Extracts a list of labeled chunks through all the pages of the document.    Arguments:        chunker: the chunker model to chunk according to the layout and the \tokenization        document: the document or a list of documents for each page    """returnreduce(lambdaflatten,d:([*flatten,*_get_chunk_from_document(chunker,d[1],d[0])]),document,cast(list[BaseChunk],[]),)def _get_doc_items(chunk:BaseChunk)->list[DocItem]:returncast(list[DocItem],chunk.meta.doc_items)# type: ignoredef _page_numbers_of_chunk(chunk:BaseChunk)->set[int]:returnset(fnt.reduce(lambdaacc_lst,item:list(acc_lst)+list(p.page_noforpinitem.prov),_get_doc_items(chunk),cast(list[int],[]),))def _chunk_types_of_chunk(chunk:BaseChunk)->set[str]:returnset([str(item.label)foritemin_get_doc_items(chunk)])def chunk_to_ds([docs]
pairs:Iterator[tuple[tuple[InterventionId,Path],list[tuple[PageRange,BaseChunk]]]],chunker:HybridChunker,)->PDFChunkDataset:    """Gather the list of labeled chunks into a dataframe for all the document batch."""returnPDFChunkDataset(PDFChunkDatasetSchema.validate(pd.concat((pd.DataFrame([{"id":int(id_),"filename":file.name,"chunk_type":list(_chunk_types_of_chunk(chunk)),"chunk_page_position":[(prange[0]-1)+pnforpnin_page_numbers_of_chunk(chunk)],"chunk_index":chunk_idx,"chunk_embedding_content":chunker.contextualize(chunk),"chunk_content":chunk.text,}forchunk_idx,(prange,chunk)inenumerate(chunks_per_file)])for(id_,file),chunks_per_fileinpairs),ignore_index=True,)))