C # Extraire le texte de PDF en utilisant PdfSharp

Question

Est-il possible d'extraire du texte brut d'un fichier PDF avec PdfSharp? Je ne veux pas utiliser iTextSharp à cause de sa licence.

Ronnie Overby · Answer

A pris la réponse de Sergio et a fait quelques méthodes d'extension. J'ai également changé l'accumulation de chaînes en un itérateur.

public static class PdfSharpExtensions { public static IEnumerable<string> ExtractText(this PdfPage page) { var content = ContentReader.ReadContent(page); var text = content.ExtractText(); return text; } public static IEnumerable<string> ExtractText(this CObject cObject) { if (cObject is COperator) { var cOperator = cObject as COperator; if (cOperator.OpCode.Name== OpCodeName.Tj.ToString() || cOperator.OpCode.Name == OpCodeName.TJ.ToString()) { foreach (var cOperand in cOperator.Operands) foreach (var txt in ExtractText(cOperand)) yield return txt; } } else if (cObject is CSequence) { var cSequence = cObject as CSequence; foreach (var element in cSequence) foreach (var txt in ExtractText(element)) yield return txt; } else if (cObject is CString) { var cString = cObject as CString; yield return cString.Value; } } }

Sergio · Answer

Je l'ai mis en œuvre de manière similaire à la façon dont David l'a fait. Voici mon code:

 { // .... var page = document.Pages[1]; CObject content = ContentReader.ReadContent(page); var extractedText = ExtractText(content); // ... } private IEnumerable<string> ExtractText(CObject cObject ) { var textList = new List<string>(); if (cObject is COperator) { var cOperator = cObject as COperator; if (cOperator.OpCode.Name== OpCodeName.Tj.ToString() || cOperator.OpCode.Name == OpCodeName.TJ.ToString()) { foreach (var cOperand in cOperator.Operands) { textList.AddRange(ExtractText(cOperand)); } } } else if (cObject is CSequence) { var cSequence = cObject as CSequence; foreach (var element in cSequence) { textList.AddRange(ExtractText(element)); } } else if (cObject is CString) { var cString = cObject as CString; textList.Add(cString.Value); } return textList; }

David Schmitt · Answer

PDFSharp fournit tous les outils pour extraire le texte d'un PDF. Utilisez la classe ContentReader pour accéder aux commandes de chaque page et extraire les chaînes des opérateurs TJ/Tj.

J'ai téléchargé une implémentation simple sur github .