いろいろ備忘録日記

主に .NET とか Go とか Flutter とか Python絡みのメモを公開しています。

Goメモ-446 (PDF内から特定のテキストを検索)(ledongthuc/pdf)

golang

関連記事
概要
サンプル
参考情報
Goのおすすめ書籍

関連記事

Goメモ-445 (PDFをページごとに分割)(pdfcpu) - いろいろ備忘録日記

GitHub - devlights/blog-summary: ブログ「いろいろ備忘録日記」のまとめ

概要

以下、自分用のメモです。忘れないうちにメモメモ。。。

ひょんなことからPDF内から特定のワードで検索してニョロニョロするという作業があったので、ついでにメモです。

ledongthuc/pdf というライブラリを知ったので、それのメモです。

rsc/pdf からのフォークとなっていて、元のやつにプレーンテキストでのコンテンツ取得とかの機能を追加してくれている模様。

今回の作業ではテキストコンテンツの中から対象のワードがあるかどうかを調べたかっただけなので、十分な機能でした。

サンプル

package main

import (
    "bytes"
    "flag"
    "io"
    "log"
    "os"

    "github.com/ledongthuc/pdf"
)

type (
    Args struct {
        inFile string
        word   string
    }
)

var (
    args Args
)

func init() {
    log.SetFlags(log.Lmicroseconds)

    flag.StringVar(&args.inFile, "in", "", "input file")
    flag.StringVar(&args.word, "word", "", "search word")
}

func main() {
    flag.Parse()

    if args.inFile == "" || args.word == "" {
        flag.PrintDefaults()
        os.Exit(1)
    }

    if err := run(); err != nil {
        log.Fatal(err)
    }
}

func run() error {
    var (
        file *os.File
        pdfR *pdf.Reader
        err  error
    )

    //
    // 暗号化されているPDFを開こうとすると
    //   malformed PDF: 256-bit encryption key
    // というエラーが出る
    //
    // 01.split-pages で利用した IPA の「安全なウェブサイトの作り方」のPDFは
    // ページ分割は出来るが、テキストを抽出しようとすると
    //   malformed PDF: 256-bit encryption key
    // と出て無理だった.
    //
    // サンプルなので、自前で適当に作成したPDFファイルで試す
    //
    file, pdfR, err = pdf.Open(args.inFile)
    if err != nil {
        return err
    }
    defer file.Close()

    var (
        buf bytes.Buffer
        r   io.Reader
    )
    r, err = pdfR.GetPlainText()
    if err != nil {
        return err
    }
    io.Copy(&buf, r)

    var (
        data = buf.Bytes()
        sep  = []byte(args.word)
        idx  = bytes.Index(data, sep)
    )

    if idx < 0 {
        log.Println("no hit.")
        return nil
    }

    log.Printf("hit: %d,%s", idx, data[idx:idx+len(sep)])

    return nil
}

上のコードのコメントにも記載していますが、暗号化されているPDFファイルの場合はエラーとなってしまうので注意。

サンプルは以下にアップしてあります。

try-golang-extlib/examples/singleapp/pdf/02.search-text at main · devlights/try-golang-extlib · GitHub

参考情報

Goのおすすめ書籍

初めてのGo言語 ―他言語プログラマーのためのイディオマティックGo実践ガイド

初めてのGo言語 ―他言語プログラマーのためのイディオマティックGo実践ガイド

作者:Jon Bodner
オーム社

実用 Go言語 ―システム開発の現場で知っておきたいアドバイス

実用 Go言語 ―システム開発の現場で知っておきたいアドバイス

作者:渋川よしき,辻大志郎,真野隼記
オライリージャパン

Go言語による並行処理

Go言語による並行処理

作者:Katherine Cox-Buday
オライリージャパン

Go言語 100Tips ありがちなミスを把握し、実装を最適化する impress top gearシリーズ

Go言語 100Tips ありがちなミスを把握し、実装を最適化する impress top gearシリーズ

作者:Teiva Harsanyi,柴田芳樹
インプレス

Goならわかるシステムプログラミング第2版

Goならわかるシステムプログラミング第2版

作者:渋川よしき
ラムダノート

効率的なGo ―データ指向によるGoアプリケーションの性能最適化

効率的なGo ―データ指向によるGoアプリケーションの性能最適化

作者:Bartłomiej Płotka
オーム社

過去の記事については、以下のページからご参照下さい。

ブログ「いろいろ備忘録日記」の記事まとめ | ブログ「いろいろ備忘録日記」のまとめ

サンプルコードは、以下の場所で公開しています。