pdfあるいはhtml表から、テキストおこしのtips

  • Diary

ブログの更新って何ですか?!

というわけで例の線量マップとtwitterしかやってないnniです。ごぶさたしております。
先日とある意見交換会に出席させていただきまして、こんな資料(pdf)説明したりしました。

まぁそんなこんなで、最近多くの人にお手伝いいただき更新しているので、それに関してのエントリを書きます。
更新作業してない人にはなーんにも関係ないと思いますwww



pdfから1行1行コピペして発狂することはありせまんか? (あるあるー
最善かわかりませんが、私のやっている方法を書いておきます。

まず、エディタ! もう何も言わず UnEditor に決まってる!!! これ以外ありえねー
というわけで、いきなりWindowsの人対象になってしまうわけですが、まぁそんなこんなで。
以下、ひたすらUnEditorに依存しています。興味ある人はフリーのエディタなので、http://www.yokkasoft.net/ こちらのダウンロードページからどうぞ。

さて、ではこれからさいたま市の入力なので、それを実例にやってみますかね。。。


まず学校のpdfから。。。
pdfからのコピペって、
 1. 素直にコピれるもの
 2. 1セルの途中に改行が入っていて面倒なもの
 3. 行のならびなどがぐちゃぐちゃになるもの
みたいな感じでいろいろです。

また、
 a. Chromeで開いてコピる のと
 b. FireFoxで開いてコピる(≒ダウンロードしてacrobatで開いてコピる) のと
 c. ダウンロードしてBrava! Readerで開いてコピる この3種類で違うような気がします。(前2つは同じかもしれないけど違うときもあるような...)

今回のファイルは整然と並んでいるので 1-a でいきます。
Chromeの画面上で小さくして(1画面にコピるページが全部表示されるようにして)、ドラッグしてコピります。こんな感じ。

それをUnEditorでペーストします。

あまり手直しがいらなくて幸せな感じです:)
さて、ここでUnEditorが便利なところなのですが、セル区切りが半角スペースになっているので、半角スペースをタブに置換します。
検索 - 置換 で、こんなふうに入れます。「正規表現」にチェック入れるのがポイントです。

それで「すべて置換」とすると、

全部タブに置き換わりました。

あと、「北 区」みたいに全角スペースが入っていて邪魔なので、置換で全角スペース取ります。
元を「 」、置換先はブランクのままで。

そうしたら、もうそのまんまgoogle spreadsheetにコピペできます。おりゃっ

ちなみに、数字が全角の場合 (例 0.123 のような場合)、いったんExcelに貼ると半角数字に変わるので幸せです。


さて、これは簡単なケースでしたが、もっとややこしいケースはいっぱいあります。
よくあるのは、pdfコピペしたら改行がごんごん入っていて意味がわからない、というパターンです。
上のケースでは半角スペースをタブに変換しましたが、UnEditorの正規表現置換は、改行をタブに変換するということができます。

こんな感じで、改行が「\r\n」なので、それを「\t」に変換かければOKです。
そうすると横にながーい1行になりますが、区切り場所で自分で改行を突っ込んでいって、低労力で整理できることがあります。

注意点としては、間違えて置換してUndoするときに、「すべて置換」というのは一つの動作ではなく個々の1置換の集合体なので、 たくさんいっぺんに置換すると、実質的に元に戻せないということには注意しましょう。 (どこまでも遡れるんだけど、全部Undoするとまっさらだし、1つ1つ戻すには500とか1000とかUndoしなきゃいけないし、という感じで実質上戻せない)


あと、上のほうに書いたうち 2 and 3 のケースは、Brava Reader という大変あやしげなpdfリーダーをインストールすると、領域指定コピーで記載の順序どおりにコピペできたりします。ただしこのソフトすごくあやしいんだよね。。。あんまりすすめたくないんだよね。。。


というわけで、UnEditorの正規表現置換で、改行とタブをいりくりするとpdf起こしが楽、というおはなしでした。おわり。

Track Back

Track Back URL

コメントする

公開されません

(いくつかのHTMLタグ(a, strong, ul, ol, liなど)が使えます)