ブログの更新って何ですか?!
というわけで例の線量マップとtwitterしかやってないnniです。ごぶさたしております。
先日とある意見交換会に出席させていただきまして、こんな資料(pdf)説明したりしました。
まぁそんなこんなで、最近多くの人にお手伝いいただき更新しているので、それに関してのエントリを書きます。
更新作業してない人にはなーんにも関係ないと思いますwww
pdfから1行1行コピペして発狂することはありせまんか? (あるあるー
最善かわかりませんが、私のやっている方法を書いておきます。
まず、エディタ! もう何も言わず UnEditor に決まってる!!! これ以外ありえねー
というわけで、いきなりWindowsの人対象になってしまうわけですが、まぁそんなこんなで。
以下、ひたすらUnEditorに依存しています。興味ある人はフリーのエディタなので、http://www.yokkasoft.net/ こちらのダウンロードページからどうぞ。
さて、ではこれからさいたま市の入力なので、それを実例にやってみますかね。。。
まず学校のpdfから。。。
pdfからのコピペって、
1. 素直にコピれるもの
2. 1セルの途中に改行が入っていて面倒なもの
3. 行のならびなどがぐちゃぐちゃになるもの
みたいな感じでいろいろです。
また、
a. Chromeで開いてコピる のと
b. FireFoxで開いてコピる(≒ダウンロードしてacrobatで開いてコピる) のと
c. ダウンロードしてBrava! Readerで開いてコピる この3種類で違うような気がします。(前2つは同じかもしれないけど違うときもあるような...)
今回のファイルは整然と並んでいるので 1-a でいきます。
Chromeの画面上で小さくして(1画面にコピるページが全部表示されるようにして)、ドラッグしてコピります。こんな感じ。

それをUnEditorでペーストします。

あまり手直しがいらなくて幸せな感じです:)
さて、ここでUnEditorが便利なところなのですが、セル区切りが半角スペースになっているので、半角スペースをタブに置換します。
検索 - 置換 で、こんなふうに入れます。「正規表現」にチェック入れるのがポイントです。

それで「すべて置換」とすると、

全部タブに置き換わりました。
あと、「北 区」みたいに全角スペースが入っていて邪魔なので、置換で全角スペース取ります。
元を「 」、置換先はブランクのままで。

そうしたら、もうそのまんまgoogle spreadsheetにコピペできます。おりゃっ

ちなみに、数字が全角の場合 (例 0.123 のような場合)、いったんExcelに貼ると半角数字に変わるので幸せです。
さて、これは簡単なケースでしたが、もっとややこしいケースはいっぱいあります。
よくあるのは、pdfコピペしたら改行がごんごん入っていて意味がわからない、というパターンです。
上のケースでは半角スペースをタブに変換しましたが、UnEditorの正規表現置換は、改行をタブに変換するということができます。

こんな感じで、改行が「\r\n」なので、それを「\t」に変換かければOKです。
そうすると横にながーい1行になりますが、区切り場所で自分で改行を突っ込んでいって、低労力で整理できることがあります。
注意点としては、間違えて置換してUndoするときに、「すべて置換」というのは一つの動作ではなく個々の1置換の集合体なので、
たくさんいっぺんに置換すると、実質的に元に戻せないということには注意しましょう。
(どこまでも遡れるんだけど、全部Undoするとまっさらだし、1つ1つ戻すには500とか1000とかUndoしなきゃいけないし、という感じで実質上戻せない)
あと、上のほうに書いたうち 2 and 3 のケースは、Brava Reader という大変あやしげなpdfリーダーをインストールすると、領域指定コピーで記載の順序どおりにコピペできたりします。ただしこのソフトすごくあやしいんだよね。。。あんまりすすめたくないんだよね。。。
というわけで、UnEditorの正規表現置換で、改行とタブをいりくりするとpdf起こしが楽、というおはなしでした。おわり。
コメントする