文章校正用の正規表現一覧(自分用)

自分用メモ。「#」から先はコメントなので正規表現ではない。



▼文を小分けにしたほうがいいもの

[^。「」『{}()?]{100,}。 #100文字以上の長いセンテンスにマッチ。

[^。「」『{}()?、]{50,} #読点や句点がないまま50文字以上の文章が続いているものを検出。適宜、読点「、」で区切ったほうがよい。

[ぁ-ん]{15,} #ひらがなが15文字以上連続する。適宜、読点「、」で区切ったほうがよい。



▼接続(詞)を変更したほうがよい

[^。「」『{}()?]{50,}が、#50文字以上のセンテンスが続いたあとに「が、」でセンテンスを繋いでいる。たぶん、センテンスを分けて接続詞を変更したほうがいい。

(しかし|が、|ところが|だが|ものの|けれども|かかわらず|それでいて|のに|それどころか|とはいっても).+(しかし|が、|ところが|だが|ものの|けれども|かかわらず|それでいて|のに|それどころか|とはいっても) #一段落の間に、逆説表現が複数回登場。段落を分けるか、論理構造を見直したほうがいい。

(、[^。]{0,10}){5,}。 #読点が頻出しすぎているきらいのある文を検出。


▼曖昧表現を見直したほうが良さそうなもの

(その|あの|この|それ|あれ[^ば]|これ)[^。]+(その|あの|この|それ|あれ[^ば]|これ) #指示代名詞が一文の中で連続するものを検出。

ような[^。「『{}(?]{0,20}ような #同一センテンス内で20文字以上離れていないところに「ような」が連続するものを検出。

(だろう|おそらく|ともいえる|かもしれない|思われる).+(だろう|おそらく|ともいえる|かもしれない|思われる) #曖昧な文末表現が同一段落内で連続している。

[的性][ぁ-ん][^。]+[的性][ぁ-ん] #「~的な」「~性が」といった曖昧表現がセンテンス内で連続して登場するものを検出。※論文とかだと「性」が連続することは多いので、このルールはなくてもいいかも。


▼体言止めの検出

[ァ-ヶ亜-熙]。 #文末の体言止めを検出

▼である調と、ですます調の混在の検出

(である|だ)。\n?.+(ます|です)。|(です|ます)。\n?.+(である|だ)。 #同一段落内のですます調の混在を検出

▼助詞を点検したほうがいいもの

助詞を正確に検出するのは正規表現だと少しむずかしい。MeCabとか茶筅とかの形態素解析エンジンを使ったら、だいぶきちんとできるだろう。下記は、やや強引に「たぶん、助詞が連続してるかも?」ぐらいのものと捉えてほしい。textlintとかに頼ったほうがいいかも。

表現1

(は[^。「」『{}()?]{0,5}){4,} #「は」が頻発するセンテンス。

(が[^。「」『{}()?]{0,5}){4,} #「が」が頻発するセンテンス。

(を[^。「」『{}()?]{0,5}){4,} #「を」が頻発するセンテンス。

(に[^。「」『{}()?]{0,5}){4,} #「に」が頻発するセンテンス。

(の[^。「」『{}()?]{0,5}){4,} #「の」が頻発するセンテンス。

表現2

([ァ-ヶ亜-熙]+は[^ぁ-ん。「」『{}()?]+は) #「は」が連続しているかも?

([ァ-ヶ亜-熙]+が[^ぁ-ん。「」『{}()?]+が) #「が」が連続しているかも?

([ァ-ヶ亜-熙]+を[^ぁ-ん。「」『{}()?]+を) #「を」が連続しているかも?

([ァ-ヶ亜-熙]+に[^ぁ-ん。「」『{}()?]+に) #「に」が連続しているかも?

([ァ-ヶ亜-熙]+の[^ぁ-ん。「」『{}()?]+の) #「の」が連続しているかも?

はが|がが|をが|にが|はを|がを|をを|にを|はに|がに|をに|にに #助詞の修正忘れ


■下記は必要に応じて

▼文中の数字の検出

[\d,0-9]{5,} #5桁以上のアラビア数字を検出。適宜、漢数字などに修正。

[ぁ-んァ-ヶ亜-熙]\d+[ぁ-んァ-ヶ亜-熙] #文中の半角数字を検出

▼表現の選定

([ァ-ヶ・]+[ぁ-ん亜-熙]+){3} #カタカナが頻発している箇所

[亜-熙]{5,} #5文字以上の漢字の連続

[ァ-ヶ・]{10,} #10文字以上のカタカナ

(なく|ない)[^。「『{}(?]{1,10}(なく|ない) #二重否定の検出

(?<=(\n|。))[ぁ-ん]+(?=[ァ-ヶ亜-熙\da-z、]) #文頭の接続詞を検出



▼関連:用語統一(置換処理)

これは、特に正規表現でなくてもいい。

置換前 置換後 備考
今年度 本年度 統一されていればどちらでも
例えば たとえば 文を柔らかくするかどうか
あそび 遊び どちらでも

■HELP:これらの正規表現の活用方法

  • (1)書きながら悪文を把握する
    • テキストエディタの強調表現登録をしておくと非常に便利。(#から後はコメントなので正規表現ではない。)
    • Emeditorであれば設定のプロパティの「強調(1)」から。秀丸であれば、ファイルタイプ別の設定の「デザイン」の項目から設定できる。
  • (2)書いた後に文を修正する
    • すでに書いた文を修正するために正規表現を使う。ただ、全体の構成を練り終わってから手を入れたほうがいいかもしれない。
  • (*)ワードプロセッサ正規表現を使う方法
    • Google documentは、最初から正規表現で検索・置換の処理が可能。
    • 問題は、MS Word。ワイルドカードは使えてもあまり細かいことはできない。オートコレクト機能がこうした文章構成のカスタマイズに対応しているが、できることが限られている。

■以上の校正でできていないこと

  • 校正的な部分
    • 手癖
      • 口語的表現(ちょっと、まずい、すごく)と、文語的表現の混合具合
      • 疑問文の連続:「●●とはどういうことだろうか?」が連続する
    • 論理展開が雑
      • 「ところで」「また」「さて」などの話題転換が、数パラグラフごとに連続
    • 書いた本人にわかりにくい部分
      • 主語を省略しすぎて不明瞭になっている箇所
      • 指示代名詞がわかりにくい箇所
  • 文章構成全体の問題:ほぼ何もできない。要約して論理構造を把握しなおしたり、削ったり、パワポ作ったりしながらやるしかない




■参考