自分用メモ。「#」から先はコメントなので正規表現ではない。
▼文を小分けにしたほうがいいもの
[^。「」『{}()?]{100,}。 #100文字以上の長いセンテンスにマッチ。
[^。「」『{}()?、]{50,} #読点や句点がないまま50文字以上の文章が続いているものを検出。適宜、読点「、」で区切ったほうがよい。
[ぁ-ん]{15,} #ひらがなが15文字以上連続する。適宜、読点「、」で区切ったほうがよい。
▼接続(詞)を変更したほうがよい
[^。「」『{}()?]{50,}が、#50文字以上のセンテンスが続いたあとに「が、」でセンテンスを繋いでいる。たぶん、センテンスを分けて接続詞を変更したほうがいい。
(しかし|が、|ところが|だが|ものの|けれども|かかわらず|それでいて|のに|それどころか|とはいっても).+(しかし|が、|ところが|だが|ものの|けれども|かかわらず|それでいて|のに|それどころか|とはいっても) #一段落の間に、逆説表現が複数回登場。段落を分けるか、論理構造を見直したほうがいい。
(、[^。]{0,10}){5,}。 #読点が頻出しすぎているきらいのある文を検出。
▼曖昧表現を見直したほうが良さそうなもの
(その|あの|この|それ|あれ[^ば]|これ)[^。]+(その|あの|この|それ|あれ[^ば]|これ) #指示代名詞が一文の中で連続するものを検出。
ような[^。「『{}(?]{0,20}ような #同一センテンス内で20文字以上離れていないところに「ような」が連続するものを検出。
(だろう|おそらく|ともいえる|かもしれない|思われる).+(だろう|おそらく|ともいえる|かもしれない|思われる) #曖昧な文末表現が同一段落内で連続している。
[的性][ぁ-ん][^。]+[的性][ぁ-ん] #「~的な」「~性が」といった曖昧表現がセンテンス内で連続して登場するものを検出。※論文とかだと「性」が連続することは多いので、このルールはなくてもいいかも。
▼体言止めの検出
[ァ-ヶ亜-熙]。 #文末の体言止めを検出
▼である調と、ですます調の混在の検出
(である|だ)。\n?.+(ます|です)。|(です|ます)。\n?.+(である|だ)。 #同一段落内のですます調の混在を検出
▼助詞を点検したほうがいいもの
助詞を正確に検出するのは正規表現だと少しむずかしい。MeCabとか茶筅とかの形態素解析エンジンを使ったら、だいぶきちんとできるだろう。下記は、やや強引に「たぶん、助詞が連続してるかも?」ぐらいのものと捉えてほしい。textlintとかに頼ったほうがいいかも。
表現1
(は[^。「」『{}()?]{0,5}){4,} #「は」が頻発するセンテンス。
(が[^。「」『{}()?]{0,5}){4,} #「が」が頻発するセンテンス。
(を[^。「」『{}()?]{0,5}){4,} #「を」が頻発するセンテンス。
(に[^。「」『{}()?]{0,5}){4,} #「に」が頻発するセンテンス。
(の[^。「」『{}()?]{0,5}){4,} #「の」が頻発するセンテンス。
表現2
([ァ-ヶ亜-熙]+は[^ぁ-ん。「」『{}()?]+は) #「は」が連続しているかも?
([ァ-ヶ亜-熙]+が[^ぁ-ん。「」『{}()?]+が) #「が」が連続しているかも?
([ァ-ヶ亜-熙]+を[^ぁ-ん。「」『{}()?]+を) #「を」が連続しているかも?
([ァ-ヶ亜-熙]+に[^ぁ-ん。「」『{}()?]+に) #「に」が連続しているかも?
([ァ-ヶ亜-熙]+の[^ぁ-ん。「」『{}()?]+の) #「の」が連続しているかも?
はが|がが|をが|にが|はを|がを|をを|にを|はに|がに|をに|にに #助詞の修正忘れ
■下記は必要に応じて
▼文中の数字の検出
[\d,0-9]{5,} #5桁以上のアラビア数字を検出。適宜、漢数字などに修正。
[ぁ-んァ-ヶ亜-熙]\d+[ぁ-んァ-ヶ亜-熙] #文中の半角数字を検出
▼表現の選定
([ァ-ヶ・]+[ぁ-ん亜-熙]+){3} #カタカナが頻発している箇所
[亜-熙]{5,} #5文字以上の漢字の連続
[ァ-ヶ・]{10,} #10文字以上のカタカナ
(なく|ない)[^。「『{}(?]{1,10}(なく|ない) #二重否定の検出
(?<=(\n|。))[ぁ-ん]+(?=[ァ-ヶ亜-熙\da-z、]) #文頭の接続詞を検出
▼関連:用語統一(置換処理)
これは、特に正規表現でなくてもいい。
置換前 | 置換後 | 備考 |
今年度 | 本年度 | 統一されていればどちらでも |
例えば | たとえば | 文を柔らかくするかどうか |
あそび | 遊び | どちらでも |
■HELP:これらの正規表現の活用方法
- (1)書きながら悪文を把握する
- (2)書いた後に文を修正する
- すでに書いた文を修正するために正規表現を使う。ただ、全体の構成を練り終わってから手を入れたほうがいいかもしれない。
- (*)ワードプロセッサで正規表現を使う方法
■以上の校正でできていないこと
- 校正的な部分
- 手癖
- 口語的表現(ちょっと、まずい、すごく)と、文語的表現の混合具合
- 疑問文の連続:「●●とはどういうことだろうか?」が連続する
- 論理展開が雑
- 「ところで」「また」「さて」などの話題転換が、数パラグラフごとに連続
- 書いた本人にわかりにくい部分
- 主語を省略しすぎて不明瞭になっている箇所
- 指示代名詞がわかりにくい箇所
- 手癖
- 文章構成全体の問題:ほぼ何もできない。要約して論理構造を把握しなおしたり、削ったり、パワポ作ったりしながらやるしかない
■参考
- 校正関連ツール
- textlint:Sublime TextやAtomなどのエディタ向け https://efcl.info/2015/09/10/introduce-textlint/
- textlintのChrome拡張機能版:http://io-monad.hatenablog.com/entry/2016/03/14/225800 自動処理でやれそうなことがあらかた入っている。
- JustRightPro 6:個人で買うにはそこそこの値段。助詞の連続とかの判定はしてくれる。
- Wordの校正機能:表記ブレチェックとかは有用。
- Enno
- Tomarigi:インストールがちょっとむずい。研究者が開発したもの。 http://www.pawel.jp/download/tomarigi/
- WildLight https://wildlight.blog/download/ MS Word用の翻訳者向けソフト。用語置換やマーキング等がいろいろとできるらしい。
- 文章校正支援ツール一覧 https://tarot-plot.com/special/
- 新聞社・出版社の手引き系
- http://www.bunka.go.jp/kokugo_nihongo/sisaku/joho/joho/series/21/21.html 文化庁 公文書の書き方資料集
- http://www.kyodo.co.jp/kkservice/HB/ 記者ハンドブック新聞用字用語集(共同通信社)
- http://www.chuko.co.jp/tanko/2014/03/004598.html 読売新聞用字用語の手引き(中央公論新社)
- http://publications.asahi.com/ecs/detail/?item_id=12200 朝日新聞用字用語の手引き(朝日新聞社)
- http://www.amazon.co.jp/dp/4620317950 毎日新聞用語集(毎日新聞社)
- http://www.amazon.co.jp/dp/4062653494 日本語の正しい表記と用語の辞典 第三版 講談社校閲局
- 文章論
- 関西大学 ライティングラボ http://www.kansai-u.ac.jp/ctl/labo/outcome/index.html 見どころが多い。 「レポートの書き方」「発展編」の要約論とかあつい。
- NHK 読み書きのツボ 5・6年生 http://www2.nhk.or.jp/school/movie/outline.cgi?das_id=D0005150027_00000
- 海燕(id:kaien)さんによる「あなたの文章を(ほんの少し)綺麗に見せる九つのテクニック」 http://d.hatena.ne.jp/kaien/20090509/p3
- Mayonez 文章力を向上!基本とトレーニング方法|文章力がない人の特徴 https://mayonez.jp/topic/3030
- 澤野弘『きちんと-伝わる-文章の書き方-身につく便利帖』 https://www.amazon.co.jp/dp/B00OUUXX7S
- 樫村博基(惑星学の研究者)「日本語の文章表現」https://www.gfd-dennou.org/arch/hiroki/homepage/main015.html 「文章の編み方」https://www.gfd-dennou.org/arch/hiroki/homepage/main014.html
- 文体論などの研究(古典研究系、文学研究系、第二言語学習系かで方向性がけっこう違うっぽい。)
- 佐久間まゆみ研究室 http://www.gsjal.jp/sakuma/lect.html
- 李 貞旼「文章論研究の概観」http://teapot.lib.ocha.ac.jp/ocha/bitstream/10083/48959/1/02-LeeJungmin-final.pdf
- 長崎秀昭「文章論的視点を応用した説明的文章指導の研究」http://siva.cc.hirosaki-u.ac.jp/center/kenkyuin/pdf/nagasaki08.pd