2021年の個人的総括と2022年の目標
年の瀬ということで、2021年にやったことの振り返りと2022年でやりたいことをまとめようと思います。
まとめ
- やったことの大半は勤務先技術ブログの執筆
- 今年は研究発表ができた、来年は。。。
- 2022年やりたいこと:
- 来年ももう少し日本語要約を擦りたい
- 個人開発勉強する
- GECとかもちょっとやりたい
2021年にやったこと
2021年、世間一般に公開した内容を時系列順に挙げてみようと思います。
- 2021年1月: 勤務先技術ブログにて「AACL-IJCNLP2020で発表してきました」を公開
- 2021年3月: 言語処理学会第27回年次大会にて「CSJを用いた日本語話し言葉BERTの作成」を発表
- 2021年3月: 言語処理学会第27回年次大会にて「事前学習モデルを用いた少量データに対する日本語抽象型要約
」を発表 - 2021年3月: ジャーナル自然言語処理にて学会記事「Stronger Baselines for Grammatical Error Correction Using a Pretrained Encoder-Decoder Model. の採択までの流れ記事」が公開
- 2021年4月: 勤務先技術ブログにて「日本語話し言葉BERTを作成、公開します!」を公開
- 2021年5月: 勤務先技術ブログにて「事前学習モデルBARTを使って日本語文書要約をやってみた」を公開
- 2021年8月: 勤務先技術ブログにて「ACL2021のBest PaperのVOLTを日本語文書分類で試してみた結果...!」を公開
- 2021年9月: 勤務先技術ブログにて「ラベルなしデータだけでも高い精度で文法誤り訂正ができるLM-Criticの紹介」を公開
- 2021年9月: 日本語GPT-2を使ったデモアプリ「"小説家になろう"っぽい小説タイトルメーカー」を公開、紹介記事(Qiita)はこちら
- 2021年11月: 勤務先技術ブログにて「事前学習モデルT5とTransformersを使ってお手軽日本語文書要約をやってみた」を公開
- 2021年12月: 個人ブログ「塵も積もれば忘備録」を公開
勤務先の技術ブログ多いですね......
2021年前半を振り返って
1月から6月までを振り返ってみると、トピックとしては次の3つに分かれるみたいです。
- AACL-IJCNLP2020のネタ
- 言語処理学会第27回年次大会まわり
- 日本語BARTで要約
1と2は2020年にやってたネタです。(何なら1は2019年終わり辺りからちょっとやってたまである)
1については、学会記事なども書かせて頂いて、研究の始まりはかなりわちゃわちゃしていたような気がしますが、終わりはちゃんと振り返りまでできたような覚えがあります。
学会記事を書かせて頂いて、改めて解説記事、というか論文採択までの流れを説明するのって難しいなぁと感じました。。。
この学会記事シリーズは個人的に読み物としてもかなり面白く(とくに採択までの流れは普段聞けないのでおもしろい)、隙間時間にちょこちょこ読んで、勉強させていただいています。
2は社内でやっていた話を外に出せて良かったーという点が自分にとって大きかったと思います。
日本語要約はデータ用意したから発表しちゃえ、ぐらいの気持ちだったような気が。。。
思ったよりも出力する要約の抽象度が高いデータだったので、そもそもEnc-Decでできるのか不安とかもありましたが、やってみたら意外とできたこともあり、その後も割とこのデータを擦っている感じですね。
3からが2021年に入って始めたことになると思います。
年次大会で日本語BARTを作っていただいたことを知り、動かしたいーって思って数ヶ月。
動かした話を世間に公開できてよかったです。
2021年後半を振り返って
7月から12月までを振り返ってみると、トピックは次のようになります。
- 最新論文で遊ぶ
- 日本語T5で要約
- 個人開発をやってみた
1はただただ好奇心の産物です。
日本語でやってみるとどうなるかなー?的な疑問と、実際に自分で動かしてみたい気持ちでVOLTを触ってみたとかだったと思います。
LM-Criticも動かしてみたさはあったんですが、個人でやると絶対に重たいので断念、論文紹介に留めました。。。
来年もこういう記事はちょこちょこ出すだろうと思います。
2はせっかくあるなら動かそうのやつですね。
はじめてTransformersでEnc-Decやったんですが、めっちゃ簡単ですね。
OpenNMT-pyとかも当時は簡単だと思ったんですが、時代が進むとどんどん楽なものが出てくるんだなと実感させられました。
3は昨年からやりたいなと思いつつなかなかできなかった話ですね。
GPT-2デモの構成もそのうちどこかに書こうとは思うのですが、かなり簡単にできてます。
実際に作業しているときもググれば無限に解決策出てくるので、本当にいい時代になったものだと思いました。
2021年の総括
2021年、全体的には思ったより色々できなかったなーという印象です。。。
とくに個人開発周りとかはもっと色々できたかと。。。
平日もうちょっと時間作れればって後悔が大きいですね。
日本語要約で事前学習モデルを色々検証できたのは良かったかなと思います。
ひととおりはできたので、次は評価かデータセットか。
もう少し触りたいですね。
研究的な話は2020年にやったことが外に出た印象です。
来年は、、、どうなんでしょうね。。。
2022年の目標
2021年の振り返りから2022年の目標は次のようになるのかなと思います。
- 日本語要約の評価ないしはデータセット
- 開発周りをもう少し勉強する
- GECないしは校正支援まわりのなにかをやる
1は色々やって技術ブログで公開とかできるとよいのかなと思います。
とりあえずBERTScore触りたい触りたいめちゃくちゃ触りたい。
2は切実ですね。。。
作りながら覚えていくのが自分の性に合っているので、そんな感じで進められるといいのかなと思います。
3が急に来た感じではありますが、これは以前の記事でGECとかを考えて、自分でもなにかできたらな、みたいな気持ちが由来ですね。
次の年次大会での発表を聞いて、そこから自分でもぱっとできそうな話を考えようと思ってます。