dic-nico-intersection-pixivをpixivのサイトマップを使って生成するように変更しました

ncaq/dic-nico-intersection-pixiv: ニコニコ大百科とピクシブ百科事典の共通部分の辞書

東方天空璋が発売されたので,IME辞書を再生成しようと思いました.

軽量なネット用語辞書が欲しかったので,ニコニコ大百科とピクシブ百科事典の共通部分の辞書であるdic-nico-intersection-pixivを作りました - ncaqにも書いている通り,最後にサイトマップが存在することを指摘されました.

なので,そのように書き直しました.

サイトマップのスクレイピングにはhttp-conduit :: Stackage Serverxml-conduit :: Stackage Serverを使ったのですが,xml-conduitの使い方が全然わからず,非常に苦労しました.

最終的に,stackage外ですがdom-selector :: Stackage Serverを使うことで解決しました.(解決か?)(知識不足をライブラリでごまかしているだけでは…)

これにより,前とは比べ物にならない速さで辞書が生成されるようになりました.

すぐに辞書が生成されるなら,存在確認する単語を絞る必要もなくなります.なので,サーバに負荷をかけることなく単語量を60081まで増やすことができました.

ダウンロードは以下から.

https://cdn.ncaq.net/dic-nico-intersection-pixiv.txt