1. html2wiki
Contents
http://moinmo.in/HtmlConverter
- pythonにはhtml.parserがあるので、それを利用するのが楽だ。
python で書かれたものが動く。(wgetなどでは接続エラーになる。)
1.1. 動機
全文検索をやりたい。moinサイトはtext検索が復活して、使えている。
wnで動かしていたサイトもあって、以前は(全文)検索に重宝していたのだが、現在は使えなくなっている。httpserver
ということで、html をwikiに変換してしまえば、という怠けものの発想である。
-- ToshinoriMaeno 2021-04-25 01:17:00
wnなどを復活するとか、htmlページ検索ツールを動かすという手もある。
- こっちの方向でも調べてみよう。wnはなさそう。
-- ToshinoriMaeno 2021-04-25 01:17:00
1.2. HtmlConverter
http://moinmo.in/HtmlConverter
- リンク切れが多い。
https://docs.python.org/ja/3/library/html.parser.html
Perl版もある。
http://manpages.ubuntu.com/manpages/cosmic/man1/html2wiki.1p.html
Command 'html2wiki' not found, but can be installed with: sudo apt install libhtml-wikiconverter-perl
1.3. html parser
python/html.parser を利用する方法もある。 ParserMarket
https://docs.python.org/ja/3/library/html.parser.html
https://naruport.com/blog/2019/11/14/python-html-parser/
1.4. beautifulsoup4
これを使うのが楽そうだが、installは? /BeautifulSoup4
https://www.crummy.com/software/BeautifulSoup/
https://www.crummy.com/software/BeautifulSoup/bs4/doc/
https://pypi.org/project/beautifulsoup4/