取得したHTMLファイルやXHTMLファイルの文字列を取り出した場合、それが文字参照や実体参照で書かれていると、表示上の文字と異なってしまう。そこで、文字列に文字参照や実体参照が含まれていた場合に、それを通常の文字に戻す処理が必要になる。
TinySegmenterのPHP版も見当たらなかったので、PHP版も作ってみた。
2008/08/16 01:01:06 投稿
http://www.programming-magic.com/20080816010106/
PHPでMeCabを使って形態素解析してみた。 環境は以下の通り。
2008/08/08 17:36:52 投稿
http://www.programming-magic.com/20080808173652/
Google App Engineではpure-Pythonなライブラリしか使えないため、Google App Engineで形態素解析をする場合には、Yahoo!の形態素解析サービスに処理を投げているものが多い。そうなると当然、他のサービスに依存してしまうため、そのサービスが落ちたりすると困ったことになる。できれば自分で形態素解析をしたいのだが、自分で全て書くには手間がかかるし、MeCabやChasenなどはpure-Pythonなものではないため使えない。
そこで「TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア」のTinySegmenterをPythonで書いてみた。
2008/07/26 20:38:44 投稿
http://www.programming-magic.com/20080726203844/
今更だが、JavaScriptでコードハイライトをしてくれるgoogle-code-prettify というものを知った。 C、C++、Java、Javascript、Python、Ruby、PHP、Perl、Bash、Awk、Makefiles、HTML、XML、CSSなど多数の言語に対応していて、私のサイトで使う言語はほぼカヴァーしているので、使ってみることにした。
※ 現在はgoogle-code-prettifyではなく、SyntaxHighlighterを改造したものを使っています。
2008/07/20 03:29:14 投稿
http://www.programming-magic.com/20080720032914/