Медицинская база (сложные выборки)
Последний вариант тут:
https://drive.google.com/open?id=0B3i2SFYLER0HMVFSQVYyVFdjbmM
Только данных больше, ничего принципиально нового там нет.
Во-первых, дело в психологии. Чтобы что-то придумать, надо перестать барабанить по кнопкам и начать использовать. Только тогда в голову могут прийти какие-то новые мысли о том, что ещё надо сделать. Хотя это только необходимые условия вовсе не гарантирующие, что придумается что-то умное.
Во-вторых, такой анализ информации чем-то близкий к статистическому требует статистических же объемов. Вот я и засунула хоть что-то сопоставимое по объему. Вообще-то планирую засунуть ещё три главы и остановиться. Можно работать непрерывно, но нельзя делать одно и то же. Как руки надо менять, так и занятия. Без этого просто тупеешь. Т.е вбивать что-то можно, но вот придумать точно ничего не получится. Надо отложить в сторону чтобы какой-то участок головы отдохнул, что ли. А так и заготовка на будущее будет и уже вполне настоящая база по которой много чего найти можно (т.е полезная в хозяйстве вещь).
Добавлю сюда же что информация у меня довольно «грязная». Т.е что распознал FineReader то и распознал. Основную массу слов я не знаю и FineReader сомневается далеко не всегда когда надо бы. С этим теоретически надо что-то делать. Практически проблема может быть частично задавлена объемом информации. В организме много похожего.
Вот, например, про инфекционное заболевание «Рожа»:
Осложнения и последствия рожи могут быть такими же, как и при других стрептококковых болезнях (ревматизм, нефрит, миокардит),
… И не важно, что за «рожа» такая. Важно, что написано про типичное поведение стрептококков. Могу только предположить, что дело в гистологическом типе ткани, в которой они предпочитают жить. Важно то, что аналогичный вид информации скорее всего есть и для других болезней, ведь поведение типично. Где-то будет опечатка, а где-то текст распознан правильно и нужное слово будет найдено.
С отдельными кусками действительно можно делать что угодно. Пока есть возможность только быстро их находить и читать только их. Можно было искать в книге, но я – человек информационно избалованный и не люблю когда неудобно работать с информацией. Вот теперь удобно. Дальше можно делать что угодно. Надо только понять что. А тут вылезает следующая уже видная проблема: в базе всё есть, но я не знаю слов, которые надо искать. Из чего следует что следующее, что скорее всего потребуется – список хотя бы симптомов в виде отдельных объектов (список которых можно увидеть, не читая подряд все тексты).
Но это долго и не скоро. Просто такой список явно нужен чтобы этим мог пользоваться неспециалист.
Но можно обойтись и без этого списка. Достаточно довольно долго покрутить эти тексты перед глазами. Тогда какой-никакой список возникнет в собственной голове а не в базе данных. Для этого надо всё то же самое: вяло что-то по какому-то поводу вводить в строку поиска и читать то, что нашлось. Если этим заниматься достаточно долго то может возникнуть идея что-то автоматизировать. Ведь автоматизация в данном случае это заставить машину последовательно сделать несколько каких-то поисков и сделать выводы из результатам поисков, попросту говоря из того, что нашлось, а что не нашлось. Но вначале же надо придумать что и зачем искать.
Может быть задача проверки гипотезы. У меня слишком мало данных но если бы например вирусы в причинах постоянно вызывали пневмонию в осложнениях был бы повод поискать закономерности для бактерий и грибов. Запустить хоть список комбинаций – пусть ищет. А вдруг что-то найдётся? Более сложные варианты тоже могут быть. Реализация чего угодно (когда есть все данные) относительно проста. Сложно придумать, что и как искать. Для этого надо довольно долго искать какие-то комбинации, которые приходят в голову. Инструмент для этого есть. Анализ информации – возможный следующий шаг.
|